안녕하세요! 오늘은 2025년에 발표된 최신 논문 “INFIGUI-G1: Advancing GUI Grounding with Adaptive Exploration Policy Optimization”를 살펴보려고 합니다. GUI(그래픽 사용자 인터페이스) 에이전트 분야에서 혁신적인 접근법을 제시해 주목받는 이 연구가 특히 기존 RL기반 GUI 에이전트들과 어떻게 다른지, 그리고 실제로 기술적으로 어떠한 가치를 제공하는지 풀어드릴게요.
1. GUI 에이전트, 왜 중요할까요?
우리가 흔히 쓰는 스마트폰, 컴퓨터 앱 등에서 사람이 직접 클릭하지 않고, AI가 화면 속 버튼이나 아이콘을 파악해 조작할 수 있다면 얼마나 편리할까요? 자연어 명령(예: “카메라로 물건 찾아줘”)을 인식해 정확한 위치를 찾아 클릭하는, 이게 바로 GUI grounding의 핵심 작업입니다.
하지만 문제는 단순히 위치(Spatial Alignment)만 맞추는 게 아니고, 진짜 의미에 맞는 버튼(Semantic Alignment)을 고르는 게 훨씬 어렵다는 점! 많은 기존 연구들은 ‘어디를 클릭해야 할지 정확히 맞히는’ 데 초점을 맞췄지만, 의미 파악에서 오류가 발생하면 잘못된 곳을 정확히 눌러서 쓸데없는 결과가 나오곤 했죠.
2. AEPO, 이 논문이 가져온 기술적 혁신
기존 Reinforcement Learning with Verifiable Rewards(RLVR) 기법은 위치 맞추기는 잘 하는데, 모델이 “항상 자신 있는 답만 반복적으로 시도해서” 어려운 의미적 정렬 문제를 해결하지 못하는 ‘탐험 부족(Exploration Bottleneck)’ 문제가 있었습니다.
그래서 이 논문이 제안한 방법:
- Adaptive Exploration Policy Optimization (AEPO)
→ 한 번에 ‘다양한 답변 후보’를 생성하는 Multi-Answer Generation 전략을 적용해 더 넓은 탐험 공간을 확보합니다. - Adaptive Exploration Reward (AER)
→ 보상이 고정적이지 않고, 상황에 따라 다르게 조절되어 고효율 탐험을 유도하며 불필요한 시도는 줄입니다. 즉, ‘최적의 답을 빨리 찾도록’ 학습하는 데 핵심 역할. - Collinear Penalty
→ 생성된 후보들이 단순히 나란히 늘어서서 비효율적으로 탐험하는 걸 방지하는 장치로, 진정한 ‘의미 공간’에서 다양성을 확보합니다.
이 세 축이 합쳐져 AEPO는 기존 RLVR 방식을 뛰어넘는 효율적인 정책학습을 가능하게 했습니다.
3. 기존 연구와 무엇이 다른가요?
- 기존 연구(예: SeeClick, GUI-R1, UI-TARS 등)
대부분 하나의 답변만 생성해 정책을 업데이트하고, 탐험이 편향되고 답을 찾지 못하는 경우가 많았어요. 예를 들어 ‘카메라’라는 버튼만 고집하는 유명한 ‘확신 함정(confidence trap)’에 빠졌죠. - AEPO의 멀티-답변 생성
한 번에 여러 후보를 만들어보고 그 중 맞는 것에 큰 보상을 주면서, 틀려도 벌점이 커서 ‘무작위/단순한 스캔’이 아닌 효율적인 탐색을 가능케 했습니다. - 이론적 근거가 뒷받침된 보상체계
단순한 위치 중심 보상이 아닌, ‘효율성’ 지표(utility/cost)를 기반으로 보상을 계산해 탐험과 수렴 간 균형을 동적으로 맞췄습니다.
이는 단순 ‘RL fine-tuning’ 이상으로, 강화학습 내 ‘탐험(exploration)’ 설계에 신선한 시사점을 제공합니다.
4. 성능, 그리고 실제 가치
- 44,000개 데이터 샘플 만으로, 대형 모델 대비 적은 데이터에도 뛰어난 성능을 거뒀습니다. (기존 100만개 이상 쓰는 SFT 대비 압도적 데이터 효율)
- ‘Icon 기반 뜻 매칭’이 특히 어려운 과제에서 60% 이상 상대 성능 향상을 기록, 플러그인 방식 GUI 조작 자동화 분야에서 큰 의의가 있죠.
- 네이버의 UI-Vision, MS의 ScreenSpot-Pro 등 총 5개 벤치마크 모두에서 강력한 범용성 입증
- 탐험 성공률 측면에서 기존 재실행 답변(pass@k) 방식을 한 번의 다중답 생성으로 뛰어넘는 효율성
5. 앞으로의 전망과 과제
- 멀티답 생성이니 계산 비용은 더 들지만, 실제 산업 적용하려면 더 빠른 탐험 방법 고민 필수
- 백본 MLLM의 비주얼 인식 능력 한계가 성능 한계 요인, 최신 시각 엔코더와 결합 필요
- RL 탐험 문제와 ‘확신 함정’은 GUI Grounding뿐 아니라, 로봇 제어나 복잡한 계획 문제에도 아이디어 차용 가능성 큼
마치며
이번 INFIGUI-G1 연구는 AI가 단순히 ‘눈에 보이는 위치’를 맞히는 걸 넘어서, ‘진짜 의미 있는 버튼’을 제대로 찾게 하는 RL 탐험의 새 패러다임을 제시했습니다. 기존 RL 방식의 약점인 낮은 탐험 다양성과 확신 함정 문제를 ‘한 번에 여러 후보를 본다’는 아주 직관적이면서, 효율성에 기반한 보상 설계로 스마트하게 해결했죠.
GUI 자동화, AI 기반 화면 조작 분야의 미래는 이렇게 멋진 RL 전략과 더 강력해진 MLLM 덕에 단순히 ‘버튼 클릭’에서 ‘진정한 이해’ 단계로 점점 진화하고 있습니다. 저 같은 AI 연구자뿐 아니라, 실제 개발자분들께서도 이번 논문의 AEPO 프레임워크와 InfiGUI-G1 모델을 주목하시면 좋겠네요!
더 자세한 내용이나 소스코드는 인피X AI GitHub에서 확인하실 수 있으니 궁금하시면 방문해보세요~
그럼 다음 리서치 리뷰 때 또 만나요! 😊
참고: 본 리뷰는 INFIGUI-G1 논문(arXiv) 을 바탕으로 작성되었습니다.
'AI' 카테고리의 다른 글
| QuickMerge++: 엔트로피 기반 토큰 병합으로 2배 압축·성능 향상·AR 생성모델 효율 혁신 (0) | 2025.08.21 |
|---|---|
| 의료 AI 혁신의 새 기준, QuarkMed: 권위 데이터·다단계 RL·RAG 결합으로 정확성과 신뢰성 모두 잡다 (0) | 2025.08.20 |
| MedErr-CT: 3D CT 영상 기반 멀티모달 대형언어모델이 의료 보고서 오류를 인지하고 교정하는 첫 실증적 평가 (5) | 2025.08.11 |
| PARAM: AI가 산업설비 점검을 실시간 ‘진단’을 넘어 ‘처방’까지 바꾼 혁신적 프레임워크 (6) | 2025.08.09 |
| MI9: 에이전트 AI의 런타임 행동을 실시간 감시·제어해 ‘행동 주체’ AI 시대 안전성과 효율성을 혁신하다 (2) | 2025.08.08 |