안녕하세요! 오늘은 최근 발표된 논문 “GUI-EYES: Tool-Augmented Perception for Visual Grounding in GUI Agents”를 리뷰하며, 기존 연구들과의 차별점 및 혁신 포인트를 풀어보겠습니다.
GUI 자동화를 한 단계 업그레이드한 GUI-EYES 기술 소개!
GUI(그래픽 유저 인터페이스) 자동화 분야는 요즘 대세인 멀티모달 대형 언어 모델과 강화학습의 결합으로 급성장하고 있어요. 하지만 대부분 기존 연구들은 한 번에 주어진 화면 정보만 보고 판단하는 “수동적”인 모델이었죠. 이 방식은 복잡하거나 낯선 UI에서는 인지 능력에 한계가 있었고요.
그런데 이번에 나온 GUI-EYES는 “적극적인 시각 인지(active perception)” 개념을 도입해 눈에 보이는 정보를 스스로 선택하며 가져오는, 말 그대로 사람처럼 ‘보는 법’을 학습한 모델입니다. 덕분에 한 화면을 그대로 받는 게 아니라, 필요에 따라 화면 일부분을 잘라내거나 확대해서 더 집중해서 판단하는 거죠.
GUI-EYES: 핵심 기술은 ‘능동적 시각 툴 활용’ 그리고 ‘다단계 추론’
이 기술이 기존 GUI 에이전트 연구들과 가장 크게 다른 점은 두 가지로 요약할 수 있어요.
- 1) 툴을 통한 능동적 시각 관찰:
일반적인 모델들은 스크린샷 하나 받으면 그걸로 끝인데, GUI-EYES는 ‘이 화면에서 어디를 봐야 할까?’를 학습해서 필요하면 화면 자르기(crop)나 확대(zoom)를 직접 결정합니다. 즉, “볼지 말지”, “어디를, 얼마나 볼지”를 상황에 맞게 능동적으로 판단해요. - 2) 두 단계로 나누어진 인지-추론 루프:
처음엔 전체 화면을 대강 훑고, 두 번째 스테이지에선 그 중 중요한 부분을 정밀 분석해서 정확한 위치를 맞춰내요. 이런 “점진적 추론(progressive inference)” 구조로 더 정교한 의사결정이 가능해졌죠.
차별화된 보상 설계로 강화학습 안정화
GUI 에이전트는 보통 행동 예측에 텍스트 기반 보상만 써왔는데, GUI-EYES는 ‘공간적 연속성’ 개념을 도입한 보상 함수로 혁신을 이뤘어요.
- 지정된 기준 위치와 실제 UI 요소 위치가 얼마나 가까운지(중심점 거리)
- 툴로 선택한 영역과 실제 요소 영역이 얼마나 겹치는지(영역 중첩도)
이 두 요소를 합친 보상 체계를 만들면서, 툴을 어떻게 활용할지에 대한 학습이 훨씬 안정적이고 풍부해졌습니다. 기존 모델들은 보상이 너무 단순하거나 희박해서 학습이 어려웠죠.
적은 데이터, 훨씬 나은 성능 – 실험 결과가 증명!
놀라운 점은, GUI-EYES는 불과 3,000개 정도의 라벨링된 샘플만으로도 기존 모델 대비 현저히 뛰어난 성능(스크린스팟 프로(ScreenSpot-Pro) 벤치마크 기준 44.8% 정확도)을 내놨다는 겁니다.
특히 기존 RL 모델인 GUI-R1이나 GUI-G1보다도 더 적은 데이터와 강화학습만으로 훨씬 고른 성능 향상(텍스트 기반 작업과 아이콘 기반 작업 모두에서)을 보여줬는데요, 이는 ‘능동적으로 보는 법’을 학습시킨 덕분입니다.
또한, 화면 복잡도가 높거나 시각 신호가 희미한 환경에서도 견고한 인지 능력을 유지해, 실제 업무 환경과 비슷한 고해상도, 전문 UI 환경에서도 두각을 나타냈죠.
기존 연구 대비 크게 개선된 점
| 기존 연구의 특징 | GUI-EYES의 차별점 |
| 수동적이고 정적인 화면 입력 | 능동적이고 동적인 툴 선택 가능 (크롭, 줌) |
| 텍스트 중심 보상 설계 | 공간적 인지 및 툴 사용을 반영한 정교한 보상 |
| 대량 데이터 의존도 높음 | 수천 개 데이터만으로도 뛰어난 성능 발휘 |
| 단일 추론 단계 | 점진적, 다단계 추론 루프 도입 |
| 시각 정보 활용 제한적 | 적극적인 시각 정보 취득 및 처리 학습 |
왜 기술적으로 가치가 높을까요?
- 데이터 효율성 증가
라벨 데이터 수천 개만으로 고성능 달성 가능! 실제 산업에서 수백만 건 수집이 어려운 상황에서 큰 가치. - 실제 UI 환경 적응력 향상
툴을 통한 능동적 관찰이 가능해져 복잡한 UI, 다중 해상도 환경에서 성능가짐. - 범용성 및 확장성
크롭이나 줌 같은 시각 도구는 추가 가능 툴로 확장이 용이해 다양한 GUI 환경에 대응 가능. - 강화학습과 멀티모달 모델의 시너지
텍스트-이미지 정보를 통합해 강화학습으로 효과적으로 정책을 학습시켜, 기존의 단순 지도학습 대비 더 뛰어난 일반화 달성.
마무리하며: GUI 자동화의 미래 열어가는 GUI-EYES
기존 GUI 에이전트가 ‘보여지는 것’을 수동으로 받아들이고 행동했다면, GUI-EYES는 스스로 ‘무엇을, 얼마나, 어떻게 볼지 결정하는’ 능동적 관찰자로 진화한 모습입니다. 이것은 마치 사람이 복잡한 화면을 직접 확대하거나 특정 부분만 집중해서 보는 것과 비슷하죠.
강화학습으로 눈에 보이는 정보를 능동적으로 활용하는 이번 접근은, 사용자가 겪을 실제 복잡한 인터페이스 환경에서 더 유연하고 지능적으로 대응할 수 있다는 점에서 대단한 의미가 있습니다. 데이터 수집 부담도 크게 줄였으니, 앞으로 실전 적용 가능성도 무척 높아 보입니다.
GUI 자동화를 다루는 분들이라면, 기존 정적 방법론의 한계를 극복한 GUI-EYES의 강화학습 + 능동적 툴 활용 프레임워크는 꼭 눈여겨볼 최신 기술입니다!
읽어주셔서 감사합니다! 혹시 GUI 자동화, 멀티모달 AI, 강화학습 등에 관심 있으시면 댓글로 궁금한 점 남겨주세요. 다음에도 기술적으로 흥미로운 최신 연구를 쉽게 설명해드릴게요! 😊
참고
Chen Chen 외, GUI-EYES 논문 (arXiv 2601.09770v1)