본문 바로가기

AI

Co-EPG: 계획과 대상 위치 인식의 상호작용적 협진화로 GUI 에이전트 성능 한계 돌파

안녕하세요, AI와 GUI 자동화 분야에 관심 있으신 여러분! 오늘은 최근에 발표된 “Co-EPG: A Framework for Co-Evolution of Planning and Grounding in Autonomous GUI Agents” 논문을 살펴보려고 합니다. 이 논문은 GUI 에이전트 설계에서 오랫동안 고민되었던 ‘계획(planning)’과 ‘대상 위치 파악(grounding)’ 두 능력의 공동 진화를 가능케 하는 새로운 학습 패러다임을 제시했는데요. 기존 연구와 무엇이 다른지, 기술적으로 어떤 점이 뛰어난지 설명드릴게요.


GUI 에이전트, 왜 ‘계획+대상 파악’ 공동 학습이 필요한가?

GUI 작업 자동화는, 예를 들어 웹사이트나 모바일 앱에서 사용자의 목표를 대신 이행하는 인텔리전트 에이전트를 만드는 일입니다. 이런 에이전트를 작동시키려면 크게 두 가지 중요한 역량이 필요합니다.

  1. 계획(Planning): 현재 화면 상태를 바탕으로 어떤 행동을 내려야 할지 결정하는 전략 수립,
  2. 대상 위치 파악(Grounding): 실제 화면에서 클릭이나 타이핑 같은 행동 대상이 어디인지 정확히 찾는 것.

기존에 많이 쓰던 방법은 LLM(대형 언어 모델)이나 VLM(비전 언어 모델)을 하나로 통합해 전반적 행동 생성에 주력하는 엔드-투-엔드(end-to-end) 접근법이었는데요. 그러나 이는 환경이 조금만 달라져도 성능이 확 떨어지고, 모델이 폭넓은 시각정보를 해석하는 데 한계가 있습니다.

 

그래서 근래에는 ‘계획’과 ‘대상 파악’을 명확히 분리한 모듈러(moduled) 아키텍처가 주목받고 있죠. 하지만 이 또한 둘 사이가 각자 독립적으로 최적화되는 한계가 있고, 대량 합성 데이터에 지나치게 의존해 노이즈도 많고 데이터의 효용성을 극대화하지 못해왔습니다.


Co-EPG: 계획과 대상 파악의 ‘공진화’를 위한 선순환 루프

Co-EPG는 Planning과 Grounding 모델을 따로 분리(P-G Dual-Model)해 각자의 전문성을 살리면서, 두 모델이 서로 상호 영향을 주고받으며 공동으로 성장(co-evolution)하는 셀프-이터레이티브(self-iterative) 학습 루프를 돌립니다.

  • 기획자 역할의 Planning 모델은 GRPO(Group Relative Policy Optimization)라는 보상 기반 강화학습 방식을 통해, 현재 Grounding 모델이 평가하는 보상에 따라 더 좋은 행동 전략을 탐색합니다.
  • 그렇게 나온 다양한 계획은 Grounding 모델의 학습 데이터로 활용되어 그 인식 능력을 계속 높입니다.
  • 향상된 Grounding 모델은 더 정확하고 신뢰도 높은 보상 신호를 Planning 쪽에 다시 피드백해 함께 고도화됩니다.

이 셀프-개선 사이클을 3회 반복한 결과, 기존 최고 성능 모델을 뛰어넘는 좋은 성과를 냈다는 점에서 실로 주목할 만합니다.


기존 논문들과의 핵심 차이점: 왜 Co-EPG인가?

  1. 분리된 모델의 ‘독립 최적화’ 탈피 → 상호 보완적 ‘공진화’
    • 기존에는 Planning과 Grounding 모델이 따로따로 최적화돼 한쪽이 잘 돼도 다른 쪽이 따라가지 못하며 전체 성능 한계가 뚜렷했죠.
    • Co-EPG는 ‘계획이 Grounding 데이터 품질에 영향, Grounding이 계획 보상에 영향’이라는 선순환 루프를 통해 지속 학습 및 개선이 가능케 합니다.
  2. 대용량 합성 데이터 의존도 감소 → ‘내재 데이터’ 활용 극대화
    • AGUVIS 같은 모델은 외부에서 방대한 양의 부가 데이터셋을 만드는데 리소스가 많이 들고 노이즈 문제도 없지 않았습니다.
    • Co-EPG는 기존 원천 데이터를 바탕으로 자체 증식시켜 데이터 순도가 최대 8.84% 개선되고 다양성도 4배 늘어납니다. 즉, 적은 데이터로 뛰어난 성능을 냅니다.
  3. 신뢰도 기반 다중 Grounding 모델 앙상블(C-DREM)의 도입
    • 보상 신호를 한 모델에만 의존하면 편향과 노이즈에 취약합니다.
    • Co-EPG는 자체 훈련된 Grounding 모델과 2개의 강력한 공개 VLM을 동적 가중합해 ‘보다 정확하고 안정적인’ 보상을 제공합니다. 이 덕분에 정책 탐색이 빠르고 안정적입니다.

주요 기술적 하이라이트 정리

  • P-G 듀얼 모델로 구조적 분리: Planning(계획 수립)과 Grounding(대상 위치 파악)을 명확히 나누어 각 모듈 특화.
  • GRPO 강화학습과 C-DREM 보상을 통한 협업진화: 계획-대상파악 모델 협업시 신뢰도 가중치 기반 합성 보상으로 강화학습 안정화.
  • 셀프 이터레이션 최적화 루프: 데이터셋과 모델 성능이 상호작용하며 반복 개선.
  • 데이터 효율성 극대화: 기존 최고모델 대비 실제 사용 데이터는 2.42% 수준으로 크게 절감.
  • 크로스 플랫폼, 멀티 태스크에 걸친 강력한 일반화 능력.

실제 사용 관점에서의 매력 포인트

  1. 적은 데이터 + 적절한 협업만으로 성능 한계 돌파
    • 데이터 증설 비용 없이도 동적 협업 보상체계 덕분에 모델이 똑똑하게 스스로 발전합니다.
  2. 모듈을 별도로 다듬고 강화학습 병행이라 디버깅·확장성 용이
    • 모노리식(end-to-end) 모델의 블랙박스 문제 해소 및 GUI 환경 확장에 용이한 설계.
  3. 비단 웹뿐 아니라 안드로이드, 데스크탑 GUI까지 범용 가능
    • 실제 상용 환경에 바로 적용 가능한 폭넓은 환경 적응성 보유.

마무리하며

지금까지 소개한 Co-EPG는 GUI 에이전트 분야에서 ‘계획과 인지능력’이 진화하는 상호작용적 협업 학습 패러다임을 처음으로 제안한 매우 혁신적인 연구입니다. 단순히 고성능 모델을 만드는 데 그치지 않고, ‘어떻게 모델끼리 윈윈하며 성장하는가’를 기술적으로 풀어냈다는 점에서 의미가 큽니다.

 

앞으로 이 패러다임이 다양한 멀티모달 AI 에이전트, 로보틱스 자율 시스템 등 다른 분야에도 큰 영감을 줄 수 있을 것으로 기대합니다.

 

관심 있으신 분은 실제 실험 코드와 데이터 그리고 더 상세한 기술 내용을 논문 원문(arxiv 링크)에서 꼭 확인해 보세요!


오늘 글이 GUI 에이전트 기술의 미래를 이해하는 데 도움이 되셨길 바라며, 재미있는 AI 연구 소식으로 또 찾아뵙겠습니다. 감사합니다!