본문 바로가기

AI

Co-EPG: 계획과 그라운딩의 공동 진화로 소량 데이터만으로도 GUI 자동화 에이전트 성능 극대화한 혁신적 자가 강화 프레임워크

안녕하세요 여러분! 오늘은 최근 인공지능 GUI 에이전트 분야 논문, “Co-EPG: Co-Evolution of Planning and Grounding in Autonomous GUI Agents”를 가지고 이야기해보려고 합니다. GUI 자동화는 AI가 실제 사용자처럼 웹이나 모바일 앱을 조작하게 하는 기술인데요, 이 논문은 “계획(Planning)”과 “그라운딩(Grounding)” 모델을 함께 진화시키는 혁신적인 프레임워크를 제안해 기존 연구들과 확실히 다른 강점을 보여줍니다.


1. GUI 에이전트, 왜 계획과 그라운딩이 중요할까요?

우리가 보통 웹페이지를 클릭하거나 앱에서 버튼을 누를 때, 사실 AI 에이전트도 두 가지 능력이 필요해요.

  • 계획(Planning): 지금 화면과 과거 조작 내역을 보고 어떤 행동을 해야 할지 전략을 세우는 부분
  • 그라운딩(Grounding): 화면에서 어떤 버튼을 누를지 정확한 위치를 찾아내는 부분

대부분 기존 연구들은 이 두 가지를 한 모델이나 독립적으로 각각 최적화하는 방식이 대부분이었는데, 이 논문은 둘을 서로 '공생'시키며 함께 발전시키자고 제안합니다.


2. 기존 방식과 뭐가 다를까요?

  • 전통적 GUI 에이전트 연구들은 크게 두 흐름으로 나뉩니다.
    1. 통합 모델(end-to-end): 하나의 모델이 계획과 그라운딩을 모두 처리하려 하지만, 성능 저하와 범용성 한계를 겪습니다.
    2. 독립적 모델 최적화: 계획과 그라운딩을 각각 최적화하지만, 서로 간의 시너지를 활용하지 못해 발전이 멈출 위험이 있습니다.
  • 데이터에 의존하는 점도 문제입니다. 방대한 합성 데이터에 의존하다 보니 데이터 품질 문제나 오버핏팅 이슈가 큽니다.

Co-EPG는 이 둘의 단점을 보완해, 계획과 그라운딩 모델이 상호 피드백과 데이터 생성–검증 루프를 돌며 함께 발전하는 방식을 택했습니다.


3. Co-EPG 핵심 기술: 자가 성장하는 ‘긍정적 반복 고리’

논문의 핵심은 바로 이 ‘코-에볼루션(Co-Evolution)’ 프레임워크입니다.

  • ‘긍정적 피드백 루프’ 구조로,
  • 계획 모델은 자기 전략을 ‘그라운딩 모델의 보상(Reward)’을 통해 더 효과적으로 탐색,
  • 그라운딩 모델은 거기에 맞는 더 좋은 데이터로 자신을 계속 업그레이드!
  • 이렇게 두 모델이 서로 부스팅하며 나아갑니다.

특히, 계획 모델 탐색에는 새로운 Group Relative Policy Optimization(GRPO) 강화학습 방법을 도입하고,

그라운딩 모델 평가에는 C-DREM (Confidence-based Dynamic Reward Ensemble Mechanism)이라는 동적 신뢰 기반 보상 앙상블 기법을 활용합니다.

이 방식 덕분에 보상 신호가 훨씬 정교해져 탐색의 효율성과 안정성이 크게 향상됩니다.


4. 이 논문이 보여주는 기술적 가치

① 모듈 분리와 상호작용의 균형 잡기

전통적인 end-to-end 모델 대비, Co-EPG의 P-G 듀얼 모델(계획과 그라운딩 각각에 특성화된 모델 분리)은 복잡한 멀티스텝 GUI 조작을 훨씬 유연하고 견고하게 처리합니다. 검증 결과 단일 모델 대비 3.4%p 성능 상승을 기록했습니다.

② 자가 증식하는 데이터 품질과 다양성

일반적으로 데이터를 더 만든다고 좋은 게 아니라, 생성 데이터의 품질과 다양성이 중요합니다.

Co-EPG는 각 반복 단계마다 계획 모델이 더 좋은 전략을 찾아내고, 그에 맞는 정확하고 다양한 실행 데이터가 쌓이며 데이터 질이 최대 8.8%p, 다양성은 4배 가까이 증가하는 자가 증식 효과를 증명했습니다.

③ 소량 데이터로도 성능 폭발

흥미롭게도, Co-EPG는 기존 최고 모델보다 40배 가까운 적은 지도 학습 데이터(2.42%)로도 비슷하거나 더 나은 성능을 냈습니다. 즉, synthetic data에만 의존하지 않고, 데이터의 가치를 최대한 활용하는 진짜 똑똑한 학습법입니다.

④ 강력하고 신뢰성 높은 보상 설계: C-DREM

기존 연구들이 단일 모델의 보상 신호에 의존하면 편향과 노이즈 문제가 심했는데요, C-DREM은 여러 그라운딩 모델 보상을 ‘신뢰도’에 따라 동적으로 가중 합산해서

  • 보상 노이즈 최소화
  • 강화학습 안정성 및 빠른 수렴 유도
  • 성능 1.9%p 이상 향상

이라는 효과를 이끌어냈습니다.


5. 논문 결과를 실제 프로젝트에 적용하면?

  • 계획과 그라운딩 모델 분리 설계를 기본으로 가져가면서, 각 모델이 서로 피드백하며 발전하도록 자가 학습 루프를 마련하세요.
  • 특히, 강화학습 단계에서 다중 보상 모델 앙상블을 적극 활용해 보상 신뢰도를 높이시면 효율적인 학습이 보장됩니다.
  • 이 과정에서 많은 외부 데이터나 레이블이 없어도 충분히 성능이 올라간다는 점도 큰 장점입니다.

6. 기존 논문들과 비교하는 간단 정리

논문 및 방법 구조 데이터 학습방식 주요 한계 Co-EPG 대비
WebVoyager (end-to-end) 단일 모델 대규모 합성 데이터 SFT + RL 범용성 낮음, 복잡도 과다 분리+코에볼루션으로 범용성↑
AGUVIS 모듈化, 데이터 증대 외부 대규모 데이터 활용 SFT 데이터 의존성 강함 데이터 절감, 자가 증식
Explorer 경로 탐색 데이터 활용 수작업 유발 데이터 RL 중심 보상 노이즈 C-DREM 통한 보상 안정화
Co-EPG P-G 듀얼 모델 + 코에볼루션 기존 벤치마크 데이터만 SFT + GRPO 강화학습 - 자가 진화적, 데이터 효율 극대화

마무리하며…

GUI 자동화 에이전트, 특히 실제 현장에서 다양한 앱과 웹을 다룰수록 모델의 범용성과 지속적 개선은 필수 과제입니다. “Co-EPG”는 계획과 그라운딩 모델의 공동 진화를 통한 자가 강화를 처음으로 체계화했다는 점에서 연구적/기술적 의의가 크다고 할 수 있죠.

 

“단순히 모델을 키우는 게 아니라, 모델 간 협력과 신뢰를 기반으로 데이터와 보상을 극대화하며 지속 성장하는 AI” — 바로 이런 미래상을 제시하는 멋진 연구라고 생각합니다.

 

다가오는 GUI 자동화 프로젝트나 연구하시는 분들께 꼭 추천드리며, 특히 데이터가 부족하거나, 모델별 시너지를 내고 싶은 분들께 큰 도움이 될 거라고 자신합니다.

 

궁금하신 점이나 더 심층 토론 원하시는 부분 있으면 언제든 댓글 주세요!😀


원문 논문 링크: Co-EPG (arxiv)

감사합니다!