Co-EPG: 계획과 그라운딩의 공동 진화로 소량 데이터만으로도 GUI 자동화 에이전트 성능 극대화한 혁신적 자가 강화 프레임워크

안녕하세요 여러분! 오늘은 최근 인공지능 GUI 에이전트 분야 논문, “Co-EPG: Co-Evolution of Planning and Grounding in Autonomous GUI Agents”를 가지고 이야기해보려고 합니다. GUI 자동화는 AI가 실제 사용자처럼 웹이나 모바일 앱을 조작하게 하는 기술인데요, 이 논문은 “계획(Planning)”과 “그라운딩(Grounding)” 모델을 함께 진화시키는 혁신적인 프레임워크를 제안해 기존 연구들과 확실히 다른 강점을 보여줍니다.

1. GUI 에이전트, 왜 계획과 그라운딩이 중요할까요?

우리가 보통 웹페이지를 클릭하거나 앱에서 버튼을 누를 때, 사실 AI 에이전트도 두 가지 능력이 필요해요.

계획(Planning): 지금 화면과 과거 조작 내역을 보고 어떤 행동을 해야 할지 전략을 세우는 부분
그라운딩(Grounding): 화면에서 어떤 버튼을 누를지 정확한 위치를 찾아내는 부분

대부분 기존 연구들은 이 두 가지를 한 모델이나 독립적으로 각각 최적화하는 방식이 대부분이었는데, 이 논문은 둘을 서로 '공생'시키며 함께 발전시키자고 제안합니다.

2. 기존 방식과 뭐가 다를까요?

전통적 GUI 에이전트 연구들은 크게 두 흐름으로 나뉩니다.
1. 통합 모델(end-to-end): 하나의 모델이 계획과 그라운딩을 모두 처리하려 하지만, 성능 저하와 범용성 한계를 겪습니다.
2. 독립적 모델 최적화: 계획과 그라운딩을 각각 최적화하지만, 서로 간의 시너지를 활용하지 못해 발전이 멈출 위험이 있습니다.
데이터에 의존하는 점도 문제입니다. 방대한 합성 데이터에 의존하다 보니 데이터 품질 문제나 오버핏팅 이슈가 큽니다.

Co-EPG는 이 둘의 단점을 보완해, 계획과 그라운딩 모델이 상호 피드백과 데이터 생성–검증 루프를 돌며 함께 발전하는 방식을 택했습니다.

3. Co-EPG 핵심 기술: 자가 성장하는 ‘긍정적 반복 고리’

논문의 핵심은 바로 이 ‘코-에볼루션(Co-Evolution)’ 프레임워크입니다.

‘긍정적 피드백 루프’ 구조로,
계획 모델은 자기 전략을 ‘그라운딩 모델의 보상(Reward)’을 통해 더 효과적으로 탐색,
그라운딩 모델은 거기에 맞는 더 좋은 데이터로 자신을 계속 업그레이드!
이렇게 두 모델이 서로 부스팅하며 나아갑니다.

특히, 계획 모델 탐색에는 새로운 Group Relative Policy Optimization(GRPO) 강화학습 방법을 도입하고,

그라운딩 모델 평가에는 C-DREM (Confidence-based Dynamic Reward Ensemble Mechanism)이라는 동적 신뢰 기반 보상 앙상블 기법을 활용합니다.

이 방식 덕분에 보상 신호가 훨씬 정교해져 탐색의 효율성과 안정성이 크게 향상됩니다.

4. 이 논문이 보여주는 기술적 가치

① 모듈 분리와 상호작용의 균형 잡기

전통적인 end-to-end 모델 대비, Co-EPG의 P-G 듀얼 모델(계획과 그라운딩 각각에 특성화된 모델 분리)은 복잡한 멀티스텝 GUI 조작을 훨씬 유연하고 견고하게 처리합니다. 검증 결과 단일 모델 대비 3.4%p 성능 상승을 기록했습니다.

② 자가 증식하는 데이터 품질과 다양성

일반적으로 데이터를 더 만든다고 좋은 게 아니라, 생성 데이터의 품질과 다양성이 중요합니다.

Co-EPG는 각 반복 단계마다 계획 모델이 더 좋은 전략을 찾아내고, 그에 맞는 정확하고 다양한 실행 데이터가 쌓이며 데이터 질이 최대 8.8%p, 다양성은 4배 가까이 증가하는 자가 증식 효과를 증명했습니다.

③ 소량 데이터로도 성능 폭발

흥미롭게도, Co-EPG는 기존 최고 모델보다 40배 가까운 적은 지도 학습 데이터(2.42%)로도 비슷하거나 더 나은 성능을 냈습니다. 즉, synthetic data에만 의존하지 않고, 데이터의 가치를 최대한 활용하는 진짜 똑똑한 학습법입니다.

④ 강력하고 신뢰성 높은 보상 설계: C-DREM

기존 연구들이 단일 모델의 보상 신호에 의존하면 편향과 노이즈 문제가 심했는데요, C-DREM은 여러 그라운딩 모델 보상을 ‘신뢰도’에 따라 동적으로 가중 합산해서

보상 노이즈 최소화
강화학습 안정성 및 빠른 수렴 유도
성능 1.9%p 이상 향상

이라는 효과를 이끌어냈습니다.

5. 논문 결과를 실제 프로젝트에 적용하면?

계획과 그라운딩 모델 분리 설계를 기본으로 가져가면서, 각 모델이 서로 피드백하며 발전하도록 자가 학습 루프를 마련하세요.
특히, 강화학습 단계에서 다중 보상 모델 앙상블을 적극 활용해 보상 신뢰도를 높이시면 효율적인 학습이 보장됩니다.
이 과정에서 많은 외부 데이터나 레이블이 없어도 충분히 성능이 올라간다는 점도 큰 장점입니다.

6. 기존 논문들과 비교하는 간단 정리

논문 및 방법	구조	데이터	학습방식	주요 한계	Co-EPG 대비
WebVoyager (end-to-end)	단일 모델	대규모 합성 데이터	SFT + RL	범용성 낮음, 복잡도 과다	분리+코에볼루션으로 범용성↑
AGUVIS	모듈化, 데이터 증대	외부 대규모 데이터 활용	SFT	데이터 의존성 강함	데이터 절감, 자가 증식
Explorer	경로 탐색 데이터 활용	수작업 유발 데이터	RL 중심	보상 노이즈	C-DREM 통한 보상 안정화
Co-EPG	P-G 듀얼 모델 + 코에볼루션	기존 벤치마크 데이터만	SFT + GRPO 강화학습	-	자가 진화적, 데이터 효율 극대화

마무리하며…

GUI 자동화 에이전트, 특히 실제 현장에서 다양한 앱과 웹을 다룰수록 모델의 범용성과 지속적 개선은 필수 과제입니다. “Co-EPG”는 계획과 그라운딩 모델의 공동 진화를 통한 자가 강화를 처음으로 체계화했다는 점에서 연구적/기술적 의의가 크다고 할 수 있죠.

“단순히 모델을 키우는 게 아니라, 모델 간 협력과 신뢰를 기반으로 데이터와 보상을 극대화하며 지속 성장하는 AI” — 바로 이런 미래상을 제시하는 멋진 연구라고 생각합니다.

다가오는 GUI 자동화 프로젝트나 연구하시는 분들께 꼭 추천드리며, 특히 데이터가 부족하거나, 모델별 시너지를 내고 싶은 분들께 큰 도움이 될 거라고 자신합니다.

궁금하신 점이나 더 심층 토론 원하시는 부분 있으면 언제든 댓글 주세요!😀

원문 논문 링크: Co-EPG (arxiv)

감사합니다!

'AI' 카테고리의 다른 글

투명성과 확장성으로 무장한 AISAC: 진짜 과학 AI 협업 시대를 여는 다중 에이전트 시스템 혁신 (0)	2025.11.21
다중 에이전트와 RAG로 풀어낸 AI 음악 분석 혁신: 교육 현장과 18세기 악보까지 아우른 통합적 접근 (0)	2025.11.20
Co-EPG: 계획과 대상 위치 인식의 상호작용적 협진화로 GUI 에이전트 성능 한계 돌파 (0)	2025.11.18
의료 AI 혁신: 임상 협업 아키텍처로 불안정한 fine-tuning 한계 극복하고 신뢰도·설명력 동시 강화한 최신 의료 VQA 연구 (0)	2025.11.17
SynthTools: GPT 기반 자동 합성으로 수천 개 도구를 대규모 생성·검증해 AI 에이전트 현실적 도구 활용 혁신 (1)	2025.11.15