본문 바로가기

AI

Surfer 2: 시각 기반 범용 GUI 에이전트의 혁신적 3중 모듈 설계가 AI 자동화 성능과 안정성의 새 기준을 제시하다

안녕하세요! 오늘은 2025년 10월에 발표된 최신 논문, “Surfer 2: The Next Generation of Cross-Platform Computer Use Agents”를 살펴보려고 합니다. 이 논문은 웹, 데스크톱, 모바일 환경을 아우르는 범용 GUI 자동화 에이전트 시스템의 혁신적인 발전을 보여주는데요. 기존 연구들과 비교해 어떤 점에서 독창적이고 기술적으로 우수한지 캐주얼한 톤으로 깊이 있게 파헤쳐봅니다.


Surfer 2란? – 완전 비주얼 기반의 크로스 플랫폼 GUI 에이전트

우선 Surfer 2는 웹 브라우저, 데스크톱 앱, 모바일 앱이라는 이질적인 디지털 환경을 단 하나의 통합된 에이전트 아키텍처로 다루는 데 성공했습니다. 기존 연구들이 보통 환경별 DOM 파싱, API 호출, 어플리케이션 별 별도 모델 학습(예: 모바일에선 a11y 트리, 웹은 DOM 분석) 등 특정 구조나 메타데이터에 의존한 것과는 달리 Surfer 2는 ‘완전히 이미지 기반 즉, 사용자가 보는 화면(스크린샷)’ 만으로 작동합니다.

 

이는 시각-언어 모델(Vision-Language Models, VLMs)과 대형 언어 모델(LLMs)의 결합으로 현실감 넘치는 GUI 환경을 마치 사람이 직접 보는 것처럼 이해하고 조작할 수 있음을 의미합니다. 시각 데이터만을 입력으로 하기 때문에, 환경에 종속되지 않는 ‘진짜 범용 에이전트’ 구현이 가능하다는 점이 매우 큰 기술적 진전입니다.


기술적 핵심: ‘오케스트레이터’, ‘내비게이터’, ‘밸리데이터’ 3중 구조

Surfer 2는 크게 세 부분으로 나뉘어집니다.

  1. 오케스트레이터(Orchestrator): 고수준 플래너로 사용자가 수행하고자 하는 복잡한 작업을 여러 ‘검증 가능한’ 하위 작업으로 분할하고 관리합니다. 작업의 진행 상황을 추적하고 필요 시 재기획을 하는 개념입니다. (복잡한 계획-실행 사이클 담당)
  2. 내비게이터(Navigator): 하위 작업별로 화면에 기반한 구체적인 실행 계획(키보드, 마우스, 터치 클릭)을 수립하고 실제 행동에 옮깁니다. Surfer-H라는 전작의 향상형으로, UI 요소를 언어로 인식한 후 ‘좌표로 변환’하는 로컬라이저와 연동됩니다.
  3. 밸리데이터(Validator): 실행 결과를 점검하여 제대로 완료됐는지 평가하고, 오케스트레이터 또는 내비게이터로 피드백을 줍니다. 자가 검증과 반복 개선이 가능한 셀프 피드백 루프를 돌릴 수 있어 신뢰성과 안정성을 크게 높입니다.

기존 연구와 Surfer 2의 차별점

  • 환경 종속적 접근 탈피:
    기존 브라우저 에이전트들은 DOM 구조를 텍스트로 해석했는데 이는 동적 콘텐츠, 비표준 UI 처리에 약점이 있습니다. Surfer 2는 DOM 대신 스크린샷 자체를 입력으로 하여 UI를 ‘직관적으로’ 인식하며, 웹뿐 아니라 데스크톱과 모바일까지 범용으로 적용합니다.
  • 학습 없이 시스템 구조로 성능 극대화:
    많은 최신 연구에서는 모델 크기 확장이나 미세조정(fine-tuning)에 의존해 성능을 높이지만, Surfer 2는 기존 최첨단 모델(Anthropic Claude Sonnet, OpenAI GPT-4.1, Holo1.5 로컬라이저 등)을 그대로 활용하면서도 아키텍처 자체의 분업, 계층적 제어, 체계적 검증 덕분에 인간 수준을 뛰어넘는 성과를 냈습니다.
  • 다중 시도(test-time scaling) 통한 실전 적응력 확보:
    모델 출력의 불확실성을 극복하기 위해 여러 실행 경로를 독립적으로 병렬 샘플링해 가장 성공 가능성 높은 결과를 채택하는 기법을 적극 활용, 실패율을 크게 낮췄습니다.

벤치마크 성능 – 단순 수치 이상의 기술적 의미

  • WebVoyager (웹 환경) → 97.1% 성능, 이전 최고 93.9% 제압:
    사실상 거의 완벽한 웹 내비게이션 실력을 보여줍니다. 방대한 실제 웹사이트(아마존, 구글맵, 네이버 등) 대상이며, CAPTCHA 등 실제 환경 이슈에도 견고했습니다.
  • OSWorld (데스크톱 환경) → 60.1% 기본 성공률, 최고 77%로 인간 능력 능가:
    데스크톱 특성상 다양한 앱을 연동·조작해야 하는 까다로운 작업임에도 화면 기반 제어만으로 인간 수준 이상 성과를 냈습니다. 특히 프로그래밍 도구(VSCode 등)에 대한 적응력은 놀라웠습니다.
  • AndroidWorld (모바일 환경) → 87.1% 성능:
    멀티앱, 터치 조작, 긴 작업 흐름에서도 뛰어난 일반화 능력을 발휘합니다. 다만 장기 기억과 정교한 시퀀스 인식에서는 한계가 드러나 앞으로 발전 여지가 남아 있죠.

종합 평가: 기술적으로 주목할 점은?

  1. 비주얼 인터페이스에 대한 범용적인 접근법 정립:
    Surfer 2는 디지털 세계를 ‘사람처럼’ 눈에 보이는 화면 단위로 인지하여 어떤 소프트웨어든 작업 가능하게 만들었다는 점에서 큰 혁신입니다.
  2. 계층적 모듈 설계로 각 요소 분리와 독립적 개선 실현:
    계획, 행동, 검증을 분리하는 설계 철학이 돋보이며, 이는 유지보수 용이성과 기술 확장성으로도 이어져 실제 산업 응용에 적합합니다.
  3. 미세 조정 없이도 기존 모델 역량 극대화:
    대부분 최신 연구가 큰 모델과 데이터에 의존하는 것과 달리 구조적 개선만으로 인간을 넘어서는 점은 비용 효율성과 적용 범위 면에서 중요한 시사점을 줍니다.
  4. 검증 기반 오류 축소 및 실패 대응:
    Validator 모듈이 여러 단계에서 스스로 문제를 발견·수정하는 능력은 복잡한 에이전트 시스템에서 종종 간과되는 ‘안정성’ 문제를 해결하는 실질적 방법입니다.

마치며: Surfer 2가 우리에게 주는 인사이트

Surfer 2는 단지 AI 모델 규모를 키우는 데서 벗어나 ‘좋은 시스템 설계’가 얼마나 큰 효과를 내는지 잘 보여줍니다. 특히 전례 없는 범용성으로 다양한 UI 환경을 통합 제어한다는 점에서, 앞으로 산업 현장의 자동화 및 개인 비서 AI 개발에도 획기적인 참조 모델이 될 것입니다.

하지만 아직 ‘실시간 비용, 예측 불확실성, 긴 작업 기억’ 등의 과제가 존재해, 차세대 소형 특화 모델 개발과 결합하는 연구가 향후 방향으로 제안되고 있습니다. 여러분도 Surfer 2의 오케스트레이션 철학과 모듈 구성에서 영감을 얻어, AI 개발의 ‘기술적 가치’에 집중해 보시면 좋을 듯합니다!


감사합니다. 다음 리뷰에서는 또 다른 흥미로운 AI 기술 분석으로 찾아뵙겠습니다!