본문 바로가기

AI

키보드·마우스 입력 그대로! Game-TARS가 만든 인간 능가 범용 게임 AI의 비밀

안녕하세요, 오늘은 최근에 발표된 "Game-TARS: Pretrained Foundation Models for Scalable Generalist Multimodal Game Agents" 논문을 소개해 드리고자 합니다. AI 분야에서 게임 에이전트 연구는 지능을 평가하고 발전시키는 중요한 테스트베드로 자리 잡았는데요, 이 논문은 기존 연구와는 차별점을 가진 기술적 접근법으로 주목받고 있습니다. 제가 기존 방식과의 차이를 중심으로 설명해 드릴게요!


1. 인간-네이티브 입력을 활용한 ‘통합 액션 스페이스’ — 혁신의 시작!

기존 게임 AI 연구에서는 게임마다 별도의 고유 액션 정의(API나 GUI 기반)를 사용했습니다. 예를 들어, 마인크래프트라면 마인크래프트 전용 커맨드를, 스타크래프트라면 그 게임 특화 API를 써야 하죠. 이 방법은 각각의 환경에서 최적화되긴 하지만, 범용성은 크게 떨어져 “다양한 게임에 적용 가능한 에이전트” 개발에 한계를 드러냅니다.

Game-TARS는 여기서 근본적인 변화를 꾀합니다. ‘키보드-마우스’라는 인간의 기본 입력장치를 그대로 액션 스페이스의 뼈대로 삼은 거예요! 즉, 에이전트는 마우스 이동, 클릭, 키보드 입력 같은 ‘낮은 수준’의 제어 신호를 조작하며, 이를 통해 윈도우, 웹, 다양한 2D·3D 게임 환경 어디서든 작동할 수 있죠.

이 접근법은

  • 범용성 최고: 인간이 컴퓨터를 조작하는 모든 GUI 환경에서 자연스럽게 작동 가능
  • 큰 규모 학습 가능: 액션 정의가 통일되니, 대규모 이종 데이터로 연속 학습(continual pretraining)이 쉬워짐
  • 시간적 동기화 용이: 저레벨 입력은 명확한 타임스탬프를 가지므로, 행동-관찰 간因果 관계 학습에 유리

이러한 ‘인간-네이티브 액션 스페이스’ 패러다임은 기존 API/GUI 분절적인 액션 공간과 차별화된, 진짜 범용형 지능 에이전트를 꿈꾸게 합니다.


2. ‘Think-Aloud’ 기반 네이티브 Sparse ReAct 학습

ReAct(Reasoning + Acting) 패러다임은 최근 AI 에이전트 분야에서 큰 화두인데요, 단순 행동 시퀀스에 사고 과정(추론 단계)을 합쳐 모델이 복잡한 상황을 이해하고 계획하게 돕습니다. 기존 방식들은 이미 수집된 행동 데이터에 거꾸로 추론을 붙이는 ‘후처리’ 방식이 많았지만, 이는 같은 시점 사고를 진짜 재현하기 어렵고 비효율적입니다.

Game-TARS는 사람이 게임할 때 실제로 음성으로 자신의 사고를 실시간 녹음하는 ‘think aloud’ 프로토콜을 도입했습니다. 이렇게 하면 고품질, 시간-정렬된 추론·행동 데이터(‘native Sparse ReAct’)를 확보할 수 있어 실제 인간 사고 패턴을 따라 학습할 수 있습니다.

또한 마우스 커서 위치를 시각 앵커로 삼아 행동과 화면 변화의 시간적 불일치를 정밀 보정하며, 반복되는 동일 행동에는 점진적으로 학습 손실 가중치를 낮추는 ‘감쇠 손실(decaying loss)’ 전략을 써서 학습 효율과 행동 다양성을 균형 있게 챙겼습니다.


3. 포스트 트레이닝 단계: 지능과 적응력 향상 집중

사전학습 이후에, Game-TARS는 ‘명령어 수행력 강화’, ‘맥락 기반 학습(In-Context Learning)’, ‘선택적 사고(Sparse Thinking)’ 같은 능력들을 후속 미세조정합니다.

하이라이트를 보면,

  • 행동 공간 무작위 키 바인딩 변조: 액션 의미는 유지하되 키 입력을 랜덤하게 바꾸어 모델이 특정 키 시퀀스에 의존하지 않도록 유도
  • 역동작 예측(inverse dynamics): 두 상태 사이의 변화를 보고 어떤 액션이 일어났는지 맞추게 하여 행동 의미 이해를 돕는 부가 학습과제
  • 멀티모달 프롬프트: 텍스트뿐 아니라 동작-영상 클립 예시를 함께 보여줘 맥락에 따른 액션 의미를 직관적으로 파악하게 함
  • 선택적 사고 강화: 모든 단계에서 사고하는 게 아니라, 행동 변경이 필요한 ‘중요 시점’에서만 사고하도록 RL 기반 리젝션 샘플링으로 정제

특히 ‘선택적 사고’는 딥러닝 에이전트가 인간처럼 효율적이고 핵심적인 시점에서만 사고하고 나머진 신속한 반사 행동으로 대응하게 해 실제 응용의 속도와 효율을 높였습니다.


4. 놀라운 크로스도메인 범용성 및 성능

이런 일관된 액션 공간과 대규모 반복학습 덕분에 Game-TARS는

  • 마인크래프트내 기존 SOTA 모델 대비 성공률 약 2배 증가
  • 미지의 웹 3D 게임에서 인간 초보자급 또는 그 이상 성능 달성
  • FPS 게임 비주둠에서 GPT-5, Gemini-2.5-Pro, Claude-4를 넘어서는 우수성 입증

기존의 Minecraft 전용 모델(VPT 등)은 특정 게임 데이터에 특화되어, 새로운 환경에서 확장성이 제한적이었는데, Game-TARS는 액션 스페이스를 ‘인간 네이티브 수준’으로 단순화하고 통일함으로써 대량의 이종 데이터 학습이 가능해졌고, 그 결과 놀라운 일반화 성능을 보여준 것이죠.


5. 기존 연구와의 핵심 차이점 몇 가지 예시

논문/모델 액션 공간 학습 데이터 범위 및 방법 일반화/범용성 기타 특징
VPT (Video Pretraining) 주로 Minecraft 키보드/마우스 입력 인터넷 Minecraft 영상 데이터 Minecraft 내 특화, 제한적 별도의 다른 게임 지원 미흡
Voyager 고수준 API (예: JS 코드 명령) 기반 Minecraft 내 LLM 계획 수행 API 의존성 높아 범용성 낮음 계획-실행 간 Semantic gap 존재
UI-TARS GUI 엘리먼트 조작 기반 GUI 특정 데이터 GUI 환경에 제한적, OS별 차이 발생 GUI 구조 변화에 취약
Game-TARS (본 논문) 낮은 수준의 마우스/키보드 입력 통합 액션 스페이스 500B+ tokens, 다양한 500여 게임 및 에이전트 데이터 마우스/키보드 조작 환경 전반에 걸친 높은 범용성 Think aloud, decaying loss, sparse thinking, 멀티모달 프롬프트

6. 정리하며: 기술적 가치와 전망

Game-TARS 논문의 가장 큰 기술적 가치는 ‘인간이 컴퓨터를 조작하는 가장 기본적인 인터페이스(키보드, 마우스)를 그대로 사용해 범용 에이전트를 학습한다’는 데 있었습니다. 이건 단순히 ‘좋은 아이디어’에 그치지 않고,

  • 500억 단어 이상의 대규모 멀티도메인 데이터와
  • 사고-행동 일체화된 Sparse ReAct 학습 및 정교한 데이터 정렬 기법,
  • 그리고 후속 미세조정으로 실제 환경 성능을 극대화하는 단계별 훈련 전략이 결합되어

현존 최강급 AI 게임 에이전트뿐 아니라 인간에 근접하는 일반화 능력까지 보여준 점입니다.

기존 API나 GUI 의존 모델이 “한 분야 전문가”라면, Game-TARS는 “기본 조작술을 익힌 다중 영역 활용자”라는 느낌이에요. 이런 통합 액션 스페이스는 향후 로봇 조작, 실제 소프트웨어 자동화, 멀티태스크 멀티모달 에이전트 연구 등 광범위한 AI 분야에 큰 영향을 줄 전망입니다.


마지막으로…

게임 AI가 AGI(범용 인공지능)로 가는 중요한 ‘실험실’ 역할을 하고 있듯, Game-TARS처럼 액션 공간을 근본부터 재구성하고 대규모 다중 도메인 데이터로 학습하는 시도는 AI의 다음 단계 도약에 필수적이라 생각해요. 여러분도 이 모델이 만든 ‘사고하며 행동하는 범용 에이전트’의 진짜 가능성을 기대해 보시길 추천드립니다!


참고 논문 링크 및 프로젝트 사이트:

Game-TARS 논문 원문(Arxiv)

프로젝트 사이트

읽어주셔서 감사합니다! :)