안녕하세요! 오늘은 논문 「DISCOVERING DIFFERENCES IN STRATEGIC BEHAVIOR BETWEEN HUMANS AND LLMS」를 기술적 관점에서 분석하며 소개해드리겠습니다. 요즘 AI와 특히 대형 언어 모델(LLM)이 사회적 및 전략적 상호작용에서 인간과 어떻게 다르게 행동하는지 이해하는 게 정말 중요해졌는데요, 이 논문이 흥미로운 해법을 제시합니다.
논문의 핵심 기술 포인트: AlphaEvolve와 인터프리터블 행동 모델
우선, 기존 연구들은 인간과 AI의 전략적 행태를 분석할 때 보통 게임 이론의 전통적 모델이나 신경망 같은 일종의 '블랙박스' 모델을 씁니다. 하지만 이런 방법론은 인간의 독특한 행동 특성이나 LLM같은 비인간 AI의 독특함을 완전히 포착하지 못하는 한계가 있었죠.
이 논문은 여기서 한 단계 나아가 AlphaEvolve라는 프로그램 발견 툴을 사용합니다. AlphaEvolve는 LLM의 코딩 능력을 활용해 '프로그램' 형태로 행동 모델을 자동 생성하는데요, 이 과정에서 두 가지를 충실히 고려합니다.
- 예측 정확도: 미래 행동을 잘 맞추는가
- 해석 가능성: 사람이 직관적으로 이해할 수 있는가
즉, 단순히 높은 성능만 내는 게 아니라 사람이 읽고 이해할 수 있는 모델을 찾아내는 거죠. 이 두 조건 간의 균형을 맞추는 multi-objective 최적화 덕분에, 흥미롭게도 인간과 LLM의 복잡한 행동 차이를 드러내는 가장 단순하지만 최고의 모델(Simplest-But-Best, SBB 프로그램)까지 얻을 수 있었습니다.
실험 무대: Iterated Rock-Paper-Scissors (IRPS)
분석 대상 게임은 잘 알려진 가위바위보의 반복판입니다. 왜냐하면 너무 복잡하지 않으면서도 전략적이고, 특히 상대방의 행동을 예측하는 이해력(Theory of Mind, ToM)을 수치화하기에 적합하기 때문인데요.
- 인간 데이터: 411명 참가자들의 가위바위보 대전 로그(게임당 300턴)
- LLM 데이터: 최신 LLM(Gemini 2.5 Pro/Flash, GPT 5.1, GPT OSS 120B)이 같은 조건에서 플레이한 데이터
상대는 난이도 차이 있는 총 15개의 봇 중 하나였고, 봇들은 단순한 패턴 기반(non-adaptive)부터 과거 행동을 추적하는 적응형(adaptive) 봇까지 다양했습니다.
📈 주요 결과
- LLM이 인간을 뛰어넘다?
일부 최첨단 LLM, 예를 들어 Gemini 2.5 Pro 및 GPT 5.1이 인간보다 높은 승률을 기록했습니다. 이들은 봇의 전략 패턴을 더 빠르고 깊게 분석하여 초반부터 이점을 가져갔죠. - AlphaEvolve가 성능과 해석력 모두 잡다자동 발견한 프로그램 모델들은 전통적 게임 이론의 Nash equilibrium, BGT에서 쓰이는 CS-EWA 모델보다 훨씬 더 정확히 인간과 LLM 행동을 재현했습니다. 심지어 기존의 RNN 기반 모델보다도 더 잘 맞췄는데, 이게 중요한 이유는 RNN은 예측은 잘 하지만 '이해'하기 어렵다는 단점이 있기 때문입니다.
- LLM과 인간의 전략 구조 차이 발견
- 인간은 상대방의 과거 행동 빈도 정도로만 모델링하는 경우가 많았는데,
- Gemini 2.5 Pro 같은 LLM은 상대의 직전 선택과 이전 선택까지 3차원 행렬 형태로 정보를 축적해 더 복잡한 패턴을 분석.
- 가장 흥미로운 점은 행동 모델을 들여다본 결과, 인간과 LLM 모두 가치기반 학습(value-based learning)과 상대방 모델링(opponent modeling)을 쓰지만 LLM은 훨씬 더 정교한 상대방 모델을 유지한다는 점입니다.
- 젊은 GPT OSS 120B는 아직 부족
이 작은 규모 오픈 소스 LLM은 오히려 게임이 길어질수록 성능이 떨어졌는데, 이는 긴 문맥(memory)과 복잡한 전략을 잘 다루지 못한다는 기술적 한계를 보여줍니다.
기존 연구와의 차별점
- 예를 들어 Fan et al. (2024)은 GPT-3, GPT-3.5가 간단한 가위바위보 전략도 못 따라해 무작위 수준이었다고 평가했는데, 이번 연구는 최신 LLM들의 전략적 능력이 훨씬 더 발전했다는 점을 실증했습니다.
- 또 이 분야 기존 연구들은 인간 혹은 특정 LLM 전략을 독립적으로 평가하고, 분석에 매뉴얼 수학 모델을 쓰는 경우가 많았습니다. 반면, 이 연구에선 LLM을 활용해 직접 프로그램 형태의 행동 모델을 자동으로 탐색한 점이 혁신적입니다.
기술적 시사점: 앞으로의 발전 방향
이 연구는 AlphaEvolve 같은 자동화된 모델 탐색 툴이 인간과 AI 간 전략 차이를 정량적·구조적으로 분석할 수 있음을 보여줬습니다. 하드코딩된 가설 없이도 데이터 기반으로 발견되는 해석 가능한 모델은 AI 안전성 감시, 인간-기계 상호작용 최적화, AI 정합성 개선에 큰 도움이 될 겁니다.
그리고 더 나아가,
- 개별 인간 전략 다양성 vs LLM의 일관적인 전략 간 비교,
- 다른 게임, 경제사회 시나리오 등으로 일반화,
- LLM의 전략적 행동을 인간과 어떻게 맞출지 조율(Alignment) 연구
등이 후속 연구 과제로 남아있네요.
마무리하며
이 논문은 최신 LLM과 인간 간의 전략적 행동 차이 분석에 자동화된 프로그래밍 기반 모델 발견을 도입해 높은 정확도와 해석 가능성을 모두 잡았다는 점에서 매우 주목할 만합니다.
특히, 인간이 제한적으로 상대방의 행동 패턴을 추적하는 사이, 최신 LLM들은 다차원적인 정보 축적으로 더 깊은 전략적 이해도를 보여줬다는 점은 AI가 단순히 인간을 모방하는 단계를 넘어서는 ‘전략적 초월’ 가능성을 암시합니다.
여러분께서도 LLM과 인간의 전략 경쟁, 그리고 AlphaEvolve 같은 신기술이 어떻게 AI 행동 모델링을 혁신하는지에 관심이 있으시다면 꼭 한 번 이 논문을 깊게 들여다보시길 추천드립니다!
참고: 논문 링크
https://arxiv.org/abs/2602.10324
오늘도 읽어주셔서 감사하고, 더 궁금하신 점 있으면 언제든지 질문해주세요! 😊