안녕하세요, 흥미로운 논문 하나를 소개해드리려고 합니다. 바로 “HugAgent: Evaluating LLMs in Simulating Human-Like Individual Reasoning on Open-Ended Tasks”인데요, 최신 대형 언어모델(LLM)이 단순히 ‘평균적인’ 사람의 생각만 흉내 내는 수준을 넘어서 ‘개별적인’ 사람의 사고방식과 신념 변화를 제대로 모사할 수 있느냐를 집중적으로 탐구한 연구입니다.

HugAgent, 딱 ‘개인화된 인간 사고’ 평가하는 벤치마크란?

최근 LLM들은 엄청난 범위의 데이터를 섭렵하면서 일반적인 사회적 합의(consensus)를 꽤 잘 따라가는 경향이 있어요. 그런데 놀랍게도 이 ‘평균적’ 사고를 잘 흉내 내는 것만으로는 충분하지 않다는 점이 연구자들의 고민이었죠. 우리 개개인마다 배경, 신념, 이유 부여 방식이 다 다르고, 무언가 새 evidence(증거, 정보)가 주어졌을 때 그걸 받아들여 생각이 바뀌는 방식도 천차만별이니까요.

HugAgent는 이 ‘평균→개인’ 사고 적응 과정을 측정하는 최초이자 유일한 벤치마크로, 이런 차원을 포착할 수 있도록 설계되었습니다.

두 축의 데이터 수집:
- 현실적이고 자연스러운 인간 인터뷰 트랙
- 수학적이고 제어된 신념 구조를 가진 합성 에이전트 트랙
두 가지 핵심 작업(Task):
1. Belief-State Inference (신념 추론): 과거 인터뷰를 바탕으로 특정 개인의 현재 신념 상태를 예측
2. Belief-Dynamics Update (신념 변화 예측): 새로운 정보(가정된 시나리오)를 주었을 때 그 개인의 신념 변화를 예측

기존 연구와 뭐가 다른가요?

보통은 사회적 집단 전체 혹은 ‘평균 사람’에 초점을 맞춘 집단 차원의 모델링이나, 단편적인 행동 결과(예: 설문이나 짧은 선택지 응답)만 다룹니다. 혹은 ‘Theory of Mind(ToM)’ 테스트를 하더라도 짧은 ‘가짜 상황’ 스토리에 몇 가지 선택지 중 하나를 고르는 수준이었죠.

하지만 HugAgent는 다음과 같은 차별점이 있습니다.

개별적 사고 과정 중시
- 단순한 행동 결과만 보는 게 아니라, 스스로 '이유’를 말하는 내러티브(think-aloud, 인터뷰 대화)를 수집해 심층적인 사고 과정 자체를 평가합니다.
개인 맞춤형 신념 변화 포착
- 동일 사람의 신념이 시시각각 변하는 모습을 시뮬레이션 모델로 재현하는 것을 목표로 합니다.
개방형 주제와 논쟁적 이슈 중심 설계
- 의료, 감시, 주거 정책 등 실제 사회에서 사람마다 첨예하게 입장이 다른 주제를 중심으로 하여 응답의 다양성을 확보합니다.
‘평균→개인’ 적응 여부를 명확히 평가하는 정량적 수단 도입
- 기존은 보통 ‘평균 답’ 맞춘 정도를 봤다면, 여기서는 개인별 상세한 신념 그래프와 업데이트를 예측하는 것으로 차별화했습니다.
사람과 합성 에이전트 두 트랙 병행
- 진짜 사람답게 행동하는지를 새로 만든 합성 신념 구조 에이전트와 비교하며 평가할 수 있어, 성능 격차 분석이 가능합니다.

기술적으로 핵심은?

신념 상태와 신념 변화 → 확률 분포 및 인과그래프로 모델링
개인 i의 신념 상태를 확률 분포 b_i(s|C_i) — 여기서 s는 평가 대상 변수, C_i는 맥락(과거 인터뷰, 인구통계 등) — 형태로 표현합니다.
새 정보(개입 Intervention)가 주어지면, 업데이트 함수 U를 통해 신념 상황이 바뀌는 과정을 시뮬레이션 하죠.
차원별 핵심 가설 검증
1. 충분한 개인적 맥락 정보가 주어지면 LLM이 개인 신념 상태를 안정적으로 파악할 수 있나?
2. 한 주제(domain)에서 익힌 개인 맞춤형 사고가 다른 주제로 일반화 되는가?
3. 맥락이 없을 때는 모델이 전체 인구 평균으로 회귀하는 경향이 있는가?
4. 맥락이 길고 풍부해질수록 정확도가 향상되는가?
평가 지표
예측 신념 맞춘 정확도(Accuracy), 예측 신념 변화 방향 일치도(Directional Accuracy), 편차 크기(MAE) 등을 사용합니다.
모델 및 벤치마크 결과
GPT-4, GPT-5-mini, 오픈소스 LLaMA, Qwen 등 다양한 모델 실험에서 실제 사람과 비교했을 때 아직 차이가 존재함을 보여 주었고, 개인별 맥락 정보가 없으면 확실히 성능이 떨어지는 '개인화의 어려움'을 실증했습니다.

결과 중 흥미로운 발견 TOP3

'더 많은 대화(질문 답변)'가 항상 좋은 게 아니다
- 개인 신념 파악에는 대화 길이가 늘어날수록(20문항 이상) 정확도가 증가합니다.
- 하지만 신념 변화를 예측하는 데에는 5~10문항 정도가 최적이며, 너무 길면 오히려 잡음 때문에 성능이 떨어집니다. → 맥락 정보 과부하는 업데이트 정확도에 부정적 영향을 미칠 수 있어, 앞으로 모델은 중요한 정보만 ‘콕 찝어’ 선별할 필요가 있습니다.
개인 맞춤형 사고의 ‘크로스 도메인’ 전이는 어렵다
- 한 도메인(예: 의료)에서 모델이 개인 신념을 잘 예측해도 다른 도메인(예: 감시 분야)에서는 성능이 크게 떨어집니다. → 현재 모델은 사람별 생각 패턴을 한 분야에 국한해 적합화하는 경향이 강하고, 진정한 ‘일반화된 개인화’는 아직 먼 길.
‘개인 정보(맥락) 없이’는 전혀 못한다
- 인구 통계 정보만으로 신념을 예측하면 측정된 성능이 매우 낮고, 모델은 결국 ‘평균적인’ 의견만 따라 하게 됨을 증명했습니다. → 이는 인공지능의 ‘개인화’ 기능이 사생활과 연관될 수 있는 매우 민감한 문제임을 섬세하게 보여주는 대목입니다.

개발자 및 연구자분들께 시사점

인공지능이 앞으로 ‘사회적 시뮬레이터’로 쓰이려면 집단 평균의 모방을 넘어서 진짜 ‘개인별 사고 스타일’을 포착하는 게 필수입니다.
HugAgent가 제공하는 풍부한 대화 데이터와 신념 변화 예측 과제는, 기존의 ‘단일 답안 정답’ 중심 벤치마크와는 달리 인간 심리와 사고 방식을 정교하게 재현하는 데 적합한 새 길잡이가 될 것입니다.
특히 ‘합성 에이전트’ 트랙은 실제 인간 실험 대비 저비용으로 대규모 스트레스 테스트가 가능하여, 새로운 개인화 알고리즘 및 인과 추론 기법 개발에 매우 유용합니다.
토픽별 편향, 신념 변화에 대한 과부하 문제, 크로스 도메인 일반화 실패 등 발견된 구조적 한계들을 개선하는 작업이 곧 이 분야의 뜨거운 연구 과제가 될 것입니다.

마치며

기존의 사람 생각 흉내 내기 연구들이 한 방향으로만 달려갔다면, HugAgent는 ‘평균’에서 ‘개인’으로, ‘정적인 태도’에서 ‘동적인 사고 과정’으로 AI를 한 단계 진화시키는 거대한 발걸음입니다. 누구나 공감하면서도 모두 다른 ‘나만의 생각’을 이해하려는 시도는 향후 AI 윤리, 인간 중심 설계, 맞춤형 소셜 시뮬레이션 등에 깊은 영향을 미칠 전망입니다.

더 자세한 자료와 코드, 챗봇 체험도 논문 저자들이 공개하고 있으니 HugAgent GitHub 링크도 한번 방문해 보세요!

읽어주셔서 감사합니다.

'AI' 카테고리의 다른 글

사람 손 없이 완성한 도구 활용 AI 에이전트 데이터, SYTHIA가 연 AI 자율학습 혁신 (0)	2025.10.23
심리학에서 영감 받은 PISA: AI 기억을 ‘적응형 지식 구조’로 진화시키는 혁신적 메모리 시스템 (0)	2025.10.22
LLM 없이 똑똑하고 빠른 대규모 RAG를 위한 경량 지식 그래프 구축과 1-hop 탐색 혁신 (0)	2025.10.20
GammaZero: 가변 크기 그래프로 POMDP 믿음 상태를 혁신, 제로샷 일반화로 대형 문제도 통째로 정복하다 (1)	2025.10.18
DeepPlanner: 불확실성 엔트로피 조절로 연구 에이전트의 장기 계획을 혁신하다 (0)	2025.10.17

문제

HugAgent: AI가 ‘평균’을 넘어 ‘내 생각’을 진짜 이해하고 예측할 수 있을까?

HugAgent, 딱 ‘개인화된 인간 사고’ 평가하는 벤치마크란?

기존 연구와 뭐가 다른가요?

기술적으로 핵심은?

결과 중 흥미로운 발견 TOP3

개발자 및 연구자분들께 시사점

마치며

'AI' 카테고리의 다른 글

티스토리툴바

HugAgent: AI가 ‘평균’을 넘어 ‘내 생각’을 진짜 이해하고 예측할 수 있을까?

HugAgent, 딱 ‘개인화된 인간 사고’ 평가하는 벤치마크란?

기존 연구와 뭐가 다른가요?

기술적으로 핵심은?

결과 중 흥미로운 발견 TOP3

개발자 및 연구자분들께 시사점

마치며

'AI' 카테고리의 다른 글

'AI' Related Articles

티스토리툴바