안녕하세요 여러분! 오늘은 최근 인공지능 분야에서 아주 흥미로운 논문 하나를 소개해드리려고 해요. 바로 “CogMath: Assessing LLMs’ Authentic Mathematical Ability from a Human Cognitive Perspective”라는 논문입니다. 요즘 대형 언어 모델(LLM), 즉 GPT-4 같은 AI가 숫자 문제도 척척 풀고 있다고들 하죠? 그런데 과연 이 모델들이 진짜로 ‘수학적 사고’를 하는 걸까요? 아니면 단지 문제와 답변 간 단순한 패턴 매칭만 하는 걸까요?
이 논문은 그런 의문에서 출발해 LLM의 수학 능력을 인간의 인지 과정을 모방한 ‘CogMath’라는 새로운 평가 체계로 면밀히 분석했답니다. 특히 저는 이 논문이 가진 ‘기술적 가치’에 집중해, 기존 연구들과 비교하며 캐주얼한 톤으로 쉽게 풀어드릴게요!
---
## 1. 기존 평가방식, 왜 아쉬웠을까?
지금까지는 LLM의 수학 능력을 주로 '전체 답이 맞았느냐'에만 집중해 평가해왔어요. 예를 들어 GSM8K, MATH 같은 데이터셋을 활용해서 단순히 정답률만 보는 식이었죠. 물론 이 결과들이 LLM의 뛰어난 능력을 보여주긴 했습니다.
하지만 이 방식은 아쉬운 점이 많습니다.
- 전체 정답률만 보면 생각의 깊이를 알기 어렵다.
- 문제를 제대로 이해했는지, 단계별로 논리적 사고를 했는지 판단 불가.
- 문제 변형이나 오류에 대응하는 능력 평가가 안 됨.
즉, ‘표면적인 정답 맞추기’에만 지나치게 집중해서 AI가 진짜 수학 문제를 ‘이해하고 해결하는지’를 가늠하기 힘들었죠.
---
## 2. CogMath, 사람의 ‘인지과정’을 본 뜬 평가법
CogMath는 심리학 연구를 바탕으로 인간이 수학 문제를 해결하는 과정을 1) 문제 이해 2) 문제 해결 3) 해답 요약 이 세 단계로 나눠 평가합니다.
각 단계마다 세밀한 ‘평가 차원(dimension)’을 총 9개로 나누어 검사하는데요, 예를 들면…
- 문제 이해 단계에선 원문과 동의어가 섞인 ‘문장 재구성’ 문제, 일부 조건이 빠진 문제, 의미 없는 조건이 추가된 문제 등으로 문제 이해력을 테스트합니다.
- 문제 해결 단계에선 해결 전략을 변형한 문제, 숫자만 바꾼 문제, 문제 내 수학 공식이나 정의를 새로 정한 문제까지 출제합니다.
- 해답 요약 단계에서는 중간 계산 과정을 묻거나, 답에서 역추론하는 문제(역방향 추론)도 포함시켜 그 과정에서의 일관성과 논리성을 봅니다.
그리고 평가를 위해 LLM이 다시 한번 ‘Inquiry-Judge-Reference’라는 다중 에이전트 시스템을 통해 각 차원별 질문을 생성, 검증, 정답 기준을 마련하는 구조를 만들었어요. 사람도 모든 차원을 완벽히 통과해야 문제를 진정 이해했다고 할 수 있듯, LLM도 9개 차원 모두 통과해야 진짜 문제를 ‘마스터’했다고 평가하는 방식이죠.
---
## 3. 흥미로운 기술적 발견 5가지
이제 CogMath를 활용해 최신 LLM 7종(예: GPT-4, GPT-3.5 등)을 평가해 본 결과, 아주 중요한 사실들을 밝혔습니다.
### 1) 전통 평가 대비 ‘진짜 실력’은 30~40% 과대평가됐다
GPT-4조차도 MATH 데이터셋에서는 기존에는 75% 넘는 성과를 보였지만 CogMath에서는 단 39.7%만 제대로 풀었다고 합니다! 단순 정답률이 얼마나 ‘겉핥기’식이었는지 알 수 있죠.
### 2) 약한 모델은 ‘문제 이해’에, 강한 모델은 ‘문제 해결’에 약점을 가졌다
예를 들어, ‘Llama2-13B’같이 덜 발달한 모델들은 문제 이해부터 막히는 반면, 좋은 모델들은 문제 해결 단계에서 특히 ‘지식 재정의’(문제 내 수학 공식 바꾸기)에 취약한 것으로 나타났어요. 이는 현재 LLM들이 수학 지식을 ‘암기’할 뿐, 상황에 맞게 유연하게 활용하지 못한다는 의미입니다.
### 3) LLM이 ‘해결 불가 문제’를 만나면 무조건 답을 맞추려다 오답을 낸다
CogMath의 문장 교란, 누락 조건, 불필요 조건 문제에서 대부분 LLM들은 잘못 ‘수정(over-correction)’하는 경향이 있어요. 즉, 증거가 명확하지 않아도 자신있게 문제를 풀려다 실패했다는 거죠. 이건 사람과 많이 다릅니다.
### 4) 기존에 잘 알려진 코딩 방식·추론 보조법들(Cot, ICL)이 근본적 향상을 주진 못했다
Chain-of-Thought 같은 ‘추론 과정 노출’이나 ‘예시 학습’ 등 기술들이 가끔은 성능을 올려주긴 하나, CogMath의 엄격한 평가에서는 큰 효과 없이 오히려 심화 문제에서는 성능이 떨어진다는 결과가 나왔어요.
### 5) 문제 난이도가 ‘진짜 실력’ 평가에 큰 영향
많은 모델이 난이도 1~2레벨까지만 비교적 잘 푸는 반면, 그 이상은 모두 급격하게 성능이 내려갔고, 문제 길이보다는 난이도 영향이 더 컸습니다.
---
## 4. 기존 논문과 CogMath의 차이점
흔히 소개되는 GSM8K (일명 대표적인 초등 수준 수학 문제)나 MATH (고등학생 경시대회 수준) 데이터셋은 문제 맞춤형 평가에 치중하고, 정답률만 따지죠. 반면 CogMath는 문제 난이도뿐 아니라 문제의 이해, 추론, 지식 활용과정 등 인간 사고를 모사해 다각도로 분석합니다. 이 때문에
- 단순 암기/패턴 추론에 의존한 AI 성능이 얼마나 허구적인지
- 문제마다 AI가 어디서 막히는지 ‘인지 단계’별 상세한 취약점 정보를 제공합니다.
또한, CogMath는 counterfactual(반사실적) 설정을 도입해 LLM이 문제 재배치나 조건 누락에도 어떻게 대응하는지 살펴보는 점이 참신하죠.
---
## 5. 기술적 가치와 우리에게 주는 교훈
CogMath는 단순히 ‘몇 문제 맞췄다’를 넘어서 LLM이 ‘어떤 사고 단계’에서 약한지를 명확히 짚어줌으로써
- AI 연구자들에게 ‘이 부분을 고쳐야 진정한 수학 AI’를 만들 수 있다’는 청사진을 제공합니다.
- 사용자들에겐 ‘지금 AI가 수학 문제를 제대로 이해하고 푸는 게 아니다’라는 사실을 깨닫게 해줍니다.
- 궁극적으로 AI 교육, 평가, 연구 방식에 혁신적인 시사점을 던집니다.
기존 평가들의 ‘정확도 퍼센티지’에만 의존하던 한계를 벗어나, 인간 인지 과정을 객관화·정량화한 점이 아주 돋보이죠.
---
## 마치며
오늘 소개해 드린 CogMath 논문은 단순 AI 성능 평가를 넘어 ‘AI가 진정 사고하는가?’를 경험적으로 탐구했다는 점에서 매우 의미 있습니다. 사실 대형 모델이 화려한 수학 문제 풀이를 보여도, 그 이면에선 ‘진짜 사고’가 아닌 ‘패턴 베끼기’일 수 있다는 걸 냉철하게 보여줬죠.
기술적인 면에서 보면, CogMath는 앞으로 AI의 지적 능력을 평가·검증하는 데 훌륭한 ‘인지적 틀’을 제시합니다. 특히 AI가 더 사람처럼 생각하고 적응할 수 있도록 하는 연구, 즉 ‘비판적 사고’와 ‘지식의 유연한 활용’에 초점을 맞춰 모델을 발전시키는 데 필수적인 통찰을 줍니다.
많은 분들이 AI 수학 능력에 대해 궁금하거나 의구심이 있었을 텐데, CogMath를 통해 한 단계 깊은 이해가 되셨길 바랍니다. 앞으로 이 평가 방법이 더 확대 적용되고, AI가 ‘진짜로 생각하는’ 기술로 진화해가는 모습을 기대해봅시다!
감사합니다!
---
### 참고자료
- 논문 원문: [arXiv:2506.04481v1](https://arxiv.org/abs/2506.04481)
- GPT-4 기술 보고서: Achiam et al., 2023
- GSM8K 및 MATH 데이터셋 관련 연구들
- Chain-of-Thought 및 In-Context Learning 관련 연구 논문들
---
궁금한 점 있으시면 댓글로 알려주세요! AI와 수학의 만남, 계속 함께 탐험해봐요 :)
'AI' 카테고리의 다른 글
| “직관주의 논리로 강화학습의 한계를 넘다: 증명 기반 증명 트리로 즉시 안전하고 최적 경로 계획 실현” (4) | 2025.06.10 |
|---|---|
| "멀티모달 AI의 ‘체인 오브 쏘트’ 추론, 편향을 얼마나 솔직히 드러내나: 강화학습이 밝힌 진정성의 비밀" (5) | 2025.06.09 |
| “악의적 평가자가 만든 함정: AI 에이전시 워크플로우의 숨겨진 취약성과 현실적 공격 시뮬레이션” (1) | 2025.06.06 |
| “최신 언어모델과 검색기반 AI가 AI 연구 아이디어 성공 여부를 인간 전문가보다 정확히 예측하다” (7) | 2025.06.05 |
| “CityLens: 대형 언어-비전 모델로 세계 도시의 사회경제적 패턴을 ‘읽다’—가능성과 한계를 가르는 다중 모달·다중 평가 혁신” (5) | 2025.06.04 |