본문 바로가기

AI

“생각하는 AI의 첫걸음: 복잡한 공간 추론과 계획 능력을 한눈에 보여주는 𝕄ARBLE 벤치마크”

안녕하세요! 오늘은 인공지능, 특히 멀티모달 대형언어모델(MLLM, Multimodal Large Language Models)의 ‘복잡한 다중 단계 공간 추론과 계획’ 능력을 평가하기 위한 새로운 벤치마크, 𝕄 ARBLE에 대해 이야기해보려고 합니다.

 

---

 

# 1. 𝕄 ARBLE, 왜 특별할까요?

 

기존의 멀티모달 모델 평가 대부분은 ‘단순 정보 추출’ 또는 ‘단일 단계 질문응답’에 집중되어 있었습니다. 예를 들어, 이미지 속 객체 인식 후 간단한 질문에 답한다거나, 텍스트와 이미지를 같이 보면서도 한두 단계 논리에 그치는 수준이 많았죠. 대표적인 기존 벤치마크로는 ScienceQA, MathVista, 그리고 MMMU가 있지만, 이들은 복잡한 ‘계획 수립’이나 ‘공간 내 깊은 추론’을 제대로 테스트하지 못했습니다.

 

MARBLE는 여기에서 한단계 더 나가서, 게임 ‘Portal 2’와 유명한 ‘Happy Cube’ 퍼즐에서 영감을 얻은 두 가지 어렵고도 현실성 있는 문제를 통해 멀티모달 모델의 능력을 시험합니다.  

 

- 𝕄-Portal: Portal 게임의 공간 내 동작과 물리 제약을 이해하며 여러 단계에 걸쳐 문제 해결 계획을 세웁니다.

- 𝕄-Cube: 3D 큐브 조각 맞추기 퍼즐로, 조각을 맞추기 위해 위치와 회전, 플립 등 복잡한 조합 문제를 해결해야 합니다.

 

두 과제 모두 멀티모달 입력(텍스트+이미지)을 받고, 문제 해결을 위한 ‘체인 오브 쏘트(Chain-of-Thought, CoT)’ 즉, 단계별 추론 과정을 중요시합니다.

 

---

 

# 2. 기존 논문과 무엇이 다를까요?

 

## (1) 완성된 ‘계획’ 자체가 평가 대상

 

기존 벤치마크는 최종 답변이 맞는지만 보는 경향이 있죠. 𝕄ARBLE는 “왜 그렇게 답했는지”, 즉 추론 ‘경로’의 정확성도 함께 봅니다. 이는 투명성과 디버깅 면에서 엄청난 가치가 있습니다.

 

> 예시: 기존 ScienceQA나 MathVista는 단순히 답 맞는지 확인하지만, 여기서는 수십 단계에 걸친 행동 계획 중 어느 단계가 틀렸는지를 정확히 측정 가능해요.

 

## (2) 게임과 퍼즐이라는 ‘실제 세계’에서 영감

 

퍼즐과 공간 내 이동, 중력과 같은 물리적 제약을 가진 문제 설정은 기존 텍스트 위주 추론 벤치마크와 본질이 다릅니다. 특히 ‘Portal 2’의 물리 엔진 기반 공간 퍼즐은 “실제 환경에서 복합 행위를 계획하는 지능”에 가깝죠.

 

> 경쟁적으로 평가했던 최신 MM-Escape 벤치마크는 상대적으로 쉬워 GPT-4o가 70-100% 성공률을 보인 반면, 𝕄ARBLE-Portal에선 최신 모델이 4.1% 정확도에 그칩니다.

 

## (3) 시각정보 획득(지각)과 논리 추론 분리 평가

 

𝕄-Cube에서는 시각 정보로부터 5x5 배열 형식의 조각 정보를 추출하는 ‘지각(perception)’ 시험을 별도로 도입했습니다. 모델들이 여기서조차 70% 정도 세포 단위 정확도를 넘기지 못하며, 조각 전체 정확도는 0%에 가깝다고 밝혔죠.

 

> 즉, 멀티모달 모델이 ‘보는 것’을 제대로 이해하지 못해, 더욱 복잡한 공간 논리 문제 해결에 큰 제약이 된다는 것을 새롭게 보여줍니다.

 

---

 

# 3. 기술적으로 주목할 점

 

## (1) 체계적 ‘CoT’ 평가, 그리고 ‘Fill-the-Blank’ 및 ‘Plan Correctness’ 두 가지 평가 방식

 

- Plan Correctness: 수십 단계 계획 전체가 올바른지 이진 평가

- Fill-the-Blank: 일부 단계를 가리고, 거기에 맞는 올바른 단계를 고르는 멀티플 초이스

 

→ 다양한 난이도로 모델의 종합적 추론 능력과 세부 집중력을 평가합니다. 

 

## (2) 대규모 조합 문제 탐색

 

Cube 문제는 6개 조각 배열 조합이 6! × 8^6 (약 1.9억 가지)나 되는 초대형 탐색 공간입니다. 여기에 회전, 뒤집기까지 고려하면 탐색 난이도가 지옥 수준. 

 

→ 기존 논문 중 Happy Cube 퍼즐을 다룬 András et al.(2013) 연구에 비해, MLLM이 직접 이 조합 문제를 풀도록 한 첫 사례입니다.

 

## (3) 피드백 루프와 툴 사용: Solution Validator

 

Cube 문제에는 MLLM이 제안한 답안을 검증하고, 틀린 부분(예: 모서리 충돌)을 알려주는 솔루션 검증 도구가 함께 제공됩니다. 모델이 피드백을 받아 점진적으로 답을 개선할 수 있는 가능성을 열어놓았죠.

 

하지만 현재 모델은 그리 효과적으로 활용하지 못해, 이에 특화된 ‘도구 활용 및 반복 추론’ 기술 발전이 절실함을 보여줍니다.

 

---

 

# 4. 모델 성능 진단

 

12개 최신 모델 중 GPT-o3가 간신히 쉬운 Portal 서브태스크에서 17.6%, Cube-easy에서는 72.0%까지 성능을 냈습니다. 나머지 대부분은 무작위 수준에 머물렀죠.

 

- 지각 문제(perception bottle-neck): 5x5 배열을 정확히 읽어내는 데 실패

- 논리 문제(reasoning bottle-neck): 복잡한 조합 공간 탐색과 긴 체인 추론에 실패

- 모델별 예상치 못한 토큰 사용량: 최상위 모델이 수천~만 단어의 추론 토큰을 소모하며도 답을 못 찾아내는 비효율성

 

이 결과는 현재 멀티모달 LLM이 단순히 ‘대화와 이미지 연결’을 넘어서서 실제 문제 해결에 필요한 ‘깊이 있는 멀티스텝 추론’과 ‘실제 세계 규칙 이해’ 능력이 극히 미흡하다는 신호탄입니다.

 

---

 

# 5. 시사점과 앞으로

 

- 𝕄ARBLE는 복잡한 멀티모달 문제 해결 역량을 체계적으로 평가할 수 있는 ‘진정한 도전장’을 내민 겁니다.

- 현실 문제 속 물리, 공간, 계획의 복잡성을 시험하여, 단순 암기형 관점이나 얕은 멀티모달 통합을 넘는 연구를 촉진시킬 것입니다.

- 모델 설계자는 ‘시각 정보 정확 회수’와 ‘길고 복잡한 계획 관리/피드백 반복’ 능력에 집중해야 합니다.

- 향후 ‘상호작용형’, ‘도구 활용 가능한’ 멀티모달 모델 개발의 필요성도 명확해졌습니다.

 

---

 

# 마무리하며

 

지금까지 𝕄ARBLE 벤치마크가 기존 연구 대비 어디에 기술적 가치가 있고, 어떤 난제를 푸는 데 적합한지 살펴봤습니다. 단순히 ‘AI가 답을 맞히는지’가 아니라, 실제로 ‘어떻게 생각하는지’, ‘어떤 정보를 어디까지 이해하는지’ 그리고 ‘어려운 공간 문제를 어떻게 차근차근 풀어가는지’를 보는 이런 벤치마크야말로 AI의 고도화, 특히 현실과 긴밀히 연결된 응용을 위한 필수 점검표가 될 것으로 기대합니다.

 

앞으로 멀티모달 AI 분야에 관심 있으신 분들은 꼭 한번 𝕄ARBLE 벤치마크를 주목해보시길 권합니다. 진짜 ‘생각하는 AI’와 ‘현실 문제 해결하는 AI’가 되기까지 아직 갈 길이 멀지만, 이만큼 도전적이고 체계적인 문제 설정이 바로 그 기반을 닦는 중요한 첫걸음임을 느끼실 수 있을 거예요!

 

---

 

읽어주셔서 감사합니다! 공유나 댓글로 궁금한 점이나 토론하고 싶은 부분 언제든 환영합니다 :)