VisTIRA: 이미지 수학 문제의 ‘모달리티 갭’을 툴 통합 반복 추론으로 극복한 혁신적 비전-언어 모델

안녕하세요! 오늘은 Vision-Language Model(VLM) 분야에서 최근 주목받고 있는 논문, 『VisTIRA: Visual Math Reasoning에서 이미지-텍스트 모달리티 갭 해소를 위한 구조화된 툴 통합』에 대해 풀어보려고 합니다.

🧐 배경부터 살펴볼게요!

최근 VLM은 문서 이해, 시각 질의응답(VQA) 등 다양한 멀티모달 작업에서 뛰어난 성능을 보이는데요. 하지만 수학 문제처럼 복잡한 '이미지 형태' 수학 문제에서는 기존 텍스트 전용 대형 언어 모델(LLM)보다 정확도가 크게 떨어진다는 문제가 있습니다.

즉, 같은 문제라도 텍스트 입력일 때보다 이미지로 수학식이나 도표를 봐야 하는 경우 정확도가 현저히 낮다는 것이죠. 이를 저자들은 '모달리티 갭(modality gap)'이라고 부릅니다.

예를 들어, 프랙션이나 지수, 그림 등 미묘한 레이아웃 정보와 복합적인 수식이 이미지로 주어지면, 작은 읽기 오류가 누적돼 나중에는 완전 다른 답을 내놓는 일이 발생합니다.

💡 이 논문의 핵심 아이디어 - VisTIRA

VisTIRA(Vision and Tool-Integrated Reasoning Agent)는 이 모달리티 갭을 해소하기 위한 새로운 프레임워크입니다. 뭐가 특별하냐면,

이미지 수학 문제를 단계별 자연어 추론(rationale)과 파이썬 코드(툴)를 번갈아가며 생성해서 푸는 구조를 갖고 있어요.
생성한 코드를 즉시 실행해 결과를 받아서, 그 결과를 참고해 다음 단계 추론을 이어가는 '반복 실행·추론 루프'가 특징입니다.

쉽게 말해, '이미지 인식 → 추론 텍스트 생성 → 코드 작성 및 실행 → 결과 확인 → 다음 추론'을 도구(코드 실행기)와 통합하면서 구조화된 풀이 과정을 반복해 오류를 줄이고 답을 최종 도출하는 거죠.

🔧 기존 기법과 무엇이 다를까요?

기존 VLM들은 이미지에서 수식을 텍스트로 인식하는 OCR 단계가 따로 있고, 이후 단순 추론에 집중했지만, 계산 실수나 수식 해석 오류가 많았어요.
텍스트 기반 LLM 수학 모델은 CoT(chain-of-thought)와 PoT(program-of-thought) 구조, 그리고 외부 툴 활용으로 정확도 올렸는데, 이미지를 직접 다루는 VLM은 이런 구조화된 툴 결합이 부족했습니다.
VisTIRA는 "이미지 → 자연어 추론 + 코드 → 실행 → 결과 확인" 툴 통합 루프를 넣어, 시각적 수식 해석 오류를 보완할 뿐 아니라, 각 단계에서 외부 계산 도구(sympy 등)를 활용해 정확도를 높였습니다.

이로써 이전의 OCR + VQA 방식보다 훨씬 견고한 수학 문제 해결이 가능해진 것이죠.

📊 흥미로운 실험 결과와 기술적 의미

큰 모델(GPT-5)부터 중간 모델(Qwen2.5-VL-7B)까지 실험했는데, text-to-text(텍스트 문제) 대비 image-to-text(이미지 문제) 정확도가 일관되게 떨어지는 '모달리티 갭'이 존재함을 확인했습니다.
VisTIRA 데이터셋(실제 이미지 문제 + 툴 통합 풀이 궤적)로 Qwen2.5-VL-7B 모델을 미세조정(fine-tuning)하자, 기존 지도 학습된 모델 대비 아래와 같은 성과 향상이 있었습니다:
- NuminaMath 이미지 문제: 58.7% → 60.9% (+2.2%)
- SnapAsk 실제 문제: 32.5% → 38.0% (+5.5%)
특히, 성능이 낮은 중간 규모 모델에서는 OCR 기반 텍스트 추출을 이미지 입력과 함께 사용할 때 상당한 성능 향상(5% 이상)이 있었지만, 대형 모델에는 노이즈 유입 등 부작용이 나타나기도 했습니다.

즉, 시각 인식 부족 문제를 OCR로 보완하는 게 효과적이나, 대형 모델에서는 툴 통합과 자체 가시성(vision encoder)이 중요하다는 점을 시사합니다.

🚀 기술적으로 주목할 점!

1) 반복적 툴 통합(VisTIRA 루프)으로 오류 전파 최소화

기존 VLM들이 '이미지 → 자연어 추론'만 했다면, VisTIRA는 '추론 → 코드 실행 → 결과 → 다음 추론'으로 진행하며, 외부 도구 계산 오류 가능성을 줄이고 체계적인 문제 해결 경로를 만듭니다.

이 아이디어는 '프로그램 실행 검증'을 통해 수학적 오답률을 줄인 다른 최신 논문들(Chen et al., 2023; Gou et al., 2024)과 맥을 같이하지만, 실제 수학 이미지 처리에 완전하게 적용한 점이 새롭죠.

2) LaTeX 기반 이미지 합성 및 평가 파이프라인 구축

기존에는 텍스트 수학 문제와 이미지 수학 문제 간 비교가 거의 없었는데, 본 논문은 대규모 수학 텍스트 코퍼스를 LaTeX로 컴파일해 정형화된 이미지 문제로 변환하고, 원문과 정답을 보전해 모달리티 갭을 엄밀히 평가할 수 있는 체계를 마련했습니다.

이 부분은 실제 대회 문제, 시험지와 유사한 실험 환경을 만들고, 연구 커뮤니티에 36만장 이상의 이미지 데이터셋도 공개해 개방성도 갖췄어요.

🔥 핵심 시사점과 미래 방향

여전히, 작은·중간 규모 모델에서 이미지 문제 정확도가 낮고 OCR+툴 통합 조합이 매우 중요합니다. 반면 대형 모델은 내부 시각 인식 능력이 강해 OCR이 오히려 방해할 수 있다는 경험적 근거가 인상적입니다.
비단 수학 문제뿐 아니라, 복잡한 시각-언어 추론 문제에서도 '모달리티 갭'은 보편적 장벽이며, 이를 툴 통합 및 구조화된 단계별 추론으로 극복하는 게 올해 AI 연구의 핵심 트렌드임을 보여줍니다.
실제 필기, 사진 이미지 등 현실 세계 데이터에 대한 노이즈와 다양성 문제, 더 진화된 OCR 또는 시각 인식 통합 전략 개발이 앞으로 필수로 보입니다.

✍️ 한눈에 보는 기존 연구 대비 차별화

논문명 / 방법	특징	한계 및 차이점
전통 VLM + OCR (DocVQA 등)	이미지 내 텍스트 추출 후 단답형 QA	단계별 계산·풀이 과정 부재, 오답률 높음
텍스트 기반 LLM CoT / PoT (PAL 등)	자연어 및 코드 실행 결합한 철저한 수학 모델링	이미지 문제 처리 어려움, 시각 인식 제한
VisTIRA (본 논문)	이미지→자연어+코드 반복 도구 실행 루프, 실세계 이미지 fine-tuning	대형 모델은 OCR 급감, 실제 필기 문제 일반화 연구 필요

마무리하며

VisTIRA는 복잡한 수학 문제의 이미지를 효과적으로 풀기 위해 '생성적 추론'과 '외부 코드 실행'을 체계적으로 결합한 획기적인 접근법입니다. 기존의 단순 VQA, OCR 활용 학습과 달리, 수학적 구조와 계산 정확성 보장을 툴 통합으로 확보하면서, 실세계 숙제 문제 데이터셋까지 활용해 현실성도 챙겼습니다.

중간 규모 모델 사용자, 교육용 AI, STEM 자동화 분야에 특히 의미 있으며, ‘모달리티 갭’ 문제가 남은 AI 멀티모달 연구계에 강력한 시사점을 던지는 흥미로운 기술적 진보라고 할 수 있겠습니다.

관심 있으시면 원문 https://arxiv.org/abs/2601.14440v1 에서 상세 내용과 예제 코드를 확인해 보시길 추천드립니다! 궁금한 점 있으면 언제든 질문 주세요.

감사합니다! 🙌

'AI' 카테고리의 다른 글

AWARE-US: 사용자 선호를 자동 추론해 불가능 쿼리를 맞춤 완화하는 AI 대화 에이전트 혁신 (1)	2026.01.26
AEON: 운영체제 수준에서 구현한 초고성능 신경-심볼릭 기억 관리로 LLM 에이전트의 장기 컨텍스트 문제 해결하기 (1)	2026.01.24
진짜 임상 데이터로 돌아본 LLM 희귀질환 진단의 한계와 미래: MIMIC-RD가 보여준 현실적 도전과 기회 (0)	2026.01.22
AI가 시민과 의료기관을 잇는 신뢰와 소통의 다리로 진화하다 (0)	2026.01.21
AI와 RAG 기술로 익명 온라인 ‘직장 추천 요청서’ 성공률을 혁신하다: 약한 글은 크게, 강한 글은 안정적으로 개선하는 자동 에이전트 시스템 (1)	2026.01.20