안녕하세요, AI와 신경과학의 흥미로운 만남을 다룬 최신 논문 ‘Mirage’를 소개해드리려고 합니다. 이번 글은 Mirage 논문을 기존 연구와 비교하며 풀어보았습니다. 구성 가능성(compositional generalization)이라는 AI에서 매우 어려운 문제를 뇌의 구조에서 영감을 얻어 새롭게 접근한 연구라 관심 가질 분들이 많을 거예요.
1. 컴포지셔널 제너럴리제이션, 왜 어려울까요?
컴포지셔널 제너럴리제이션은 “알려진 개념이나 행동을 조합해 전혀 새로운 상황을 이해하거나 수행하는 능력”을 의미합니다. 예를 들어, “jump”, “twice”, “after”라는 단어는 익숙하지만, “jump twice after turn left” 같은 새 문장은 완전히 새로운 조합이죠.
인간은 이런 유연한 추론을 자연스럽게 하지만, AI 특히 기존의 Transformer 기반 모델이나 대형 언어모델은 여기서 아쉬움을 보였습니다. 모델들이 훈련 데이터를 넘어서는 조합에 약하고, 단순히 빈도 기반 추론에 머무르기 때문입니다.
2. Mirage: 뇌의 듀얼 프로세스에서 배운 ‘두 얼굴의 AI’
Mirage는 인간 두뇌의 주요 작용 원리를 본떠 디자인했습니다. 뇌는 크게
- System 1 (느리고 직관적인 패턴 인식) : 뇌 피질(특히 신피질)이 담당, 빠르게 패턴을 인식 및 반응
- System 2 (느리지만 고차원적, 체계적 추론) : 해마(hippocampus)와 전전두엽(prefrontal cortex, PFC)의 상호작용에 기반한 심층적 추론
으로 나뉘죠.
Mirage 역시
- System 1: 메타학습된 Transformer 기반의 ‘Neural Decomposer’ (빠른 단일 스텝 분해)
- System 2: ‘Schema Engine’ (사건 기억과 규칙인 스키마를 추출·적용하는 고차원 모듈)
두 컴포넌트가 주고받으며 문제를 단계별로 점진적으로 해체하는 과정을 겪습니다.
“Transformer 혼자 하려면 너무 복잡해! 대신 작은 스텝 단위로 나눠서 풀자” 그리고 “스키마라는 재사용 가능한 ‘규칙’을 통해 체계적 우선순위를 반영하자”는 접근이 핵심이에요.
3. 기술적 가치 및 기존 연구 대비 차별점
3-1. 시스템 2의 스키마 추출과 우선순위 관리
- Mirage는 Schema Engine을 통해 규칙 집합(schemas)을 자동으로 추출하고, 스키마 간에 **우선순위(priority)**를 부여하여 모순 없이 해석합니다.
- 기존 Transformer나 단순 LLM들은 이런 명확한 구조화 없이 끝없이 시퀀스를 처리하기 때문에 복잡한 중첩 구조를 해석하는 데 한계가 있었죠.
- 두 가지 추출 방식 (CSCG 기반 graph 모델과 열거적 규칙 마이너) 중 하나를 선택할 수 있어, 상황에 따라 유연하게 업데이트가 가능합니다.
3-2. 메타 학습 기반 한 단계 분해(Single-Step Decomposition)
- 메타학습 방식으로 무한히 다양한 임의 생성 문법에 대해 단일 분해 단계만 학습해둔 Transformer가, 새로운 문법에 대해 k-단계 깊이의 문제도 반복 적용(iterative refinement)으로 해결할 수 있습니다.
- 중요한 점은 2단계 깊이 훈련에만 집중함으로써 보다 일반화 가능한 패턴 인식을 가능하게 만든 겁니다.
- 기존 연구들은 한 번에 깊은 합성을 하려고 했는데, 이 접근은 학습 난도와 일반화 모두에서 실패했습니다.
3-3. SCAN 벤치마크에서의 압도적 성능
- SCAN 데이터셋의 모든 분할에서 99.6% 이상의 정확도를 달성, LLM이나 단일 Transformer 모델이 특히 어려워하는 ‘길이 늘리기’나 ‘새 템플릿’ 테스트에서 뛰어난 성과를 냈습니다.
- 흥미롭게도 단순히 ‘스키마 라이브러리 토큰을 앞에 붙인 Transformer’는 오히려 성능이 떨어져, 스키마 정보를 ‘명시적 우선순위 토큰’과 함께 학습해야한다는 사실을 뒷받침합니다.
4. 핵심 기술 포인트 총정리
핵심 요소 기존 모델과의 차별성
| Dual-Process 모델 | 인간의 HPC-PFC 듀얼 프로세스 뇌 구조 모방 |
| Meta-학습된 단일단계 Transformer | 무한 문법 대상 단일 스텝 분해 학습, 깊은 예 문제도 반복적 처리 |
| 명시적 스키마 추출 및 우선순위 | 재사용 가능한 규칙군 추출, 스키마 간 우선순위 학습으로 모순 방지 |
| Iterative refinement 알고리즘 | 복잡한 합성 문제를 여러 단계로 나눠 체계적으로 해결 |
| 모듈성 | 스키마 추출 알고리즘을 바꾸어도 전체 프레임워크 유지 |
5. 왜 Mirage에 주목해야 할까요?
- LLM 중심 AI가 이미 대세지만, 이들은 구조적 추론과 체계적 일반화에서 취약할 때가 많습니다.
- Mirage는 작고, 명확한 역할 분담이 있는 모델, 즉 ‘모듈러(moduled) + 신경과학적 설계’가 복잡한 합성 문제에 더 효과적일 수 있음을 보여줍니다.
- 또한 무엇보다 “명확히 해석 가능한(interpretability)” 스키마를 외부 레이어로 확보해 투명한 추론 과정을 제공, 안전성과 신뢰성 측면에서도 의미가 큽니다.
- SCAN 외에도 다양한 컴포지셔널 작업에 확장 가능하며, 향후 LLM과 결합한 플러그인 추론기로서 실용적 가치가 기대됩니다.
6. 마치며
“Mirage는 뇌의 정보 처리 방식을 통찰하여, 기존 Transformer들이 고전하는 컴포지셔널 일반화 문제에 신선한 해결책을 제시합니다. 기술적으로도 단일 단계 meta-학습 + 명시적 schema 기반 보조를 조합해 이전보다 훨씬 작고 정확한 모델을 구현했죠.”
- 이해하기 힘든 거대 모델보단 작고 모듈형 AI를 좋아하는 분
- 인간 두뇌 작동 원리를 AI에 접목시키려는 연구자
- LLM 한계 극복과 해석 가능 AI에 관심 있는 개발자
이라면 꼭 한 번 자세히 살펴볼 만한 논문입니다!
더 알고 싶다면?
- Mirage 실제 코드와 schema 추출 알고리즘
- SCAN 외 다른 데이터셋과의 확장성 실험
- 뇌 신경회로 및 학습 방식과 AI 알고리즘 간 비교 연구
등도 앞으로 기대할 만한 연구 주제입니다. 참고로 Mirage 논문과 코드 링크는 여기에서 확인하세요!
감사합니다. AI를 좀 더 인간답게 만드는 신경과학 영감을 접목한 Mirage, 앞으로 우리 AI 연구 방향에 큰 이정표가 되지 않을까요? 😊
'AI' 카테고리의 다른 글
| “중요한 ReLU만 골라낸 ‘Solution-Aware Scoring’으로 2천만 매개변수 대형 DNN 검증의 시간복잡도 한계를 극복하다” (6) | 2025.08.02 |
|---|---|
| “LLM끼리 문제 내고 답하며 평가하는 혁신적 상호검증, ‘LLM-Crowdsourced’가 기존 평가의 한계를 날리다” (8) | 2025.08.01 |
| "CUPID: 인과 영향 함수로 로봇 모방학습 데모 데이터의 진짜 가치를 밝히다" (2) | 2025.07.28 |
| “수식으로 푸는 3D 유체역학: AI 심볼릭 회귀와 ASP 논리 필터링의 하이브리드 혁명” (7) | 2025.07.26 |
| “멀티모달 AI 에이전트가 전자제품 탄소발자국 측정의 판도를 바꾼다: LCA 자동화의 혁신적 도약” (2) | 2025.07.25 |