안녕하세요! 오늘은 2026년 1월에 공개된 최신 AI 논문 “MIXTURE-OF-MODELS: UNIFYING HETEROGENEOUS AGENTS VIA N-WAY SELF-EVALUATING DELIBERATION”를 보려고 합니다. 특히, 기존 Mixture-of-Experts (MoE)나 Multi-Agent 시스템들과 달리, ‘Inference-Time Compute’ 즉, 추론 시점에서 동적으로 자원을 할당하는 혁신적인 구조를 어떻게 구현했는지 설명드릴게요.
1. 배경: AI 아키텍처의 패러다임 전환
기존 AI 모델들은 대체로 ‘사전 훈련(pre-training)’에 집중했죠. 크기를 키우고, 큰 데이터로 한 번 학습시키면 끝. 그러나 이 논문은 “추론 시간에 자원을 동적으로 조절하는(Inference-Time Compute Scaling)” 시대가 도래했다고 주장합니다.
- 왜 중요한가? 무작정 큰 모델을 만드는 대신, 여러 작은 모델을 상황에 맞게 조합해 강력한 결과를 내는 데 집중하는 겁니다. 이 접근법은 자원 효율성과 비용 절감에 큰 의미가 있습니다.
2. 기존 MoE, MoA, CoA와의 차별점: 재발견된 토폴로지
우리에게 친숙한 Mixture-of-Experts(MoE), Mixture-of-Agents(MoA), Chain of Agents(CoA) 등은 모두 중요한 기여를 했지만, 한계도 많았습니다.
- MoE는 고정된 게이팅 네트워크로 토큰 단위 라우팅에 한정되어, 고수준 의미를 포착하는 데 한계가 있었습니다.
- MoA & CoA는 DAG(방향 비순환 그래프) 기반 진행형 구조인데, 작업이 깊어질수록 메모리 비용이 선형 증가하며 오류가 쌓이는 문제(에러 전파)가 발생합니다.
- 이 논문의 NSED는 이런 DAG 기반 구조를 벗어나, 순환적 재귀 신경망(RNN) 토폴로지를 차용합니다. ‘합의(consensus)’ 상태 자체를 ‘숨겨진 상태(hidden state)’로 두고 이를 반복 갱신(iterative refinement)하죠.
쉽게 말하면, NSED는 여러 에이전트가 ‘동시에’ 제안하고, ‘반복적으로’ 의견을 검증하며 최종 답에 가까워지는 ‘심사숙고’를 시뮬레이션합니다. 마치 인간 집단 토론에서 아이디어를 계속 다듬어가는 과정과 비슷하다고 할 수 있어요.
3. NSED의 기술적 핵심: 다섯 가지 혁신
3.1 동적 전문성 브로커 (Dynamic Expertise Broker)
- 기존 MoE는 라우팅 지도(gating map)가 정적으로 고정돼 있었죠.
- 여기는 런타임(knapsack 문제 형태로) 모델 조합을 최적화하여, 자원·비용·성능 목표를 맞춰 다양한 모델을 선택합니다.
- 즉, ‘적재적소’에 ‘최적의 전문가’를 동적으로 뽑는 스마트한 관리자 역할이죠.
3.2 거대 뉴런 토폴로지 (Macro-Neuron Topology)
- RNN과 LSTM의 구조를 참고해, 여러 에이전트를 병렬 게이트처럼 배치하고, ‘합의 상태’를 ‘순환 기억’으로 다룹니다.
- 이를 통해 모델 크기 확장 없이 반복 ‘심사숙고’를 가능케 하죠.
- 게다가 “사람 참여(HITL)”도 자연스럽게 통합됩니다.
3.3 투명한 의사결정과 ‘신뢰 없는’ 합의(Trustless Consensus)
- 흔히 ‘리더’ 모델에 몰표하는 경향(권위 편향)이 강한데, NSED는 ‘자기 자신’에 대한 투표를 금지하는 대각선 마스크(Diagonal Mask)를 씌워 이런 편향을 없앴습니다.
- 투표는 제안자와 평가자가 분리되며, ‘정답’ 그 자체로 승부 봅니다.
3.4 효율-피로도 모델 (Efficiency-Fatigue Model)
- 컴퓨팅 자원을 투입할수록 성능은 올라가지만, 무한정 계속하면 오히려 ‘피로’(잡음·노이즈 누적)로 성능이 떨어지는 것을 수학적으로 모델링 했습니다.
- 이를 이용해 ‘최적 타이밍’에 연산을 멈출 수 있는 체계적인 기준을 마련했죠.
3.5 에이전틱 오라클 (Agentic Oracle)
- 여러 에이전트가 독립적으로 외부 환경(파일시스템, 검색 인덱스 등)에서 정보를 가져와서 각각의 문맥을 처리하고, ‘압축 및 조율’을 통해 큰 문제도 다룰 수 있게 설계했습니다.
- 한마디로, ‘나눠서 학습하고 합치는 똑똑한 팀워크’입니다.
4. 왜 이게 특별할까요? – 기존 논문과의 비교
- MoE (Fedus et al. 2022) 토큰 단위의 고정 게이팅 라우팅, ‘Granularity Mismatch’ 한계 존재
- MoA (Wang et al. 2024), CoA (Zhang et al. 2024) DAG 구조로 메모리·에러 누적 문제, 1회 전달 + 피드백 미흡
- Adaptive Computation (Schwartz et al. 2020 등) 주로 미세한 연산 중단에 집중 (token-level), 의미 수준의 합의 메커니즘 부족
- 본 논문 NSED는 ‘합의 상태’를 순환하는 루프로 두고, 의미적 피드백을 이터레이션 하면서 VRAM 부담 없이 성능을 ‘시간 축’으로 확장해요.
- 실제 실험에서 20B 미만 소규모 모델집단이 100B대 대모델과 동등하거나 더 뛰어난 성능을 낸 점은 엄청난 결과입니다.
5. 실제 검증 성과 – 성능과 안전성 모두 잡았다!
5.1 AIME 2025(수리 문제)
- 중간급(20B) 연합으로 84%, 고성능(70B 이상) 연합은 90% 정답률!
- ‘과도 심사’ 시 오히려 성능이 하락하는 현상도 효율-피로 모델이 잘 맞춰 냄
5.2 LiveCodeBench (코드 생성)
- 초기 33% → NSED 60%까지 상승(약 두 배!)
- 작은 모델들이 ‘비판자’ 역할을 하면서 오버 리팩토링(잘못된 수정)도 회복 가능!
- 기존 단순 다수투표(Majority Voting) 대비 압도적으로 뛰어난 모습
5.3 DarkBench(안전성)
- 권위 편향과 ‘아첨행동(sycophancy)’ 크게 감소
- 다만 ‘Median Voter’ 효과로 특화된 전문가 없이 악의적 패턴 잡기는 힘든 한계 발견
6. 결론 및 시사점
이 논문은 AI 멀티에이전트 시스템 연구에 새로운 혁신을 가져왔습니다. 기술적 가치로 보면,
- ‘시간’ 축을 이용한 재귀적 합의 메커니즘으로 고비용 대형모델에 의존하지 않고도 고성능 모델들을 구성할 수 있습니다.
- 동적 브로커와 신뢰 없는 합의층 설계는 투명하고 공정한 융합 의사결정을 돕고, 실시간 자원 관리도 스마트해집니다.
- 기존 feed-forward DAG 구조의 구조적 한계를 넘고, 부드러운 반복 심사와 맥락 압축을 통해 안정성을 높였습니다.
- 실제 수학, 코딩, 안전성 벤치마크 검증을 통해 대형 모델 위주의 AI 패러다임 전환을 뒷받침하며, *범용 인공지능(AGI)*로 가는 길목에 큰 밑거름이 되리라 기대됩니다.
마무리
앞으로 AI 모델은 ‘한 방에 끝내는’ 사전학습 중심에서 벗어나, 에이전트들이 논의하고 스스로 점검하며 최적 답안을 찾아가는 시스템으로 진화할 것입니다. NSED 논문은 이러한 미래 AI 기술의 설계도 그 자체입니다.
혹시 AI 협업 시스템, 멀티에이전트, 동적 모델 조합에 관심 있으시다면 꼭 한번 읽어보시길 추천드려요. 오늘도 읽어주셔서 감사합니다!
참고 문헌 및 논문 전문은 논문 링크(https://arxiv.org/html/2601.16863v1)를 참고해 주세요.
'AI' 카테고리의 다른 글
| 에이전틱 AI가 이끄는 미래형 비즈니스 프로세스 관리: 자동화에서 자율화로의 혁신적 도약 (0) | 2026.01.29 |
|---|---|
| DSGym: 실행 환경 통합과 데이터 의존성 강화로 진짜 데이터 과학 AI 에이전트의 재현 가능성과 전문성 시대를 연 혁신적 프레임워크 (0) | 2026.01.28 |
| AWARE-US: 사용자 선호를 자동 추론해 불가능 쿼리를 맞춤 완화하는 AI 대화 에이전트 혁신 (1) | 2026.01.26 |
| AEON: 운영체제 수준에서 구현한 초고성능 신경-심볼릭 기억 관리로 LLM 에이전트의 장기 컨텍스트 문제 해결하기 (1) | 2026.01.24 |
| VisTIRA: 이미지 수학 문제의 ‘모달리티 갭’을 툴 통합 반복 추론으로 극복한 혁신적 비전-언어 모델 (0) | 2026.01.23 |