QuickMerge++: 엔트로피 기반 토큰 병합으로 2배 압축·성능 향상·AR 생성모델 효율 혁신

안녕하세요! 오늘은 2025년 VLDB 컨퍼런스에 발표된 최신 논문 “QuickMerge++: Fast Token Merging with Autoregressive Prior”를 한 번 살펴보려고 합니다. 이 논문이 갖는 기술적 가치와 특징을 기존 연구들과 비교하면서 풀어드리겠습니다. 특히, 어떻게 하면 대용량 멀티모달 데이터 처리 시 ‘토큰 수’를 줄이면서도 모델 성능 저하 없이 효율성을 극대화할 수 있는지 궁금하셨던 분들께 추천드리고 싶어요.

QuickMerge++가 왜 중요한가요? — 대규모 생성 모델의 토큰 병목 문제

최근 GPT, ViT, VideoMAE 같은 초대규모 생성 모델들이 텍스트, 이미지, 비디오 분야에서 고도화되고 있지만, 토큰 단위 연산 비용이 계속 증가하는 문제는 여전히 큰 걸림돌입니다. 특히 자기회귀(autoregressive, AR) 생성 구조에서는 모든 토큰이 순차적으로 처리되기에, ‘긴 시퀀스’를 다룰 때 비용과 시간이 급증하죠.

기존 사례를 보면,

TokenLearner (Ryoo et al., 2021): 학습 기반으로 시각 토큰을 줄이지만, 고정된 출력 토큰 수만 지원하고 AR 모델과 직접 연계되기 어렵습니다.
DynamicViT (Rao et al., 2021): 단계별 토큰 프루닝을 통해 간단히 토큰 수를 줄이지만, 생성 품질이 손상될 위험이 있습니다.
LARP (Wang et al., 2024): 영상 분야에서 AR prior를 학습해 AR과 호환성은 맞추었지만, 특정 모달리티에 특화되어 범용성이 떨어집니다.

이러한 한계점들을 뛰어넘는 게 QuickMerge++의 가장 큰 기술적 가치입니다.

QuickMerge++: 핵심 기술 포인트 3가지

엔트로피 기반의 동적 토큰 예산 책정 (Entropy-Aware Budgeting)
QuickMerge++는 각 토큰의 ‘중요도’를 단편적인 기준이 아니라 트랜스포머 내부의 다중 계층에서 계산되는 ‘어텐션 엔트로피’를 토대로 합니다. 엔트로피가 낮다는 것은 불확실성이 적고 핵심 정보를 담고 있다는 의미라, 이 정보에 입각해 모호하거나 덜 중요한 토큰들의 수를 동적으로 줄입니다.
차별화된 미분 가능한 토큰 병합 (Differentiable Token Merging)
Gumbel-Softmax라는 기법으로 각 토큰이 ‘선택될 확률’을 부드럽게 조절해, 의미가 겹치는 토큰 군을 묶어 하나의 대표 토큰으로 합칩니다. 이 과정에서 단순히 임의적 병합이 아니라, 토큰의 중요도를 반영한 가중 평균을 취해 의미 손실 최소화를 꾀합니다.
양방향 자기회귀 사전 학습 (Bidirectional AR Prior Alignment)
AR 방식은 토큰을 순서대로 처리해야 하는 데, 병합된 토큰 순서가 변하면 예측이 어긋날 수 있습니다. 이를 보완하기 위해 QuickMerge++는 병합된 토큰 시퀀스에 대해 ‘앞→뒤’와 ‘뒤→앞’ 양방향 모두 예측하도록 경량형 트랜스포머 PRIOR를 학습, 시퀀스의 시간 연속성과 예측 일관성을 보장합니다. 이 부분은 기존 방법들이 놓친 AR 호환성 확보의 핵심입니다.

다른 접근법과 차별화된 점 — 그래서 얼마나 성능이 좋나요?

기능적 차이: TokenLearner 같은 기존 다이나믹 토큰 선택법은 고정된 토큰 수나 모달리티별로 특화돼 있지만, QuickMerge++는 모달리티 비의존적이며, 사전 학습된 인코더를 바꾸지 않고도 쓸 수 있는 ‘플러그 앤 플레이’ 방식이에요. 즉, 연산 효율성과 범용성이 뛰어납니다.
성능: 표준 벤치마크 WikiText-103, ImageNet, UCF101에서 QuickMerge++는 기존 TokenLearner, VQ-VAE 등을 뛰어넘어 2배 이상 토큰을 줄이면서 오히려 4%대 품질 향상을 나타냈습니다. 게다가 긴 문맥 처리나 영상 질문응답 같은 복합 작업에서도 성능 저하 없이 2~2.7배 토큰 압축을 달성했죠.
계산 효율성: NVIDIA A100 환경에서 디코딩 지연 시간 34% 감소, 메모리 사용량 63% 감소를 입증했습니다. 어텐션 계산량이 O(N²)에서 O(K²)(K << N)로 줄어들어 엄청난 스케일 업 효과를 기대할 수 있습니다.

QuickMerge++가 제안한 토큰 압축 과정 간단 요약

입력 토큰 시퀀스 128개 → 각 토큰 별 다중 계층 어텐션 엔트로피로 중요도 측정
Gumbel-Softmax로 중요 토큰 확률 샘플링 → 중요도 반영한 가중치 생성
코사인 유사도 기반 클러스터링으로 토큰 병합해 54개 토큰으로 요약
양방향 AR PRIOR 통해 순서 및 의미 보존, 디코딩 시 정확도 유지

기술적 의의 및 앞으로의 확장 방향

QuickMerge++는 ‘엔트로피’를 이용해 토큰 중요도를 정량화한 점, AR 모델에 맞는 토큰 병합을 가능하게 만든 점, 그리고 모달리티 독립/사전 학습된 백본 활용이 가능한 ‘범용성’이 핵심 가치입니다. 기존 연구들이 한계로 가진 고정된 토큰 크기, 독립된 인코더 학습, AR과의 비호환성 문제를 한꺼번에 해결했다는 점에서 의미가 크죠.

또, 향후에는 스트리밍 대용량 입력이나 모델 간 협업, 장기 기억 강화 등 영역에 QuickMerge++를 연계해 초대규모 실시간 생성 AI 시스템의 입구로 역할 할 수 있답니다.

마치며: AI 모델 규모 확장 시대, 토큰 수 효율화의 새 기준

처음 접하시는 분은 ‘토큰 줄인다고 성능까지 유지되는 게 신기한데 어떻게 가능한가?’ 싶으실 거예요. QuickMerge++는 전통적인 ‘자르고 덜 중요한 토큰 버리기’가 아니라, ‘정교한 의미 단위 재구성에 AR 호환성까지 챙긴’ 혁신적인 접근법입니다.

결과적으로 토큰 수가 줄어들어 바로 연산비와 메모리 부담이 크게 줄고, 개발사 입장에서도 모델 재학습 없이 현 시스템 위에 도입 가능해 실무 적용 장벽이 낮은 점도 매력적입니다.

오늘 정리한 QuickMerge++는 AI 연구자뿐 아니라, 실제 서비스 최적화에 관심 있는 개발자분들에게도 분명 큰 도움이 되리라 믿어요. 앞으로 계속 발전할 ‘생성 모델 토큰 최적화’ 분야를 이끄는 중요한 활자 중 하나로 기억해주세요!

읽어주셔서 감사합니다~ 다음에도 흥미로운 AI 기술 소식으로 찾아뵙겠습니다!

참고 논문 원본: https://arxiv.org/html/2508.13204v1

'AI' 카테고리의 다른 글

컴퓨터과학 학습 혁신: 학생 맞춤형 ‘교육적 프롬프트’로 AI 튜터링 효과 극대화 연구 리뷰 (3)	2025.08.25
전문가 지식으로 무장한 ORThought: LLM 기반 최적화 모델링 자동화의 새 지평 (0)	2025.08.22
의료 AI 혁신의 새 기준, QuarkMed: 권위 데이터·다단계 RL·RAG 결합으로 정확성과 신뢰성 모두 잡다 (0)	2025.08.20
INFIGUI-G1: 다중답변 탐험과 적응형 보상으로 GUI 에이전트의 ‘의미 있는 클릭’ 혁신을 이끌다 (6)	2025.08.12
MedErr-CT: 3D CT 영상 기반 멀티모달 대형언어모델이 의료 보고서 오류를 인지하고 교정하는 첫 실증적 평가 (5)	2025.08.11