안녕하세요, AI와 영상처리 기술에 관심 있는 여러분! 오늘은 기존 모델들이 고전하던 ‘초장기 영상 이해’ 문제를 혁신적으로 해결한 최신 멀티모달 거대언어모델(Video-XL-2)에 대해 풀어보려고 합니다.
Video-XL-2: 초장기 영상 이해의 새로운 패러다임
영상과 언어를 함께 이해하는 멀티모달 대형 모델(MLLM)은 이미지 이해에서부터 영상까지 빠르게 영역을 넓히고 있지만, 긴 영상을 다루는 데는 여전히 큰 어려움이 있었습니다. 영상 길이가 길어질수록 프레임 수가 급증하면서 메모리와 연산량이 기하급수적으로 늘어나기 때문입니다.
하지만 이번에 등장한 Video-XL-2 모델은 '기술적 가치' 측면에서 기존 접근과는 확연히 다른 혁신을 보여줍니다.
기존 논문들과 현황
과거 연구들은 주로 두 가지 방향으로 긴 영상 처리 문제에 접근했습니다.
- 비주얼 토큰 축소(Token Reduction)
예를 들어, VideoChat-Flash, LLaMA-VID 등이 프레임 내 정보 압축, 토큰 병합, 다운샘플링 등을 통해 입력 길이를 줄여 연산부담을 낮추려 했습니다. - 희소(Self-Attention Sparsity) 기반 최적화
긴 시퀀스의 자기어텐션을 모두 계산하지 않고, 중요 부분에만 집중하는 방식입니다. VideoXL, Retake 등이 제한된 영역에 집중해 연산을 줄였습니다.
하지만 두 방식 모두 한계가 명확했는데요, 축소 방법은 정보 손실 위험이 크고, 희소 기반 방법은 입력 길이가 극단적으로 길어지면 K-V (Key-Value) 캐시가 점점 부담을 줍니다.
Video-XL-2, 뭐가 다를까요?
Video-XL-2는 위 두 한계를 동시에 극복하는 ‘기술적 가치’가 아주 큽니다. 핵심은 바로 “태스크 인지형 KV 희소화(Task-aware KV Sparsification)” 전략이에요.
1. 청크 기반 선행 채우기 (Chunk-based Pre-filling)
- 긴 영상 토큰을 작은 '청크(chunk)' 단위로 쪼갭니다.
- 각 청크 내에서는 완전한 어텐션 계산, 청크 간에는 희소 어텐션을 적용합니다.
- 또한, 이전 청크의 타임스탬프 토큰 키-값(KV)만 참조해서 연산량과 메모리를 크게 낮춰줍니다.
기존 연구와 다른 점
VideoXL-Pro나 Retake는 청크 단위 처리를 시도했으나, 이전 청크들의 KV가 계속 쌓이면서 길이가 길어질수록 부담이 커졌습니다. Video-XL-2는 이 점을 타임스탬프 토큰이라는 핵심 정보만 캐시해서 경량화함으로써 이 문제를 해결했습니다.
2. 바이레벨 KV 디코딩 (Bi-level Key-Value Decoding)
- 사전에 청크마다 조밀한(dense) KV와 희소한(sparse) KV 두 가지 레벨을 만듭니다.
- 질의 텍스트(질문)와 각 청크의 관련도를 평가하는 'relevance oracle'을 두고, 관련 높은 청크에는 조밀한 KV를, 낮은 청크에는 희소한 KV만 불러오는 똑똑한 접근법입니다.
- 이로써 디코딩 단계에서 메모리 사용량과 속도를 혁신적으로 줄이면서도, 중요한 영상 내용은 놓치지 않습니다.
비교 포인트
VideoChat-Flash 등이 KV를 단순하게 줄이는 시도를 했지만, 성능 손실이 컸고 효과도 부분적이었어요. Video-XL-2는 태스크 관련도 기반으로 KV를 선택적으로 로딩하여 효율과 정확도를 동시에 잡았습니다.
기술적 가치 총정리
| 기존 한계 | Video-XL-2 극복 방법 | 기술적 차별점 |
| 토큰 수 급증 시 성능 저하 및 리소스 폭발 | 청크 단위 처리 + 타임스탬프 토큰 중요도 활용 | ‘중요 정보 선택적 캐싱’으로 메모리 폭발 방지 |
| 디코딩 시 모든 KV 재사용으로 메모리 과부하 | 바이레벨 (dense/sparse) KV와 태스크 관련도기반 선택적 로딩 | 질의에 맞춰 핵심 정보만 디코딩, 속도/효율 크게 개선 |
| 영상 장면 모두 동일 중요 처리, 중복 정보 낭비 | DTS 모듈로 동적 토큰 합성 및 명시적 시간 임베딩 적용 | 중복 정보 필터링 및 시간 인지능력 강화 |
실제 성능과 효율성
- 최대 10,000 프레임까지 단일 80GB A100 GPU에서 처리 가능
- FLOPs와 KV 캐시 사용량을 절반 이하로 줄이면서도 성능 손실은 거의 없음
- MLVU, VideoMME, LongVideoBench 등 다양한 벤치마크에서 최고성능 경신, GPT-4o와 맞먹는 성능
- 초장기 영상 ‘Needle in Haystack’ 문제(꽤 긴 영상 내 핵심 질의 답변)에서 압도적 우수성 입증
마치며
기존 장기 영상 이해 모델들은 ‘성능’과 ‘효율’ 사이에서 선택해야 했는데, Video-XL-2는 기술적으로 이 두 마리 토끼를 모두 잡았습니다. 특히, 청크 단위 선행 채우기와 바이레벨 KV 디코딩이라는 혁신적 접근법은 앞으로 긴 영상 처리, 실시간 영상 분석, 심층 감시와 같은 현실 문제 해결에 엄청난 역할을 할 것으로 기대됩니다.
영상 AI 분야에서 저처럼 ‘긴 영상 이해’를 중점적으로 연구하거나, 실무에 적용하고 싶으신 분들이라면 Video-XL-2가 제시하는 기술 방향에 주목해보시면 분명 많은 영감을 받으실 거예요!
본 모델은 깃허브에 소스코드와 데모를 공개하고 있으니 관심 있으시면 직접 확인해보셔도 좋습니다. 앞으로 더 길고 복잡한 영상까지 마음껏 다루는 시대가 열릴 것 같아 정말 기대되네요!
읽어주셔서 감사합니다. 다음에도 쉽고 재미있는 AI 신기술 이야기로 찾아뵙겠습니다! 🙌
✏️ 참고: 이 글은 Video-XL-2 원문 논문을 기반으로 작성되었습니다.
'AI' 카테고리의 다른 글
| 페이지 그래프’와 RAG가 만든 GUI 자동화 혁신: PG-Agent가 복잡한 UI ‘지도’를 그려 에이전트 길찾기를 완성하다 (1) | 2025.09.06 |
|---|---|
| 토큰별 불확실성 쫓아 ‘필요한 부분만 척척’ 가성비 최고 LLM 답변 재생산법 (0) | 2025.09.04 |
| 내장 기억과 퍼지 인지로 LLM 대화 추론의 한계를 넘어선 혁신적 인지 스캐폴딩 전략 (1) | 2025.09.02 |
| 문장 단위 인과 분석으로 밝혀낸 LLM 추론의 ‘생각 닻(Thought Anchors)’과 핵심 사고 단계의 영향력 (3) | 2025.09.01 |
| ArgRAG: 노이즈와 모순을 수학적 논증 그래프로 해명하는 ‘설명 가능한’ AI 답변 혁명 (5) | 2025.08.30 |