본문 바로가기

AI

10,000프레임 초장기 영상도 척척! Video-XL-2가 멀티모달 AI에 던진 ‘태스크 인지형 KV 희소화’ 혁신

안녕하세요, AI와 영상처리 기술에 관심 있는 여러분! 오늘은 기존 모델들이 고전하던 ‘초장기 영상 이해’ 문제를 혁신적으로 해결한 최신 멀티모달 거대언어모델(Video-XL-2)에 대해 풀어보려고 합니다.


Video-XL-2: 초장기 영상 이해의 새로운 패러다임

영상과 언어를 함께 이해하는 멀티모달 대형 모델(MLLM)은 이미지 이해에서부터 영상까지 빠르게 영역을 넓히고 있지만, 긴 영상을 다루는 데는 여전히 큰 어려움이 있었습니다. 영상 길이가 길어질수록 프레임 수가 급증하면서 메모리와 연산량이 기하급수적으로 늘어나기 때문입니다.

하지만 이번에 등장한 Video-XL-2 모델은 '기술적 가치' 측면에서 기존 접근과는 확연히 다른 혁신을 보여줍니다.


기존 논문들과 현황

과거 연구들은 주로 두 가지 방향으로 긴 영상 처리 문제에 접근했습니다.

  1. 비주얼 토큰 축소(Token Reduction)
    예를 들어, VideoChat-Flash, LLaMA-VID 등이 프레임 내 정보 압축, 토큰 병합, 다운샘플링 등을 통해 입력 길이를 줄여 연산부담을 낮추려 했습니다.
  2. 희소(Self-Attention Sparsity) 기반 최적화
    긴 시퀀스의 자기어텐션을 모두 계산하지 않고, 중요 부분에만 집중하는 방식입니다. VideoXL, Retake 등이 제한된 영역에 집중해 연산을 줄였습니다.

하지만 두 방식 모두 한계가 명확했는데요, 축소 방법은 정보 손실 위험이 크고, 희소 기반 방법은 입력 길이가 극단적으로 길어지면 K-V (Key-Value) 캐시가 점점 부담을 줍니다.


Video-XL-2, 뭐가 다를까요?

Video-XL-2는 위 두 한계를 동시에 극복하는 ‘기술적 가치’가 아주 큽니다. 핵심은 바로 “태스크 인지형 KV 희소화(Task-aware KV Sparsification)” 전략이에요.

1. 청크 기반 선행 채우기 (Chunk-based Pre-filling)

  • 긴 영상 토큰을 작은 '청크(chunk)' 단위로 쪼갭니다.
  • 각 청크 내에서는 완전한 어텐션 계산, 청크 간에는 희소 어텐션을 적용합니다.
  • 또한, 이전 청크의 타임스탬프 토큰 키-값(KV)만 참조해서 연산량과 메모리를 크게 낮춰줍니다.

기존 연구와 다른 점

VideoXL-Pro나 Retake는 청크 단위 처리를 시도했으나, 이전 청크들의 KV가 계속 쌓이면서 길이가 길어질수록 부담이 커졌습니다. Video-XL-2는 이 점을 타임스탬프 토큰이라는 핵심 정보만 캐시해서 경량화함으로써 이 문제를 해결했습니다.

2. 바이레벨 KV 디코딩 (Bi-level Key-Value Decoding)

  • 사전에 청크마다 조밀한(dense) KV희소한(sparse) KV 두 가지 레벨을 만듭니다.
  • 질의 텍스트(질문)와 각 청크의 관련도를 평가하는 'relevance oracle'을 두고, 관련 높은 청크에는 조밀한 KV를, 낮은 청크에는 희소한 KV만 불러오는 똑똑한 접근법입니다.
  • 이로써 디코딩 단계에서 메모리 사용량과 속도를 혁신적으로 줄이면서도, 중요한 영상 내용은 놓치지 않습니다.

비교 포인트

VideoChat-Flash 등이 KV를 단순하게 줄이는 시도를 했지만, 성능 손실이 컸고 효과도 부분적이었어요. Video-XL-2는 태스크 관련도 기반으로 KV를 선택적으로 로딩하여 효율과 정확도를 동시에 잡았습니다.


기술적 가치 총정리

기존 한계 Video-XL-2 극복 방법 기술적 차별점
토큰 수 급증 시 성능 저하 및 리소스 폭발 청크 단위 처리 + 타임스탬프 토큰 중요도 활용 ‘중요 정보 선택적 캐싱’으로 메모리 폭발 방지
디코딩 시 모든 KV 재사용으로 메모리 과부하 바이레벨 (dense/sparse) KV와 태스크 관련도기반 선택적 로딩 질의에 맞춰 핵심 정보만 디코딩, 속도/효율 크게 개선
영상 장면 모두 동일 중요 처리, 중복 정보 낭비 DTS 모듈로 동적 토큰 합성 및 명시적 시간 임베딩 적용 중복 정보 필터링 및 시간 인지능력 강화

실제 성능과 효율성

  • 최대 10,000 프레임까지 단일 80GB A100 GPU에서 처리 가능
  • FLOPs와 KV 캐시 사용량을 절반 이하로 줄이면서도 성능 손실은 거의 없음
  • MLVU, VideoMME, LongVideoBench 등 다양한 벤치마크에서 최고성능 경신, GPT-4o와 맞먹는 성능
  • 초장기 영상 ‘Needle in Haystack’ 문제(꽤 긴 영상 내 핵심 질의 답변)에서 압도적 우수성 입증

마치며

기존 장기 영상 이해 모델들은 ‘성능’과 ‘효율’ 사이에서 선택해야 했는데, Video-XL-2는 기술적으로 이 두 마리 토끼를 모두 잡았습니다. 특히, 청크 단위 선행 채우기와 바이레벨 KV 디코딩이라는 혁신적 접근법은 앞으로 긴 영상 처리, 실시간 영상 분석, 심층 감시와 같은 현실 문제 해결에 엄청난 역할을 할 것으로 기대됩니다.

영상 AI 분야에서 저처럼 ‘긴 영상 이해’를 중점적으로 연구하거나, 실무에 적용하고 싶으신 분들이라면 Video-XL-2가 제시하는 기술 방향에 주목해보시면 분명 많은 영감을 받으실 거예요!


본 모델은 깃허브에 소스코드와 데모를 공개하고 있으니 관심 있으시면 직접 확인해보셔도 좋습니다. 앞으로 더 길고 복잡한 영상까지 마음껏 다루는 시대가 열릴 것 같아 정말 기대되네요!


읽어주셔서 감사합니다. 다음에도 쉽고 재미있는 AI 신기술 이야기로 찾아뵙겠습니다! 🙌


✏️ 참고: 이 글은 Video-XL-2 원문 논문을 기반으로 작성되었습니다.