본문 바로가기

AI

움직이는 영상 속 AI의 시선: 2025년 비디오 확산모델 어텐션 맵 시각화와 예술적 해석

안녕하세요, 여러분! 오늘은 2025년에 발표된 최신 논문 "Attention of a Kiss: Exploring Attention Maps in Video Diffusion for XAIXArts"를 소개해드리려고 합니다. 특히 이 논문은 비디오 생성 AI 모델 내부의 ‘어텐션 메커니즘’을 시각화하여 기술적 가치를 탐구한 연구인데요. 예전 아날로그 비디오 아트 시대에 아티스트들이 자체 제작 도구로 영상 신호를 해체하고 새롭게 해석했던 것처럼, 현대의 AI 비디오 생성 기술도 내부 구조를 이해하는 것이 얼마나 중요한지를 보여줍니다.


왜 이 논문이 특별할까요? 기존 연구들과의 차별점

요즘 AI가 이미지나 영상을 만들어내는 건 너무나 흔한 일이졌죠. 예를 들어 ‘Stable Diffusion’ 같은 텍스트-투-이미지 모델은 어텐션 메커니즘을 시각화해서 ‘이 단어가 화면의 어느 부분에 영향을 미치는지’를 어느 정도 해석할 수 있습니다 (Tang et al., 2022; Helbling et al., 2025). 그런데 이 논문은 텍스트-투-비디오 모델, 특히 최신 비디오 확산(비디오 디퓨전) 모델인 ‘Wan’에서 이러한 어텐션 맵을 추출하고 시각화하는 최초급 시도입니다. 즉, ‘움직이는 영상’에서도 어텐션이 시간과 공간을 어떻게 오가는지 들여다본 실험적 성과라는 점에서 큰 의미가 있죠.

기존 논문들이 보통 생성된 결과물(FVD 같은 지표) 평가에 집중했다면, 본 연구는 ‘모델 내부의 시선 흐름’을 들여다보고 이를 아티스트들의 창작 도구로 활용하려는 예술적 관점까지 더했습니다. 기술적 해석에 그치지 않고, AI 내부의 ‘생성 과정’을 알리고 그 자체를 새로운 영상 예술작품으로 승화시킨 점이 주목할 만합니다.


핵심 기술: 비디오 확산모델 내부 어텐션 맵 시각화

이 논문에서 가장 눈여겨볼 부분은 바로 ‘비디오 확산 변환기(transformer)’ 내부의 크로스-어텐션 맵을 추출하고 3D 영상 텐서(프레임 × 높이 × 너비) 형태로 재구성하는 방법입니다. 이를 통해 각 텍스트 토큰이 영상 내 어느 공간과 어느 순간에 얼마나 집중하는지 한눈에 파악 가능합니다.

  • 추출 단계: Wan 2.1 모델의 각 어텐션 레이어에서 데이터를 가로채 메모리에 저장
  • 시각화 단계: 저장된 5D 텐서(확산스텝 × 블록 × 헤드 × 토큰 × 임베딩)를 시간과 공간에 맞게 변환하여 히트맵으로 출력

이렇게 어텐션 맵을 시간에 따라, 그리고 어텐션 헤드별로 상세히 볼 수 있는 툴은 기술적으로도 매우 혁신적인데요. 기존 영상 생성 모델에서는 이런 세밀한 내부 가시화 도구가 없었기 때문입니다.


기술적 성과를 엿본 탐색적 실험

논문에는 세 가지 주요 실험이 흥미롭게 펼쳐집니다.

  1. 단일 객체 추적: ‘cat’ 토큰이 생성된 영상 내 고양이 위치에 어텐션을 집중하는 걸 확인
  2. 복합 객체 분리: ‘cat’, ‘soccer ball’, ‘Eiffel Tower’처럼 여러 토큰이 각자 대상에 정교히 매칭됨을 보여줌
  3. 추상 개념 탐구: ‘kiss’ 같은 추상 단어가 공간적으로 덜 뚜렷하지만, 관심 영역이 키스하는 입 주변에 의미 있게 모임

특히 ‘kiss’ 토큰에 집중한 ‘Attention of a Kiss’ 비디오 예술 작업은, 확산 과정 속 어텐션의 움직임과 인간 감정의 서사를 은유적으로 연결한 멋진 시도입니다. AI가 만들어내는 영상 속 ‘마음’의 흐름을 시각화해 보는 느낌이랄까요?


아티스트와 개발자에게 주는 기술적 시사점

  • 내부 메커니즘 가시화: 아티스트들이 단순 결과물이 아니라 ‘모델 내부 시선’을 직접 볼 수 있으니, 보다 의도적이고 정교한 프롬프트 디자인이 가능해집니다.
  • 모델 이해도 향상: 토큰별 어텐션 패턴에서 반복적 시각적 속성을 파악하면, AI 설명 가능성(Explainability)뿐 아니라 창작 전략 개발에도 크게 기여할 수 있습니다.
  • 네트워크 밴딩(Network Bending) 가능성: 내부 동작을 조작하는 ‘크리에이티브 해킹’으로, 전통적인 프롬프트 공학을 넘어 모델 행동 자체를 재구성하는 미래 기술로 이어질 전망입니다.

그런데 단점도 있죠. 토큰이 많거나 추상적일 때 맵이 혼란스럽거나 해석하기 어려울 수 있고, 대량 데이터 처리 때문에 GPU 메모리 소모가 큽니다. 앞으로 이런 부분을 개선하고 ‘요약된 시각화’ 툴이 나오면 더 널리 활용될 가능성도 커 보입니다.


마치며

지난 시대의 비디오 아트가 아날로그 신호를 해체해 예술을 확장했듯, 최신 AI 예술도 내부 ‘어텐션’이라는 신호를 시각화해 창작과 해석의 지평을 넓혀가고 있습니다. 이 논문이 보여주는 기술적 가치는 단순한 ‘결과물 품질’ 평가를 넘어서, 생성 AI의 내면을 들여다보는 새로운 길을 열었다는 점입니다. 앞으로 다양한 AI 모델과 미디어 아트가 만나는 지점에서 흥미로운 협업과 혁신이 계속될 것이라 믿습니다.

AI 기반 비디오 생성과 예술에 관심 있는 분들이라면 꼭 한번 자세히 읽어볼 만한 논문입니다. 궁금하신 점이나 토론하고 싶은 내용이 있다면 댓글로 남겨주세요!


<참고 논문 원문 및 자세한 내용>

https://arxiv.org/html/2509.05323v1


오늘도 흥미로운 AI 연구 살펴보느라 수고 많으셨습니다. 다음 글에서 또 만나요! 😊