본문 바로가기

AI

“RNN이 필요 없다고? ‘Attention Is All You Need’가 열어놓은 어텐션 중심 NLP의 시대!”

안녕하세요! 이번 글에서는 2017년 구글 연구진의 논문 “Attention Is All You Need”를 기술적 가치 관점에서 새롭게 재해석해봤습니다. 읽기 쉽고 조회수도 쭉쭉 나올 내용으로 정리했어요 😊


1. 전통 RNN/CNN과의 단절: 셀프 어텐션 구조

논문의 핵심은 “이젠 RNN이나 CNN 없이 셀프 어텐션으로만 구성한다!”는 선언적 기조였습니다. 기존의 Seq2Seq 구조는 순차적으로 처리하는 RNN이나 지역 의존적인 CNN에 기반했지만, 이 논문에서는 Self-Attention만 사용해 병렬 연산이 가능하고, 훈련 시간을 획기적으로 줄였습니다.
실제로 WMT 영어‑독일어 번역에서는 BLEU 점수 28.4를, 영어‑프랑스어는 41.8을 달성하며 당시 기준 최고 성능이었습니다.

아키텍처 구성도 보시면, 인코더와 디코더가 각 6개의 블록으로 쌓여 있고, RNN 없이 어텐션+피드포워드+잔차연결+LayerNorm만 사용하는 혁신 구조입니다.


2. 핵심 기술 해부: Scaled Dot‑Product + Multi‑Head

(1) Scaled Dot‑Product Attention

Q·Kᵀ를 √d_k로 나누고 Softmax로 확률화, V와 곱해서 가중합을 수행하는 방식입니다. 시퀀스 내 모든 위치와 전역 관계를 직접 계산하므로 병렬화 가능하고, 계산 효율도 좋습니다 .

(2) Multi‑Head Attention

다양한 Q/K/V 투영을 통해 여러 “시선”으로 정보를 봅니다. 8~16개 헤드로 병렬 attention을 수행한 뒤 concat해서 정보 집약! 이게 실제 어텐션의 다채로운 효과를 발휘합니다.
그림을 보면 Encoder-Decoder 간 어텐션, Self-Attention, Masked Self-Attention 구조가 이해하기 쉽게 정리돼 있어요.


3. 포지션 인코딩: 시퀀스의 순서를 잃지 않기 위한 아이디어

순수 어텐션 구조는 순서 정보가 반영되지 않는 단점이 있는데, 이를 위해 사인·코사인 기반 positional encoding을 사용했어요.
이 인코딩은 특정한 주기로 반복되는 패턴 덕분에, 훈련보다 긴 시퀀스에도 extrapolate 가능하도록 설계됐답니다 .


4. 기술적 가치의 재해석: 왜 이 논문이 더 특별할까?

  1. 병렬 처리 = 초고속 훈련 시대 개막
    RNN은 순차적이라 GPU 병렬 활용률이 낮았지만, 어텐션 구조는 완전히 병렬화 가능! 실제로 대형 모델 학습 시간과 비용이 훨씬 줄었어요 .
  2. 아키텍처의 범용성
    번역뿐 아니라 파싱, QA, 요약 등 다양한 NLP 과제에도 범용적으로 적용 가능하다는 점에서 당시 혁신적이었죠.
  3. 기반 기술로 확장 → LLM 시대로 이어짐
    이후 BERT, GPT 시리즈, Longformer 등 등장이 가능했던 모태, 바로 이 혁신. 오늘날의 멀티모달 AI·대규모 언어 모델도 이 구조를 기반으로 발전했습니다.

5. 기존 모델들과 차이점 비교

모델구조 특징장단점 비교
RNN 기반 순차 처리, 긴 시퀀스 의존 어려움 연산 느리고 병렬화 힘듦
CNN 기반 국지 특징 처리 우수 전역 의존성 처리 어려움
Transformer (논문의 구조) 전역 self-attention + 위치 인코딩 + 병렬성 연산 속도 빠르고, 유연성과 효율 모두 뛰어남
 

6. 최신 연구 흐름 vs 이 논문

  • Synthesizer (2020): Dot-product attention 대신 무작위 또는 간단한 합성 attention 행렬로 경쟁하며, 속도와 성능을 둘 다 잡았다는 인사이트. Transformer 가능성을 재검증한 대표 논문이었죠.
  • Longformer 등: 시퀀스 길이가 수천 이상일 때, 기존 Transformer 연산량이 O(n²)로 비효율적인 문제를 해결하며, 이 논문의 구조를 확장한 사례입니다 .

마무리

2017년에 나온 이 논문은 NLP와 더 넓게 AI 전 반에 걸쳐 “어텐션 우선 시대”를 연 혁명적 문서입니다.
병렬화, 전역 의존성, 확장성 등 기술적 가치가 집약적으로 담겨 있어 우리가 지금 사용하는 LLM과 AI 생산성의 핵심 기반이 되었죠.
다음 글에서는 Transformer의 응용 사례(BERT, GPT 시리즈 등)나 변형 모델(Longformer 등) 리뷰도 해드릴 수 있어요.
도움이 되셨다면 댓글이나 공유 부탁드려요! 😊