[논문 리뷰 - 5] Attention Is All You Need

shanny·2025년 4월 14일

논문리뷰

논문 리뷰

목록 보기

11/42

‼️ 개인 학습 내용으로, 오류가 있을 수 있습니다.

논문 URL - https://arxiv.org/abs/2005.11401

논문을 읽으며 생각할 것들

저자가 이 논문을 통해 이루고자 한 것은 무엇인가?

-> 순환 계층(recurrent layers)으로 인해 발생하는 연산량 증가, 메모리 제약 등의 한계를 극복하는 언어 모델 아키텍처를 만든다.

문제 상황 : 순환 모델(순환 신경망 등)의 순차적 특성은 훈련 예제 내에서 병렬화를 방해하며, 시퀀스 길이가 길어질수록 메모리 제약으로 인해 예제 간 배치 처리에 제한이 가해짐.
해결 방법 : 순환 구조(recurrence)를 배제하고, 오직 Attention mechanism만을 활용해 입력과 출력 간의 전역적 의존성(global dependencies)을 학습하는 트랜스포머(Transformer) 모델 아키텍처를 제안

논문의 핵심 요소는 무엇인가?

Transformer의 개념 : 어텐션 메커니즘을 통해 위치 간 거리에 관계없이 상수 시간 연산을 가능하게 하는 모델 아키텍처
Transformer의 작동 원리 :
- 기존 인코더-디코더 구조를 유지하면서 추가적으로 인코더, 디코더 계층을 가짐
- Self-Attention 레이어: 입력 간의 상호 관계를 분석
- Point-wise 완전 연결 레이어: 개별 위치별 독립적 처리
Attention
- Scaled Dot-Product Attention
  - Query(Q), Key(K), Value(V) 행렬 연산
  - √dₖ(dₖ: 키 벡터 차원)로 스케일링 → 그래디언트 폭주 방지
  - 단일 헤드에서의 기본 어텐션 메커니즘
- Multi-Head Attention
  - h개의 독립적 어텐션 헤드 병렬 운영(h=8)
  - 각 헤드는 서로 다른 attention(Qᵢ,Kᵢ,Vᵢ) 계산
주요 성과
- self-attention 레이어는 모든 위치를 일정한 수의 순차적 연산으로 연결(O(1))하는 반면, recurrent 레이어는 O(n)의 순차적 연산이 필요하다.
- 계산 복잡도 측면에서, self-attention 레이어는 시퀀스 길이 n이 표현 차원 d보다 작을 때 recurrent 레이어보다 빠르며, 이는 기계 번역의 최신 모델(예: word-piece 및 byte-pair 표현)에서 일반적으로 사용되는 문장 표현의 경우 대부분 해당된다.
- 트랜스포머(Big 모델)는 WMT 2014 영어-독일어 번역 태스크에서 28.4 BLEU라는 새로운 SOTA(State-of-the-Art)를 달성했으며, 이는 앙상블을 포함한 기존 최고 모델 대비 2.0 BLEU 이상 향상된 수치이다.