‼️ 개인 학습 내용으로, 오류가 있을 수 있습니다.
논문 URL - https://arxiv.org/abs/1706.03762
셀프 어텐션 레이어(self-attention layers)의 다양한 측면을 순환 레이어(recurrent layers), 합성곱 레이어(convolutional layers)와 비교한다.
셀프 어텐션을 사용하는 동기를 설명하기 위한 세 가지의 바람직한 기준(desiderata)
장거리 의존성 학습과 경로 길이의 중요성
Table 1 설명
합성곱 레이어의 연결성 한계

| 언어 쌍 | 데이터셋 | 문장 쌍 수 | 토큰화 방식 | 어휘장 크기 |
|---|---|---|---|---|
| 영어-독일어 | WMT 2014 | 4.5M | Byte-Pair Encoding | 37,000 |
| 영어-프랑스어 | WMT 2014 | 36M | Word-Piece | 32,000 |
| 모델 유형 | 스텝 시간 | 총 스텝 수 | 총 학습 시간 |
|---|---|---|---|
| Base 모델 | 0.4초 | 100,000 | 12시간 |
| Big 모델 | 1.0초 | 300,000 | 3.5일 |

성능 대비 비용
기술적 진보
경제적 효용

모델에서 사용된 3가지 정규화 기법
1. 잔차 연결 드롭아웃(Residual Dropout)
- 각 서브레이어 출력에 적용(Pdrop=0.1)
- 임베딩과 위치 인코딩 합계에도 적용
- 과적합 방지 및 모델 일반화 향상
2. 레이블 스무딩(Label Smoothing)
- εls=0.1 값으로 적용
- 모델의 과신 예방을 통해 BLEU 점수 향상
- 퍼플렉서티는 약간 악화되지만 정확도 개선
3. 층 정규화(Layer Normalization)
- 잔차 연결 후 적용되는 정규화
- 특징 차원(d_model) 기준 평균/분산 계산
- 안정적인 학습과 수렴 속도 개선
트랜스포머(Big 모델)는 WMT 2014 영어-독일어 번역 태스크에서 28.4 BLEU라는 새로운 SOTA(State-of-the-Art)를 달성했으며, 이는 앙상블을 포함한 기존 최고 모델 대비 2.0 BLEU 이상 향상된 수치이다.
특히 Base 모델도 기존 모든 단일/앙상블 모델을 능가하면서도 훨씬 적은 학습 비용(FLOPs 기준)으로 이러한 성능을 달성했다.
이는 트랜스포머 아키텍처의 계산 효율성과 성능 우수성을 동시에 입증하는 결과로, 기존 RNN/CNN 기반 모델 대비 1/4 수준의 학습 비용으로도 더 높은 번역 품질을 보여주었다.
주요 성과
학습 및 추론 세부 설정
실험 결과
(A) 어텐션 헤드 수 및 차원 변환 실험
- 실험 조건: Section 3.2.2에 따라 계산량을 고정한 상태에서 변경
- 어텐션 헤드 수와 key/value 차원 동시 조정
- 결과
- 단일 헤드(single-head) 사용 시 최적 설정 대비 BLEU 0.9 하락
- 헤드 수 과도하게 증가 시에도 성능 저하 발생 → "적정 헤드 수" 존재 확인
(B) 어텐션 Key 차원(dk) 감소 실험
- 관측 결과 : dk 축소 시 모델 품질 하락
- 시사점: 내적(dot product) 기반 호환성 판단이 쉽지 않음 → 향후 더 정교한 호환성 함수 개발 필요
(C)/(D) 모델 규모 및 드롭아웃 영향
- C(모델 크기): 대형 모델일수록 우수한 성능 → 규모의 이점 확인
- D(드롭아웃): 과적합 방지에 매우 효과적 → 정규화의 중요성 재확인
(E) 위치 인코딩 비교 실험
- 방법: 사인파 위치 인코딩 → 학습형 위치 임베딩으로 교체
- 결과: 기본 모델과 거의 동일한 성능

WSJ only, discriminative(91.3) 대비 추가 데이터(17M 문장) 활용 시 성능 1.4↑ → 확장성 검증generative) 대비 0.6 낮음 → 구문 트리 생성 방식 개선 필요성 시사