- 논문 제목: Neural Machine Translation by Jointly Learning to Align and Translate
- 저자: Dzmitry Bahdanau, Kyunghyun Cho, Yoshua Bengio
Encoder는 Bidirectional RNN 사용.
각 입력 단어 위치마다 annotation vector $ h_j $를 생성.
Decoder는 각 출력 단어 $ yi $ 생성을 위해 이전 상태 $ s{i-1} $, 이전 단어 $ y_{i-1} $, context vector $ c_i $를 이용함.
Context vector 계산:
- 논문 제목: Effective Approaches to Attention-based Neural Machine Translation
- 저자: Minh-Thang Luong, Hieu Pham, Christopher D. Manning
Encoder–Decoder는 Stacked LSTM 구조 사용.
Input-feeding 방식: 이전 attention 결과 을 다음 time step의 입력으로 사용.
Global Attention Score Function 종류:
- 논문 제목: Attention Is All You Need
- 저자: Ashish Vaswani et al. (Google Brain/Research)
| 항목 | Bahdanau (2015) | Luong (2015) | Vaswani (2017) |
|---|---|---|---|
| 목적 | 고정 벡터 한계 해결 | 다양한 Attention 구조 실험 | RNN 없이 Attention만으로 학습 |
| 구조 | BiRNN + Soft Attention | Stacked LSTM + Global/Local | Transformer (Self-Attention) |
| Attention 방식 | Additive (FFNN 기반) | Dot/General/Concat + Gaussian | Scaled Dot-Product + Multi-Head |
| 결과 | 긴 문장에서 BLEU 향상 | SOTA 달성 (25.9 BLEU) | BLEU 최고 성능 (28.4+) + 빠른 학습 |