원문 : Vaswani, Ashish, 'Attention is All you Need' 2017
이번 논문은 Attention mechanism을 기반한 Transformer모델을 제시한다. RNN 모델의 장기 의존성(long-term dependency) 문제를 극복하고자 제안된 구조이며 BERT, GPT 모델의 기반이 되는 모델이기도 하다.
기존 최적의 성능을 가진 시퀀스 변환 모델은 복잡한 RNN(순환신경망) 혹은
CNN(합성곱신경망)과 encoder/decoder를 포함하고 있다. 이를 보완하고자
encoder/decoder와 Attention-mechanism만을 사용하여 Network Architecture를
구현한다. 이러한 Transformer Architecture는 다음과 같은 이점을 준다.
1. 품질 우수와 동시에 병렬 처리성이 높아져 훨씬 적은 학습시간을 요구한다.
2. WMT 2014 English to French 번역 작업에서 훨씬 개선된 성능을 보여줬다.
3. 크기가 크거나 한정된 학습데이터임에도 불구하고 여러 task들을 잘 일반화 시킨다.
"RNN의 순환 처리 문제"