Ashish Vaswani, Noam Shazeer, NikiParmar, Jakob Uszkoreit, Llion Jones, Aidam N.Gomez, Lukasz Kaiser, Illia Polosukhin
RNN과 CNN을 기반으로 한 모델이 가진 한계점(긴 학습시간, 병렬작업 불가능)을 해결하기 위해 attention 기법을 사용하는 transformer 모델을 소개한다.
Transformer는 recurrence 하지 않고, attention 기법을 통해 input과 output 사이에 독립성을 보장하고자 하는 모델이다.
대부분의 transduction 모델들이 그러하듯, Transformer 역시 encoder와 decoder로 나뉘어 있다.
encoder에 seqeunce (x1, ..., xn)을 넣으면, 이에 대한 다른 상징적인 의미의 z = (z1, ..., zn)으로 바꾼다. 이렇게 나온 z를 decoder가 받아 새로운 의미의 (y1, ..., yn)으로 바꿔준다.
encoder는 6개의 레이어로, 하나의 레이어당 두 개의 sub 레이어(self-attention, fully connected feed-forword) 로 나뉘어 있다.
decoder 역시 6개의 레이어로, encoder의 결과에 multi-head attention을 하는 layer가 추가된다.