RNN류의 모델은 모델의 구조 자체가 시간적 연속성을 보장하게 된다.
그러나, transformer 모델은 LSTM, RNN 기반 모델과 달리 "시간적 연속성" 을 모델의 핵심부에서 다루지 않음.
Transformer 모델의 핵심은 attention 함수임.
attention 함수는 쉽게 말하면 "John is good at playing soccer and he want to be a soccer player"라는 문장에서 he를 attention 함수 통과 시 John에 대한 attention 값이 가장 높게 나오도록 하는 것임.
attention 함수가 들어간 layer에서는 구조적으로 시간적 연속성이 없다.
attention 함수가 이러한 구조를 통해 얻는 이점은,
Positional Embedding이 왜 필요한가 하면, 그럼에도 어순은 언어를 이해하는데 중요한 역할을 하기에 이 정보에 대한 처리가 필요하다. 따라서 이 논문의 저자가 채택한 방식은 attention layer에 들어가기 전에 입력값으로 주어질 단어 vector 안에 positional encoding 정보, 즉 단어의 위치 정보를 포함시키고자 하는 것이다.