Transformer] Positional Embedding

boingboing·2024년 5월 20일

RNN류의 모델은 모델의 구조 자체가 시간적 연속성을 보장하게 된다.
그러나, transformer 모델은 LSTM, RNN 기반 모델과 달리 "시간적 연속성" 을 모델의 핵심부에서 다루지 않음.
Transformer 모델의 핵심은 attention 함수임.
attention 함수는 쉽게 말하면 "John is good at playing soccer and he want to be a soccer player"라는 문장에서 he를 attention 함수 통과 시 John에 대한 attention 값이 가장 높게 나오도록 하는 것임.
attention 함수가 들어간 layer에서는 구조적으로 시간적 연속성이 없다.
attention 함수가 이러한 구조를 통해 얻는 이점은,
- 데이터가 통과하는 Layer의 수를 줄일 수 있어 연산에서의 이득
- RNN 류의 모델의 학습 과정에서 발생하는 기울기 소실/폭발 등에서 자유롭다는 것이다.
Positional Embedding이 왜 필요한가 하면, 그럼에도 어순은 언어를 이해하는데 중요한 역할을 하기에 이 정보에 대한 처리가 필요하다. 따라서 이 논문의 저자가 채택한 방식은 attention layer에 들어가기 전에 입력값으로 주어질 단어 vector 안에 positional encoding 정보, 즉 단어의 위치 정보를 포함시키고자 하는 것이다.