Transformer] Positional Embedding

boingboing·2024년 5월 20일
  • RNN류의 모델은 모델의 구조 자체가 시간적 연속성을 보장하게 된다.

  • 그러나, transformer 모델은 LSTM, RNN 기반 모델과 달리 "시간적 연속성" 을 모델의 핵심부에서 다루지 않음.

  • Transformer 모델의 핵심은 attention 함수임.

  • attention 함수는 쉽게 말하면 "John is good at playing soccer and he want to be a soccer player"라는 문장에서 he를 attention 함수 통과 시 John에 대한 attention 값이 가장 높게 나오도록 하는 것임.

  • attention 함수가 들어간 layer에서는 구조적으로 시간적 연속성이 없다.

  • attention 함수가 이러한 구조를 통해 얻는 이점은,

    • 데이터가 통과하는 Layer의 수를 줄일 수 있어 연산에서의 이득
    • RNN 류의 모델의 학습 과정에서 발생하는 기울기 소실/폭발 등에서 자유롭다는 것이다.
  • Positional Embedding이 왜 필요한가 하면, 그럼에도 어순은 언어를 이해하는데 중요한 역할을 하기에 이 정보에 대한 처리가 필요하다. 따라서 이 논문의 저자가 채택한 방식은 attention layer에 들어가기 전에 입력값으로 주어질 단어 vector 안에 positional encoding 정보, 즉 단어의 위치 정보를 포함시키고자 하는 것이다.

참고자료

https://skyjwoo.tistory.com/entry/positional-encoding%EC%9D%B4%EB%9E%80-%EB%AC%B4%EC%97%87%EC%9D%B8%EA%B0%80

0개의 댓글