- Paper: RoFormer: Enhanced Transformer with Rotary Position Embedding
- 위 논문은 RoPE 를 제안한 논문이지만, 이후 EleutherAI 에서 Positional Embeddings 으로 구현하여 사용하면서 더 유명해짐
- GPT-J, GPT-NEO, LLaMA
- 많은 추가적인 실험을 EleutherAI 에서 진행 및
- https://www.slideshare.net/taeseonryu/roformer-enhanced-transformer-with-rotary-position-embedding 슬라이드의 내용을 많이 참고하였습니다. 감사합니다.
Content-to-Content
, Content-to-Position
, Position-to-Content
, Position-to-Position
으로 해석함disentangled matrices
를 사용하여 연산
- RoPE 는 RPE 기반의 방법이고, Additive form 이 아닌 Multiplicative 기법 + Sinusoid 아이디어를 활용한 방법임
Query, Key 의 Inner product
, 함수 g
로 정의된 Position Encoding 을 찾고 싶고, 는 Word Embeddings
과 상대적인 Position m-n
만을 input 으로 가질 수 있도록 정의하고 싶음complex form
으로 매핑해보자!affine-transformed word embedding vector
로 해석할 수 있음R matrix