

- token vector 의 절대 위치(Absolute Position)에 회전 행렬을 적용시켜 인코딩 수행(위치 정보 효율적으로 학습)
- 상대 위치(Relative Position) 또한 attention 과정 중 명시적으로 먹임(절대, 상대 위치 모두 적용)
- seuqence length에 유연. (e.g. 거리가 멀어질수록 토큰간 종속성 감소) (위치 정보 효율적 학습)










- sin/cos로 절대위치벡터 생성
- affine matrix로 절대위치벡터를 회전시킴
- 변환된 벡터를 input에 각각 곱해서 linear projection 수행하여 최종 qkv를 생성
- 이전까지는 학습하는 컨셉의 파라미터를 적용하는 경우에, 일반 sin/cos 절대위치벡터를 학습시키는 것이 정론이였다.
- 하지만 RoPE에서는 절대위치벡터에 affine 변환을 수행함으로써, 이 qkv 벡터들이 학습을 하면서 절대위치벡터들도 조정이 일어나게 되어, 벡터들이 학습으로 인해 조정되는 각도를 학습하겠다는 의미를 갖게 된다.