
논문에 정의하는 순서대로 초기화(할당)

한 step 씩 계산하며 shape 확인
여기서 root d_k로 나누어주는 이유는 다음과 같다.
Q와 K의 각 원소는 평균이 0, 분산이 1인 분포에서 왔다고 가정하고, Q의 행과 K.T의 열의 내적은 분산이 d_k이다. (분산이 1인 두 독립 확률 변수의 곱의 분산은 1이고, 분산이 1인 d_k개의 독립 확률 변수의 합은 분산이 d_k이다.)
따라서, standardization을 해주기 위해 평균(0)을 빼주고 표준편차(root d_k)로 나누어 주는 듯 하다.

모델 정의

두 방식의 output 방식 비교