

Query Vector

Key Vector





Transformer를 훈련할 때 병렬적으로 훈련한다.
하나의 문장에서 여러개의 훈련 데이터를 만들 때 뒤에 오는 토큰이 앞에 오는 토큰에 영향을 주지 않게 하기 위해 병렬적 훈련을 진행한다.
Value Vector



하나의 value matrix를 사용하는 것이 아니고, 전체 행렬을 2개로 쪼갠 다음 여러 의미의 방향을 선형적으로 더한 것


Self Attention과 다른 점
키와 쿼리를 곱하는 매트릭스에서 각각 다른 언어를 곱한다는 점이 차이점
