attention

전현준·2024년 8월 26일

딥러닝

목록 보기
3/4

attention
-transformer 모델의 일부

-self attention
Wq Wk Wv를 인풋 벡터 v에 곱해서 q,k,v를 얻어냄
q1에 대해서 모든 단어들의 k벡터를 곱해서 질문에 대해 얼마나 적절한 답변 유형일지 계산함.
이 때 k는 단어의 성질에 관한 벡터 (ex: africa - 장소)
각각의 dot(q,k)와 그에 맞는 v 값을 곱하여 X값을 구한다.
모든 X 값들을 더해서 A를 구한다.

-multi attention
q,k,v에 다시 Wq Wk Wv를 곱한다.
각각의 단어들의 W에 대한 A들을 concat한다.

profile
배울 게 많습니다

0개의 댓글