어텐션 매커니즘은 기계번역 분야에서 활발히 활용되는 seq2seq
모델의 단점을 개선한 기법이다.
seq2seq
개념context vector
를 추출context vector
를 활용해 출력 시퀀스 생성seq2seq
의 문제점Attention
위의 이미지를 보면 입력 시퀀스로 How was your day
가 들어왔을 때
어떻게
에 맞는 단어를 예측하는 경우 전체 입력 시퀀스 중 How was
에 대한 정보를 더 집중해서 보고, 단어 하루
를 예측하는 시점에서는 전체 입력 시퀀스 중 your day
를 집중해서 보는 것을 확인할 수 있다.
Attention Value
구하기
Attention(Q,K,V)
=Attention Value
hidden state
구하기hidden state
와 인코더의 각 시점 별 hidden state
를 내적해서 어텐션 스코어 구하기cf) 어텐션 스코어를 구하는 방법에는 여러 종류가 있다. 그 중
dot-product
방식을 차용해 구해본다.
softmax
로 거쳐 어텐션 분포 구하기hidden state
곱하기context vector
만들기Attention Value
!Attention
으로 학습hidden state
와 함께 앞서 만든 Attention Value
를 함께 입력으로 받아 예측 벡터를 얻어낸다.References