Decoder 레이어에서 예측하고자 하는 단어와 더 많은 관련있는 Encoder 단어에 가중치를 더 크게
가중치 계산 예시 :
가중치 예시
attention 레이어에서 출력되는 값
→ 모든 입력 단어들에 대한 정보를 전달하고 (Encoder) 전달된 각 단어에 대해 예측해야 하는 단어와 가장 연관 있는 단어에 큰 가중치 부여 (Decoder)
: Query 벡터들에 대한 행렬
K$ : Key 벡터들에 대한 행렬
: Value 벡터들에 대한 행렬
와 의 곱 : Query 벡터들과 Key 벡터들의 내적 연산 의미 - 각 행별로 각 단어에 대한 attention score를 의미함
Attention 기반의 encoder-decoder 모형
Encoder 부분
Encoder block 6개 사용
Multi-Head Attention : 입력된 sequence data에 대해 Self-Attention 여러개 적용
Add & Norm layer
Position-wise feed-forward network
위치정보 임베딩 (Positional Embedding)
Decoder 부분
Encoder-Decoder attention
Masked self-attention
Transformer 응용 예시