sequential model의 기존 문제 : 순서가 바뀌거나 누락되어있거나 밀린 모델들을 처리하기 어려움
Transformer
model based on attention Encoders & Decoders stacked Encoder = Self-attention → Feed Forward Neural Network Self-attention : input 데이터(x1)를 각 벡터(z1)로 변경할 때 나머지 input의 정보를 같이 활용
각 단어 당 생성되는 벡터
Queries (q1)
Keys (k1)
Values (v1) :dim(V)는 dim(Q)나 dim(K)와 달라도 된다
Score (q1⋅k(1,2,...,n) ) : x1이 나머지 단어들과의 유사도를 나타냄
final encoding = weighted sum of the value vectors softmax(dkQ×KT)∗V=Z
Multi-headed attention(MHA)
attention을 여러 번 → n개의 attention을 반복함으로 n개의 encoding된 벡터 생성