input Embedding
: 가장 아래에 위치한 Encoder에서만 입력을 1회 사용Positional Encoding
: 단어를 한번에 받는 구조임으로 입력 시퀀스에서 단어 간 위치 관계를 표현Multi-Head Attention
: 문서(문장) 안 단어들이 어떤 연관관계를 가진지 해석(Query토큰에 대해 다양한 관섬으로 표현할 수 있는 능력 제공)Query
: 표현하고자 하는 대상이 되는 현재 단어에 대한 임베딩벡터key
: query가 들어왔을 때 다른 단어 매칭을 위해 사용되는 레이블Value
: key와 연결된 실제 단어Feed Forward
: Masked Multi-head Attention
: 셀프 어텐션은 query토큰보다 뒤에 위치한 토근들에 대한 정보는 Masking 처리Final Linear and Softmax Layer
:TST는 크게 Pre-training + Fine-tuning 과정 사용