


input Embedding: 가장 아래에 위치한 Encoder에서만 입력을 1회 사용Positional Encoding: 단어를 한번에 받는 구조임으로 입력 시퀀스에서 단어 간 위치 관계를 표현Multi-Head Attention: 문서(문장) 안 단어들이 어떤 연관관계를 가진지 해석(Query토큰에 대해 다양한 관섬으로 표현할 수 있는 능력 제공)Query: 표현하고자 하는 대상이 되는 현재 단어에 대한 임베딩벡터key: query가 들어왔을 때 다른 단어 매칭을 위해 사용되는 레이블Value: key와 연결된 실제 단어Feed Forward: Masked Multi-head Attention: 셀프 어텐션은 query토큰보다 뒤에 위치한 토근들에 대한 정보는 Masking 처리Final Linear and Softmax Layer:TST는 크게 Pre-training + Fine-tuning 과정 사용

