[CLS] ~ [SEP]
): 0[SEP] 이후 ~
): 1어순을 제공하여 언어를 잘 이해할 수 있도록하는 역할
Attention Is All You Need (Transformer)
Since our model contains no recurrence and no convolution, in order for the model to make use of the order of the sequence, we must inject some information about the relative or absolute position of the tokens in the sequence.
아래와 같은 조건을 사인과 코사인함수가 위치 정보를 표현하는데 있어 충족함
Transformer 에서는 sin, cos을 사용하여 아래와 같이 PE를 함
sin, cos 중 하나를 사용하지 않는 이유: 어떤 특정 두 토큰의 위치값이 동일해질 수 있는 것을 방지하기 위함
[CLS], [SEP] 제외
)를 random하게 선택하여 마스킹[MASK]
가 없으므로 Pre-training과 Fine-tuning 사이 mismatch 발생[MASK]
로 교체