대규모 데이터를 별도의 label없이 입력의 일부를 예측 대상으로 삼아 학습하는 모델
: label이 필요 없는 input data를 활용해 학습
MLM(Masked Language Modeling) task
-> 마스크 씌워진 단어 맞추기
: k = 15% (마스킹된 단어의 퍼센티지)
k가 너무 적으면 (마스킹이 너무 적게 되어있으면) 학습하는 데에 시간이 너무 길게 걸리고 k가 너무 크면 문맥에 맞추어 대답을 못하게 된다.
-> 어떻게 학습할까?
80%는 mask 토큰으로 대체해서 학습하고, 10%는 랜덤한 단어를 배치해 학습하고, 10%는 mask없이 원래의 단어를 도출해내도록 학습한다.
NSP(Next Sentence Prediction) task
-> 특정 문장이 대상 문장에 대해 선행되는지의 여부를 판단하는 task
엄청 방대한 텍스트로 학습시켜둔 language model, zero-shot setting이 가능 (학습 데이터 없이 결론을 도출함)