GPT-1 (Open AI)
자연어 처리의 다양한 task들을 동시에 처리할 수 있는 통합된 Model
task마다 다른 special token을 사용
transfer learning 시, Linear 부분을 사용자에게 맞게 custom 가능 (문서 분류 → softmax layer 추가)
pre-trained된 transformer 부분은 그대로 사용 or Learning rate 작게 해서 사용
대규모 data로 학습된 GPT-1 모델을 우리가 해결해야할 task에 사용
BERT
ELMo → GPT → BERT 로 발전
MLM (Masked Language Model)
input token을 특정 비율(hyper parameter)로 masked token으로 바꾼다.
논문에서는 15%
문제점: 실제 task에서는 mask token X, 그래서 다음과 같이 변화를 줌
NSP (Next Sentence Prediction)
input 문장 A, B가 있을 때, B가 A의 next 문장인지 예측
[CLS] : 문장의 분류, 다중 문장 task 일 때
[SEP] : 문장의 끝
Summary
다양한 NLP Test