GPT-2
GPT-3
모델 size를 매우 크게 만듦
96 Attention layer, 3.2M Batch size
Few-Shot Learner (input에 한번에 넣는다)
→ fine-tuning 없이 pattern을 하나의 seq로 주었을 때 성능이 좋아지는 것을 확인할 수 있다.
ALBERT (A Lite BERT)
Factorized Embedding Parameterization
Cross-Layer Parameter Sharing
Sentence Order Prediction (좀 더 어려운 학습)
ELECTRA (Efficiently Learning an Encoder that Classifies Token Replacements Accurately)
token이 replace되었는지 detect하는 모델
Generator: BERT 등..
Light-weight Model (모델 경량화)
Knowledge Graph(외부지식 표현) into LM