Self-supervised Learning을 통해 좋은 weight parameter의 seed를 얻어, 전이학습을 통해 한정된 데이터셋에서도 훨씬 더 좋은 성능을 얻을 수 있다는 것이 PLM의 기본적인 컨셉이다. PLM은 Transformer를 활용하는 경우가 많다. 기존의 seq2seq를 대체하는 방식으로 Attention만을 활용하여 아키텍처를 구성한다. NLP에서 general한 representation을 학습하여 전이학습에 활용하는 방법으로 3가지의 성능 향상 방법이 있다.
- Feature-based Apporach
- 워드임베딩 등의 더 좋은 입력 representation
- Fine-tuning Approach
- 더 좋은 weight parameter seed
- Meta-learning Approach(GPT-3)
- 큰 모델을 다시 학습할 필요 없이, in-context learning으로 학습 및 추론을 수행
Target Task에 따라 Transformer 모델의 일부(encoder, decoder)을 선택
수많은 unlabeled corpus를 통해 general representation을 학습
이후 target task에 fine-tuning을 진행
PLM의 장점
- 이전에는 아키텍처를 만들어야 했으나 손쉽게 SOTA(State Of The Art)에 근접한 성능을 달성할 수 있음
PLM의 단점
- 새로운 구조의 모델이나 알고리즘이 아닌 단순한 scale-up 경쟁
- 세상의 지식을 배운 것이 아닌 단순한 흉내
Type of PLMs
Autoregressive Models
- Transformer의 Decoder를 통해 Language Model을 구성
- Nest Token Prediction을 통해 학습(이전 단어가 주어졌을 때 다음 단어를 예측하는 형태)
- NLG Task에서 강점
- 대표 모델 : Open AI GPT
Autoencoder Models
- Transformer의 Encoder를 통해 구성(방향성을 가진다)
- Bi-directional Language Model 구현 가능
- MLM(Masked Language Model)과 같은 다양한 objective를 통해 학습
- NLU Task(e.g. Text Classification)에서 강점
- 대표 모델 : Google BERT
Encoder-Decoder Models
- Transformer의 Encoder와 Decoder 모두 사용
- 다양한 objective를 통해 학습
- NLU와 NLG task 모두 적용 가능
- 대표 모델 : Facebook BART