Natural language understanding comprises a wide range of diverse tasks such
as textual entailment, question answering, semantic similarity assessment, and
document classification. Although large unlabeled text corpora are abundant,
labeled data for learning these specific tasks is scarce, making it challenging for
discriminatively trained models to perform adequately. We demonstrate that large
gains on these tasks can be realized by generative pre-training of a language model
on a diverse corpus of unlabeled text, followed by discriminative fine-tuning on each
specific task. In contrast to previous approaches, we make use of task-aware input
transformations during fine-tuning to achieve effective transfer while requiring
minimal changes to the model architecture. We demonstrate the effectiveness of
our approach on a wide range of benchmarks for natural language understanding.
Our general task-agnostic model outperforms discriminatively trained models that
use architectures specifically crafted for each task, significantly improving upon the
state of the art in 9 out of the 12 tasks studied. For instance, we achieve absolute
improvements of 8.9% on commonsense reasoning (Stories Cloze Test), 5.7% on
question answering (RACE), and 1.5% on textual entailment (MultiNLI).
NLP 시장을 선도하고 있는 GPT-4모델의 decoder base 구조를 처음 제안하고 당시엔 아직 익숙치 않았던 pre-train과 fine-tuning 개념을 잘 정립한 논문이라고 생각했다.
기존에 잘 해결되지 않았던 두 가지 문제, text representation을 학습시키는 optimization objective가 불분명하였고 target task에 어떻게 transfer시킬 것인지 명확하지 않았었다. 이를 unsupervised pre-training과 supervised fine-tuning을 합친 semi-supervised learning을 제안하여 해결하였다. 즉, 일반적으로 높은 성능을 낼 수 있는 특성을 학습시킨 후 특정 task에 맞게 조금만 바꾸어서 다양한 task에 적용가능하게 만든 모델이다.
- unlabeled text data는 풍부한데 반면 labeld data는 구하기 어렵기에 unlabeled data로 pre-training이 가능하다면 시간, 가격 측면에서 효율적이다.
- 약간의 변형만으로 특정 task에 적용시키는 범용성을 띄고 있다.
기존엔 unlabeld data로 단어 또는 구문 수준의 통계값을 연산하고 이를 supervised learning의 특성으로 사용하는 방식이 있었다.
좋은 initial parameter point를 제공하는 연구는 있었으나 LSTM 기준이라 제약이 많았다.
- 단어 임베딩을 사용하는 방식이 좋은건 맞으나 단어보다 높은 차원의 의미를 포착해내는 방법을 시도했다.
- transformer 구조를 사용해 더 길고 성능이 좋아졌다.
- 기존에 비해 transfer 시 상대적으로 훨씬 적은 변화(ex. 모델 구조의 변화 거의 없이) 가능하게 더 넓은 범위의 task로 확장가능해졌다.
Unsupervised pre-training
Supervised fine-tuning
labeled data로 fine-tuning 진행
마지막 decoder layer의 activation을 input으로 하는 linear layer 추가
목적함수는 다음과 같다.
전체 과정에서 추가학습해야 하는 파라미터는 와 delimeter 토큰에 대한 임베딩밖에 없다.
Setup
fine-tuning
Natural Language Inference(NLI)
QA(Question Answering) and commonsense reasoning(상식 추론)
Semantic Similarity
Classification
GLUE에서도 SOTA 달성했다!!
기존보다 긴 텍스트에서 단어 개념 이상의 문맥, 문장 단위의 일반적인representation을 학습하여 적은 find-tuning으로도 여러 task에 적용시킬 수 있는 방법을 제안했다. 또한 unsupervised text 데이터로 학습이 가능해져서 더 정교하고 많은 데이터를 훈련시킬 수 있는 확장성 또한 겸비하게 되었다. 추후 GPT-4까지 발전하게되는 기본적인 틀을 마련한 기념비적인 논문이다.
- BERT
- GPT-2
- inductive bias
- GELU