From OpenAI Research, June 2018
Raw Text로부터 효과적으로 학습하는 것은 지도 학습에 대한 의존도를 낮추기 위해 매우 중요하다.
많은 딥러닝 방법에서는 labelled 데이터가 필요하므로, 데이터가 부족한 분야에서의 적용이 제한된다.
또한, 지도 학습이 가능한 많은 경우들에도 비지도 학습으로 좋은 표현(representations)을 학습할 경우 많은 성능 향상을 이룰 수 있다.
그러나 라벨이 없는 데이터에서 단어 수준 이상의 정보를 활용하는 것은 두 가지 이유로 어려움
이런 불확실성은 자연어처리를 위한 준지도(semi-supervised) 접근법을 개발하는 것을 어렵게 한다.
이 논문은 Language Understanding tasks에 대해, 비지도 학습 방식과 fine-tuning 지도학습 방식을 결합한 준지도 학습 방식을 연구한다.
제안하는 모델은 2단계의 학습 절차를 사용한다.
모델의 아키텍처는 Transformer를 기반으로 한다.
모델 평가는 4가지 종류의 Language Understanding tasks에 대해 이뤄진다.
12개 task 중 9개 task에서 SOTA 달성
또한, 4가지 서로 다른 setting으로 pre-trained된 모델의 zero-shot 동작을 분석해, 다운스트림 작업에 유용한 언어적 지식을 획득한다는 것을 확인했다.
x_1, x_2, … , x_m : 입력 토큰 시퀀스
y : 예측해야 할 라벨
h^l_m : 사전 훈련 모델을 통과한 후 마지막 transformer 블록에서 얻어진 activation(출력)
W_y : fine-tuning될 때 추가된 linear output layer의 parameter
softmax로 확률분포로 변환
최적화 목적 함수는 아래와 같이 표현됨
입력 x에 대해 모델이 정확한 라벨 y를 예측할 로그 확률을 최대화하도록 학습
Fine-tuning 과정에서 언어 모델링을 보조 목표로 포함하는 것은 2가지 이점이 있다:
이는 아래의 합성 objective function을 최적화함으로써 수행됨
Natural Language Inference(자연어 추론, 텍스트적 함축)
Question answering and commonsense reasoning
Semantic Similarity
Impact of number of layers transferred (전이하는 레이어 수의 영향)
Zero-shot Behaviors
Ablation studies