Transformer의 Decoder 부분만 사용
적은 데이터로도 높은 분류 성능
다양한 자연어 task에서 SOTA 달성
Pre-train 언어 모델의 새 지평을 열음 (BERT의 밑거름)
여전히, 지도 학습 필요, labeled data가 필수
특정 task를 위해 fine-tuning된 모델은 다른 task에서 사용 불가
—> 언어의 특성 상, 지도학습의 목적 함수는 비지도 학습의 목적함수와 같다!
—> fine-tuning이 필요없다!
—>엄청 큰 데이터셋을 사용하면 자연어 task를 자연스럽게 학습!!
다음 단어 예측 방식은 SOTA
but, 기계 독해, 요약, 번역 등의 자연어 task에서는 일반 신경망 수준...
—> Zero, One, Few-shot learning 제시!
GPT-2 pre-training
텍스트 생성 방법 (서로 다른 디코딩 방법 사용)
Few-shot learning
KoGPT-2 기반의 챗봇