GPT 언어 모델

naem1023·2021년 10월 12일

GPT

NLP theory

목록 보기

16/17

BERT: embedding 모델
- Transformer encoder 사용
GPT: 생성 모델
- Transformer decoder 사용

GPT 개요

일반적으로 배웠던 Language model의 언어 생성 과정과 동일하다. 순차적으로 다음에 올 가장 적절한 단어들을 확률적으로 예측한다.

GPT-1은 마치 BERT처럼 모델의 뒷단에 원하는 classifer를 붙여서 특정 task에 적합하도록 fine-tuning할 수 있도록 구성됐다. 시기상으로는 GPT-1이 BERT보다 앞선다.

GPT-1은

자연어 문장 분류에 매우 유용한 디코더다.
적은 양의 데이터로도 높은 분류 성능 달성.
다양한 자언어 task에서 바로 SOTA 달성.
Pre-train 언어 모델의 지평을 열면서 BERT 발전의 밑거름이 됐다.
지도 학습이 필요해 많은 labeld data가 필요.
특정 task를 위해 fine-tuning된 모델은 다른 task에서 사용 불가능.

GPT 연구진의 새로운 가설

언언의 특성 상, 지도학습의 목적 함수는 비지도 학습의 목적 함수와 같다. 즉, fine-tuning이 필요없다.

왜냐하면 labeld data의 label도 언어이기 때문이다.

다시 말하면, 굉장히 거대한 데이터 셋을 학습한 language model은 모든 자연어 task를 수행 가능하다는 것이다.

zero-shot, one-shot, few-shot

fine-tuning으로 하나의 task만을 위한 모델을 만드는 것은 불필요하다고 판단.
마치 인간이 새로운 task 학습을 위해 많은 데이터가 필요하지 않다는 것과 같은 이치로 language model에 접근해서 zero, one, few-shot으로 inference하는 방법론이 제시됨.

즉, 특정 task를 위해 gradient update를 하지 않고 task를 수행하는 것이다. 이러한 방법을 적용하기 위해 거대 데이터셋을 학습하는 모델을 개발했는데 이것이 GPT-2이다.