GPT-123421 버전이 나오기 전에 Deep Dive 해야하지 않나싶은 생각이 들어서 일단 모든 사이드 프로젝트 & 공부의 초점을 이렇게 맞춰보기로 🥹
오리지널 논문(Improving Language Understanding by Generative Pre-Training)을 읽어보자. 짧다.
트레이닝 전략은 총 두가지
첫번째는 비지도 학습으로 사전학습. 기존의 언어 모델처럼 다음에 나올 단어의 조건부 확률 (ABCD가 주어졌을 때 E를 잘 예측하도록)를 최대화하도록 손실함수를 구성한다.