최근에 Generative model에 대한 강의를 다시 들으면서 GPT 모델을 처음부터 다시 봤다. 그래서 GPT1, 2, 3까지 하나하나 다시 보았고 이렇게 GPT1모델 부터 정리하게 되었다. 간단하게 얘기하자면, GPT-1은 transformer에서 Encoder는 제외하고 Decoder만을 가져와 사용한다(Decoder의 Cross Self Attention 부분은 제거함).