GPT를 공부하다 보면 이런 궁금증이 생깁니다:
“GPT 논문에서 supervised loss랑 language modeling loss를 같이 썼다던데,
지금 쓰이는 GPT-3, GPT-4도 그런가요?”
결론부터 말하자면, GPT-1만 그랬고, 이후 모델들은 대부분 언어모델링 손실 하나만 씁니다.
이번 글에서는 GPT 시리즈별로 손실 함수가 어떻게 적용되었는지, 그리고 왜 그렇게 달라졌는지 살펴보겠습니다.
논문: Improving Language Understanding by Generative Pre-Training
Pre-training:
단방향 언어 모델 → next token prediction
Fine-tuning:
정답 라벨이 있는 supervised task에 맞게 를 추가 학습
그리고 두 손실을 함께 사용!
이 방식은 모델이 태스크에 과적합되지 않도록 일반 언어 감각을 유지하게 해줍니다.
GPT-2는 아예 fine-tuning을 하지 않고, 사전학습된 모델을 prompt 기반으로 활용합니다.
정리:
언어모델링 손실(L₁)만 사용하며, supervised loss는 사용되지 않음
GPT-3도 GPT-2와 같은 철학을 계승합니다.
강점: 다양한 태스크를 prompt로 다룰 수 있음
단점: 특정 태스크에 최적화된 fine-tuning 어려움
이 시기의 모델들에는 fine-tuning이 있긴 합니다. 하지만 GPT-1 방식처럼 과 를 합쳐 쓰진 않습니다.
모델 | 언어모델링 손실 (L₁) | 지도학습 손실 (L₂) | 둘 다 사용? |
---|---|---|---|
GPT-1 | ✅ | ✅ | ✅ (L₃ = L₂ + λ×L₁) |
GPT-2 | ✅ | ❌ | ❌ |
GPT-3 | ✅ | ❌ | ❌ |
GPT-3.5 / 4 / 4o | ✅ | ⭕ (일부) | ❌ (결합 X) |
GPT-1은 loss function 실험의 중요한 이정표였습니다.
하지만 이후 시리즈들은 “하나의 손실 함수만으로도 충분하다”는 자신감으로 큰 전환을 이루었습니다.
앞으로는 다시 두 손실을 결합하는 방식이 돌아올 수도 있고, RLHF나 mixture of experts처럼 전혀 다른 학습 방식이 주류가 될 수도 있겠죠.