GPT 손실 함수 완전 분석: GPT-1부터 GPT-4까지

Bean·2025년 6월 23일

GPT GPT논문 NLP OpenAI모델 finetuning lossfunction pretraining transformer 딥러닝학습전략 언어모델

인공지능

목록 보기

58/134

GPT는 왜 손실 함수를 하나만 쓸까?

– GPT 시리즈에서의 Loss Function 사용 방식 완전 정리

GPT를 공부하다 보면 이런 궁금증이 생깁니다:

“GPT 논문에서 supervised loss랑 language modeling loss를 같이 썼다던데,
지금 쓰이는 GPT-3, GPT-4도 그런가요?”

결론부터 말하자면, GPT-1만 그랬고, 이후 모델들은 대부분 언어모델링 손실 하나만 씁니다.
이번 글에서는 GPT 시리즈별로 손실 함수가 어떻게 적용되었는지, 그리고 왜 그렇게 달라졌는지 살펴보겠습니다.

1. GPT-1 (2018): 두 손실을 함께 사용한 유일한 경우

논문: Improving Language Understanding by Generative Pre-Training

Pre-training:
단방향 언어 모델 → next token prediction
$L_1 = -log P(token_t | token_1, ..., token_{t-1})$
Fine-tuning:
정답 라벨이 있는 supervised task에 맞게 $L_2$ 를 추가 학습
그리고 두 손실을 함께 사용!
$L_3 = L_2 + λ × L_1$
이 방식은 모델이 태스크에 과적합되지 않도록 일반 언어 감각을 유지하게 해줍니다.

2. GPT-2 (2019): 완전한 언어모델로 변신

GPT-2는 아예 fine-tuning을 하지 않고, 사전학습된 모델을 prompt 기반으로 활용합니다.

사용 손실 함수: 오직 $L_1$ (language modeling loss)
Fine-tuning: 없음
모든 태스크는 “prompt만 잘 만들면 해결된다”는 철학

정리:
언어모델링 손실(L₁)만 사용하며, supervised loss는 사용되지 않음

3. GPT-3 (2020): 더 커지고, 더 prompt 중심

GPT-3도 GPT-2와 같은 철학을 계승합니다.

사전학습만 진행: huge LM corpus로 학습
손실 함수는 언어모델링 손실 L₁만 사용
Fine-tuning 없이 few-shot, one-shot, zero-shot 학습

강점: 다양한 태스크를 prompt로 다룰 수 있음
단점: 특정 태스크에 최적화된 fine-tuning 어려움

4. GPT-3.5 / GPT-4 / GPT-4o (2022~2024): 새로운 fine-tuning 방식

이 시기의 모델들에는 fine-tuning이 있긴 합니다. 하지만 GPT-1 방식처럼 $L_1$ 과 $L_2$ 를 합쳐 쓰진 않습니다.

RLHF (Reinforcement Learning from Human Feedback),
Instruction Tuning 등 다양한 방식 도입
일부 단계에서 지도학습 손실( $L_2$ )이 쓰이긴 하지만,
일반적인 loss 합산은 사용되지 않음

요약 표: GPT 시리즈별 손실 함수 비교

모델	언어모델링 손실 (L₁)	지도학습 손실 (L₂)	둘 다 사용?
GPT-1	✅	✅	✅ (L₃ = L₂ + λ×L₁)
GPT-2	✅	❌	❌
GPT-3	✅	❌	❌
GPT-3.5 / 4 / 4o	✅	⭕ (일부)	❌ (결합 X)

왜 GPT-1 이후에는 두 손실을 같이 안 쓸까?

스케일링 철학의 변화
→ 모델이 크면 prompt만으로도 많은 태스크를 해결 가능
pretraining만으로도 충분한 언어 능력 확보
→ 추가적인 supervised loss 없이도 대부분 해결
모델이 커질수록 fine-tuning의 비효율 증가
→ 오히려 overfitting 위험 증가

마무리

GPT-1은 loss function 실험의 중요한 이정표였습니다.
하지만 이후 시리즈들은 “하나의 손실 함수만으로도 충분하다”는 자신감으로 큰 전환을 이루었습니다.

앞으로는 다시 두 손실을 결합하는 방식이 돌아올 수도 있고, RLHF나 mixture of experts처럼 전혀 다른 학습 방식이 주류가 될 수도 있겠죠.

Bean

AI developer

이전 포스트

[GTP-1] 언어모델 손실 함수의 비밀: 지도학습 + 언어모델링을 함께 쓰는 이유

다음 포스트