GPT 손실 함수 완전 분석: GPT-1부터 GPT-4까지

Bean·2025년 6월 23일
0

인공지능

목록 보기
58/123

GPT는 왜 손실 함수를 하나만 쓸까?

– GPT 시리즈에서의 Loss Function 사용 방식 완전 정리

GPT를 공부하다 보면 이런 궁금증이 생깁니다:

“GPT 논문에서 supervised loss랑 language modeling loss를 같이 썼다던데,
지금 쓰이는 GPT-3, GPT-4도 그런가요?”

결론부터 말하자면, GPT-1만 그랬고, 이후 모델들은 대부분 언어모델링 손실 하나만 씁니다.
이번 글에서는 GPT 시리즈별로 손실 함수가 어떻게 적용되었는지, 그리고 왜 그렇게 달라졌는지 살펴보겠습니다.


1. GPT-1 (2018): 두 손실을 함께 사용한 유일한 경우

논문: Improving Language Understanding by Generative Pre-Training

  • Pre-training:
    단방향 언어 모델 → next token prediction

    L1=logP(tokenttoken1,...,tokent1)L_1 = -log P(token_t | token_1, ..., token_{t-1})
  • Fine-tuning:
    정답 라벨이 있는 supervised task에 맞게 L2L_2를 추가 학습
    그리고 두 손실을 함께 사용!

    L3=L2+λ×L1L_3 = L_2 + λ × L_1

    이 방식은 모델이 태스크에 과적합되지 않도록 일반 언어 감각을 유지하게 해줍니다.


2. GPT-2 (2019): 완전한 언어모델로 변신

GPT-2는 아예 fine-tuning을 하지 않고, 사전학습된 모델을 prompt 기반으로 활용합니다.

  • 사용 손실 함수: 오직 L1L_1 (language modeling loss)
  • Fine-tuning: 없음
  • 모든 태스크는 “prompt만 잘 만들면 해결된다”는 철학

정리:
언어모델링 손실(L₁)만 사용하며, supervised loss는 사용되지 않음


3. GPT-3 (2020): 더 커지고, 더 prompt 중심

GPT-3도 GPT-2와 같은 철학을 계승합니다.

  • 사전학습만 진행: huge LM corpus로 학습
  • 손실 함수는 언어모델링 손실 L₁만 사용
  • Fine-tuning 없이 few-shot, one-shot, zero-shot 학습

    강점: 다양한 태스크를 prompt로 다룰 수 있음
    단점: 특정 태스크에 최적화된 fine-tuning 어려움


4. GPT-3.5 / GPT-4 / GPT-4o (2022~2024): 새로운 fine-tuning 방식

이 시기의 모델들에는 fine-tuning이 있긴 합니다. 하지만 GPT-1 방식처럼 L1L_1L2L_2를 합쳐 쓰진 않습니다.

  • RLHF (Reinforcement Learning from Human Feedback),
    Instruction Tuning 등 다양한 방식 도입
  • 일부 단계에서 지도학습 손실(L2L_2)이 쓰이긴 하지만,
    일반적인 loss 합산은 사용되지 않음

요약 표: GPT 시리즈별 손실 함수 비교

모델언어모델링 손실 (L₁)지도학습 손실 (L₂)둘 다 사용?
GPT-1(L₃ = L₂ + λ×L₁)
GPT-2
GPT-3
GPT-3.5 / 4 / 4o⭕ (일부)❌ (결합 X)

왜 GPT-1 이후에는 두 손실을 같이 안 쓸까?

  1. 스케일링 철학의 변화
    → 모델이 크면 prompt만으로도 많은 태스크를 해결 가능
  2. pretraining만으로도 충분한 언어 능력 확보
    → 추가적인 supervised loss 없이도 대부분 해결
  3. 모델이 커질수록 fine-tuning의 비효율 증가
    → 오히려 overfitting 위험 증가

마무리

GPT-1은 loss function 실험의 중요한 이정표였습니다.
하지만 이후 시리즈들은 “하나의 손실 함수만으로도 충분하다”는 자신감으로 큰 전환을 이루었습니다.

앞으로는 다시 두 손실을 결합하는 방식이 돌아올 수도 있고, RLHF나 mixture of experts처럼 전혀 다른 학습 방식이 주류가 될 수도 있겠죠.


profile
AI developer

0개의 댓글