스케일 법칙은 언제 성립할까?

Pretraining vs Fine-tuning 정리와 최적 모델 크기 계산 예시


🔍 스케일 법칙은 모든 상황에서 적용될까?

스케일 법칙은 모델의 성능과 크기, 학습 데이터 양 사이의 관계를 설명하는 중요한 이론입니다. 하지만 언제나 성립하는 것은 아닙니다.

가장 정확하게 적용되는 구간은 바로 모델을 처음부터 학습하는 pretraining 단계의 loss 곡선입니다.


✅ 1. 스케일 법칙이 명확히 관찰되는 경우: Pretraining

  • 모델을 scratch부터 학습할 때
  • 언어 모델에서는 보통 Cross-Entropy Loss 또는 Perplexity로 평가
  • Kaplan et al.(2020), Chinchilla 논문(Hoffmann et al., 2022) 등에서 멱법칙(power law) 관계 관찰

수식으로 표현하면 다음과 같습니다:

LL+kNαL \approx L_\infty + k \cdot N^{-\alpha}
  • LL: Pretraining loss
  • NN: 모델 파라미터 수
  • LL_\infty: 이론적으로 도달 가능한 최소 손실

📌 이 구간에서만 스케일 법칙이 선형 로그 스케일 그래프 상에서 곧고 예측 가능한 형태로 나타납니다.


❌ 2. 스케일 법칙이 잘 맞지 않는 경우

① Fine-tuning 단계

  • LoRA, SFT, RLHF 등 downstream fine-tuning 시 loss 곡선이 흔들림
  • 적은 양의 task-specific 데이터로 인해 과적합, 노이즈 발생
  • 손실 함수 자체도 변경됨 (예: PPO, reward loss 등)

② Transfer Learning 또는 Checkpoint warm-start

  • 이미 학습된 모델에서 이어 학습 시
  • 초기 loss가 낮은 상태이므로 멱법칙 경향이 무너짐

③ Task-specific Metrics 사용 시

  • BLEU, ROUGE, F1 등 downstream 평가지표는 도메인 영향이 커서 스케일 법칙과 무관

💡 결론

  • 스케일 법칙은 "pretraining loss 기준"으로 논의되어야 의미가 있습니다.
  • GPT-3, Chinchilla, LLaMA 등의 논문에서도 모두 처음부터 학습시킬 때의 loss 곡선을 기준으로 scaling law를 분석합니다.
  • Downstream task나 fine-tuning에서는 거의 적용되지 않습니다.

📊 Chinchilla Scaling Law로 최적 모델 크기 계산해보기


1️⃣ 성능 예측 모델 수식 (Pretraining 기준)

L(N,D)=L+k1Nα+k2DβL(N, D) = L_\infty + k_1 \cdot N^{-\alpha} + k_2 \cdot D^{-\beta}
  • NN: 파라미터 수, DD: 데이터 샘플 수
  • α,β\alpha, \beta: scaling exponent (예: 0.08, 0.095)
  • LL_\infty: 이론적 최소 손실

2️⃣ 제약 조건 예시

  • 데이터 수: D=108D = 10^8 (1억 토큰)
  • 학습 FLOPs 계산: C6NDC \approx 6 \cdot N \cdot D
  • GPU 예산상 FLOPs 제한: 610176 \cdot 10^{17}

👉 따라서 모델 크기 NN은:

N109 (10억 파라미터)N \le 10^9 \text{ (10억 파라미터)}

3️⃣ 최적 모델 크기 추정

Chinchilla 법칙에 따르면,
데이터 수 ≈ 파라미터 수일 때 손실이 최소화됩니다.

📌 현재 데이터 수: 10810^8 → 최적 파라미터 수는:

Nopt108 (1억 파라미터)N_\text{opt} \approx 10^8 \text{ (1억 파라미터)}

4️⃣ 시뮬레이션 예시

모델 파라미터 수 (N)예측 Loss
10M3.04
30M2.39
100M2.05
300M2.02
1B (10억)2.01

🔎 해석
100M에서 성능 향상이 가장 큽니다. 그 이상부터는 데이터 부족으로 loss 개선이 매우 미미합니다.


✅ 최종 정리

  • 적은 데이터에 큰 모델을 쓰면 과적합이 발생하고, 스케일 법칙이 무너지기 쉽습니다.
  • 최적 학습은 모델 크기 ≈ 데이터 크기 (토큰 수 기준)를 맞추는 것입니다.
  • Chinchilla Scaling Law는 이를 수치적으로 정당화한 대표 사례입니다.
profile
AI developer

0개의 댓글