스케일 법칙은 언제 성립할까?
Pretraining vs Fine-tuning 정리와 최적 모델 크기 계산 예시
🔍 스케일 법칙은 모든 상황에서 적용될까?
스케일 법칙은 모델의 성능과 크기, 학습 데이터 양 사이의 관계를 설명하는 중요한 이론입니다. 하지만 언제나 성립하는 것은 아닙니다.
가장 정확하게 적용되는 구간은 바로 모델을 처음부터 학습하는 pretraining 단계의 loss 곡선입니다.
✅ 1. 스케일 법칙이 명확히 관찰되는 경우: Pretraining
- 모델을 scratch부터 학습할 때
- 언어 모델에서는 보통 Cross-Entropy Loss 또는 Perplexity로 평가
- Kaplan et al.(2020), Chinchilla 논문(Hoffmann et al., 2022) 등에서 멱법칙(power law) 관계 관찰
수식으로 표현하면 다음과 같습니다:
L≈L∞+k⋅N−α
- L: Pretraining loss
- N: 모델 파라미터 수
- L∞: 이론적으로 도달 가능한 최소 손실
📌 이 구간에서만 스케일 법칙이 선형 로그 스케일 그래프 상에서 곧고 예측 가능한 형태로 나타납니다.
❌ 2. 스케일 법칙이 잘 맞지 않는 경우
① Fine-tuning 단계
- LoRA, SFT, RLHF 등 downstream fine-tuning 시 loss 곡선이 흔들림
- 적은 양의 task-specific 데이터로 인해 과적합, 노이즈 발생
- 손실 함수 자체도 변경됨 (예: PPO, reward loss 등)
② Transfer Learning 또는 Checkpoint warm-start
- 이미 학습된 모델에서 이어 학습 시
- 초기 loss가 낮은 상태이므로 멱법칙 경향이 무너짐
③ Task-specific Metrics 사용 시
- BLEU, ROUGE, F1 등 downstream 평가지표는 도메인 영향이 커서 스케일 법칙과 무관
💡 결론
- 스케일 법칙은 "pretraining loss 기준"으로 논의되어야 의미가 있습니다.
- GPT-3, Chinchilla, LLaMA 등의 논문에서도 모두 처음부터 학습시킬 때의 loss 곡선을 기준으로 scaling law를 분석합니다.
- Downstream task나 fine-tuning에서는 거의 적용되지 않습니다.
📊 Chinchilla Scaling Law로 최적 모델 크기 계산해보기
1️⃣ 성능 예측 모델 수식 (Pretraining 기준)
L(N,D)=L∞+k1⋅N−α+k2⋅D−β
- N: 파라미터 수, D: 데이터 샘플 수
- α,β: scaling exponent (예: 0.08, 0.095)
- L∞: 이론적 최소 손실
2️⃣ 제약 조건 예시
- 데이터 수: D=108 (1억 토큰)
- 학습 FLOPs 계산: C≈6⋅N⋅D
- GPU 예산상 FLOPs 제한: 6⋅1017
👉 따라서 모델 크기 N은:
N≤109 (10억 파라미터)
3️⃣ 최적 모델 크기 추정
Chinchilla 법칙에 따르면,
데이터 수 ≈ 파라미터 수일 때 손실이 최소화됩니다.
📌 현재 데이터 수: 108 → 최적 파라미터 수는:
Nopt≈108 (1억 파라미터)
4️⃣ 시뮬레이션 예시
| 모델 파라미터 수 (N) | 예측 Loss |
|---|
| 10M | 3.04 |
| 30M | 2.39 |
| 100M | 2.05 |
| 300M | 2.02 |
| 1B (10억) | 2.01 |
🔎 해석
100M에서 성능 향상이 가장 큽니다. 그 이상부터는 데이터 부족으로 loss 개선이 매우 미미합니다.
✅ 최종 정리
- 적은 데이터에 큰 모델을 쓰면 과적합이 발생하고, 스케일 법칙이 무너지기 쉽습니다.
- 최적 학습은 모델 크기 ≈ 데이터 크기 (토큰 수 기준)를 맞추는 것입니다.
- Chinchilla Scaling Law는 이를 수치적으로 정당화한 대표 사례입니다.