스케일 법칙이란?

Bean·2025년 8월 5일

AI모델최적화 AI연구 Chinchilla GPT3 LLM학습 ScalingLaw finetuning pretraining 데이터크기 딥러닝기초 딥러닝학습법 머신러닝이론 모델사이즈 스케일법칙

인공지능

목록 보기

102/123

스케일 법칙은 언제 성립할까?

Pretraining vs Fine-tuning 정리와 최적 모델 크기 계산 예시

🔍 스케일 법칙은 모든 상황에서 적용될까?

스케일 법칙은 모델의 성능과 크기, 학습 데이터 양 사이의 관계를 설명하는 중요한 이론입니다. 하지만 언제나 성립하는 것은 아닙니다.

가장 정확하게 적용되는 구간은 바로 모델을 처음부터 학습하는 pretraining 단계의 loss 곡선입니다.

✅ 1. 스케일 법칙이 명확히 관찰되는 경우: Pretraining

모델을 scratch부터 학습할 때
언어 모델에서는 보통 Cross-Entropy Loss 또는 Perplexity로 평가
Kaplan et al.(2020), Chinchilla 논문(Hoffmann et al., 2022) 등에서 멱법칙(power law) 관계 관찰

수식으로 표현하면 다음과 같습니다:

L \approx L_\infty + k \cdot N^{-\alpha}

$L$ : Pretraining loss
$N$ : 모델 파라미터 수
$L_\infty$ : 이론적으로 도달 가능한 최소 손실

📌 이 구간에서만 스케일 법칙이 선형 로그 스케일 그래프 상에서 곧고 예측 가능한 형태로 나타납니다.

❌ 2. 스케일 법칙이 잘 맞지 않는 경우

① Fine-tuning 단계

LoRA, SFT, RLHF 등 downstream fine-tuning 시 loss 곡선이 흔들림
적은 양의 task-specific 데이터로 인해 과적합, 노이즈 발생
손실 함수 자체도 변경됨 (예: PPO, reward loss 등)

② Transfer Learning 또는 Checkpoint warm-start

이미 학습된 모델에서 이어 학습 시
초기 loss가 낮은 상태이므로 멱법칙 경향이 무너짐

③ Task-specific Metrics 사용 시

BLEU, ROUGE, F1 등 downstream 평가지표는 도메인 영향이 커서 스케일 법칙과 무관

💡 결론

스케일 법칙은 "pretraining loss 기준"으로 논의되어야 의미가 있습니다.
GPT-3, Chinchilla, LLaMA 등의 논문에서도 모두 처음부터 학습시킬 때의 loss 곡선을 기준으로 scaling law를 분석합니다.
Downstream task나 fine-tuning에서는 거의 적용되지 않습니다.

📊 Chinchilla Scaling Law로 최적 모델 크기 계산해보기

1️⃣ 성능 예측 모델 수식 (Pretraining 기준)

L(N, D) = L_\infty + k_1 \cdot N^{-\alpha} + k_2 \cdot D^{-\beta}

$N$ : 파라미터 수, $D$ : 데이터 샘플 수
$\alpha, \beta$ : scaling exponent (예: 0.08, 0.095)
$L_\infty$ : 이론적 최소 손실

2️⃣ 제약 조건 예시

데이터 수: $D = 10^8$ (1억 토큰)
학습 FLOPs 계산: $C \approx 6 \cdot N \cdot D$
GPU 예산상 FLOPs 제한: $6 \cdot 10^{17}$

👉 따라서 모델 크기 $N$ 은:

N \le 10^9 \text{ (10억 파라미터)}

3️⃣ 최적 모델 크기 추정

Chinchilla 법칙에 따르면,
데이터 수 ≈ 파라미터 수일 때 손실이 최소화됩니다.

📌 현재 데이터 수: $10^8$ → 최적 파라미터 수는:

N_\text{opt} \approx 10^8 \text{ (1억 파라미터)}

4️⃣ 시뮬레이션 예시

모델 파라미터 수 (N)	예측 Loss
10M	3.04
30M	2.39
100M	2.05
300M	2.02
1B (10억)	2.01

🔎 해석
100M에서 성능 향상이 가장 큽니다. 그 이상부터는 데이터 부족으로 loss 개선이 매우 미미합니다.

✅ 최종 정리

적은 데이터에 큰 모델을 쓰면 과적합이 발생하고, 스케일 법칙이 무너지기 쉽습니다.
최적 학습은 모델 크기 ≈ 데이터 크기 (토큰 수 기준)를 맞추는 것입니다.
Chinchilla Scaling Law는 이를 수치적으로 정당화한 대표 사례입니다.

Bean

AI developer

이전 포스트

Transformer FFN 완전 정복

다음 포스트