한줄 요약: 기존 LLM은 과대 파라미터·과소 데이터로 학습되었으며, 같은 연산 예산에서 모델 크기와 데이터를 1:1로 스케일하면 4배 작은 모델로 동등 성능을 달성한다.
| 항목 | 내용 |
|---|---|
| 저자 | Jordan Hoffmann, Sebastian Borgeaud, Arthur Mensch, Elena Buchatskaya, Trevor Cai, Eliza Rutherford, Diego de Las Casas, Lisa Anne Hendricks, Johannes Welbl, Aidan Clark, Tom Hennigan, Eric Noland, Katie Millican, George van den Driessche, Bogdan Damoc, Aurelia Guy, Simon Osindero, Karen Simonyan, Erich Elsen, Jack W. Rae, Oriol Vinyals, Laurent Sifre |
| 소속 | DeepMind |
| 발표 | NeurIPS 2022 |
| 링크 | arxiv.org/abs/2203.15556 |
| 키워드 | Scaling Laws, Compute-Optimal, Training Efficiency |
2022년 LLM 트렌드: 모델을 키우는 것이 최선이라는 믿음
Kaplan et al. (2020) Scaling Laws:
"모델 크기를 키우는 것이 데이터를 늘리는 것보다 효율적"
→ GPT-3 (175B, 300B 토큰), Gopher (280B, 300B 토큰)
→ 큰 모델 + 상대적으로 적은 데이터
Chinchilla의 질문:
고정된 연산 예산 C가 있을 때,
모델 크기 N과 학습 데이터 D를 어떻게 분배해야 최적인가?
C ∝ N × D (대략적으로, 연산 = 파라미터 × 토큰 수)
→ N을 키우면 D가 줄고, D를 키우면 N이 줄어야 함
방법 1: 고정 예산, 다양한 N/D 조합 실험
연산 예산별로 여러 (N, D) 조합을 학습 → 최적 조합 찾기
예: 예산 10²¹ FLOPs로 {(1B, 20B tok), (2B, 10B tok), (5B, 4B tok)} 비교
방법 2: 고정 모델, 다양한 데이터 양 실험
같은 모델 크기에서 데이터양을 변화 → IsoFLOP 곡선 추출
방법 3: 손실 함수의 파라미터 피팅
L(N, D) = E + A/N^α + B/D^β
→ 400개 이상의 실험 데이터에 피팅 → 최적 N, D 유도
최적 관계:
N_opt ∝ C^0.5 (모델 크기는 연산의 제곱근에 비례)
D_opt ∝ C^0.5 (데이터도 연산의 제곱근에 비례)
→ 모델 크기와 데이터를 "동등하게" 스케일해야 함!
실용적 규칙:
최적 토큰 수 ≈ 파라미터 수 × 20
예:
1B 모델 → 20B 토큰이 최적
10B 모델 → 200B 토큰이 최적
70B 모델 → 1.4T 토큰이 최적
기존 모델들의 상태:
Gopher (280B, 300B 토큰): 최적은 280B × 20 = 5.6T 토큰
→ 데이터가 ~19배 부족했음!
| 모델 | 파라미터 | 학습 토큰 | 연산(FLOPs) | WikiText PPL |
|---|---|---|---|---|
| Gopher | 280B | 300B | 5.76 × 10²³ | 8.76 |
| Chinchilla | 70B | 1.4T | 5.76 × 10²³ | 7.16 |
→ 같은 연산 예산, 4배 작은 모델, 4.7배 많은 데이터 → 더 낮은 perplexity
| 벤치마크 | Gopher (280B) | Chinchilla (70B) | GPT-3 (175B) |
|---|---|---|---|
| MMLU | 60.0% | 67.6% | 43.9% |
| HellaSwag | 79.2% | 80.8% | 78.9% |
| BoolQ | 79.3% | 83.7% | 60.5% |
| LAMBADA | 74.5% | 77.4% | 76.2% |
→ 거의 모든 태스크에서 4배 작은 Chinchilla가 Gopher를 초과
Chinchilla 70B vs Gopher 280B:
추론 메모리: 4배 감소 (140GB → 35GB, FP16 기준)
추론 속도: 4배 향상 (같은 하드웨어 기준)
서빙 비용: 4배 절감
→ 학습 비용 동일 + 추론 비용 4배 절감 = 총 비용 대폭 감소
Chinchilla의 메시지는 "더 큰 모델이 아니라, 더 많은 데이터가 답"이라는 것이다. GPT-3 시대에 175B가 필요하다고 생각했던 성능을 70B로 달성할 수 있다니, 이는 수억 달러의 학습·추론 비용 차이다.
흥미로운 것은 LLaMA가 Chinchilla 법칙을 의도적으로 "위반"했다는 점이다. LLaMA-7B는 Chinchilla 최적이면 ~140B 토큰이지만, 실제로 1T 토큰으로 학습했다. 이유: 학습 비용을 더 쓰더라도 작은 모델의 추론 비용이 훨씬 저렴하므로, 총 비용(학습 + N번 추론)에서는 over-training이 유리할 수 있다. 이 관점은 Chinchilla가 "학습 비용만 최적화"한 것의 한계를 보여준다.
2024년 시점에서 더 근본적인 질문: "데이터가 고갈되면?" 인터넷 텍스트의 총량에 한계가 있으므로, 합성 데이터(Phi, Orca)나 멀티모달 데이터로 스케일링하는 것이 차세대 전략이 되고 있다.
관련 논문: Scaling Laws (Kaplan), LLaMA, GPT-3, Gopher, Phi