- Paper: https://arxiv.org/abs/2203.15556
- DeepMind, NeurIPS 2022
- Scaling Laws 관점에서 Compute-Optimal Model 제안
- FLOPs budget 이 고정되었을 때, optimal 한 model size 와 training tokens 간의 관계가 존재함:
Gopher
->Chinchilla
- 기존 Kaplan 의 Scaling Laws 결과와 달리 모델 퍼포먼스를 위한 model size 와 training tokens 와의 관계는 거의 1:1 의 weight 를 가짐 (기존: 0.73:0.27 로 model size 가 가장 영향력이 큼)
- 즉, Kaplan 의 Scaling Laws 기반으로 학습된 현재의 LLM 모델들은 대부분 undertrained 되었음
- 논문의 주요 실험 결과 및 기본적인 Contribution 위주로 작성
- 자세한 실험 결과는 작성하지 않음. 논문 참고
FLOPs
로 표현) 에 대한 optimal model size 와 tokens 간의 관계에 대한 실험 연구Gopher
에 사용된 compute budget 으로부터, Gopher 의 optimal model 은 현재보다 4배 더 작고, 4배 더 많은 tokens 를 사용해야 한다는 것을 예측함Megatron-Turing NLG
, Gopher
, GPT-3
모델은 모두 논문에서 제안하는 Scaling Laws 그래프 (직선) 에서 벗어나 있음Chinchilla
라는 모델을 새로 학습하여 제안최근 Large models 에 대한 Scaling behavior 에 대한 실험 연구 중 Kaplan et al. (2020) 는 처음으로 model size 와 loss 에 대한 예측 가능한 관계에 대해 보여주었음
1) Our results strongly suggest that larger models will continue to perform better, and will also be much more sample efficient than has been previously appreciated.
2) Big models may be more important than big data.
그렇다면 왜 Kaplan 의 연구와 다른 결론이 나온 것일까?
training tokens
수에 맞는 적절한 learning rate schedule 을 셋팅해주어야 최적 final loss 에 도달한다는 것을 발견FLOP-loss
간 그래프에서 약간의 곡선이 발생한다는 것을 발견함minimum over training curves
) 하여 smooth and interpolationC
에 대한 가장 효율적인 model size N
과 number of training tokens D
를 얻음blue line
: the closed-form efficient computational frontier), curve 가 각각의 iso-loss 경계선의 가장 작은 FLOPs 일 때를 지나간다는 것을 알 수 있음
- All three approaches suggest that as compute budget increases, model size and the amount of training data should be increased in approximately equal proportions.
Chinchilla
제안
안녕하세요.
친칠라 공부하다 방문했습니다. 정리해주신 덕분에 빠르게 이해가 갔어요 👍
추후에 블로그 리뷰 시 참고 출처로 이 포스팅을 남겨도 될까요?