reference : https://velog.io/@zvezda/2024-LLM-%EC%8A%A4%ED%84%B0%EB%94%94-Scaling-Laws-for-Neural-Language-Models-2020
본 power-law scaling은 transformer architecture 하에서 loss, 즉 performance를 dataset size (D), model size (N), compute budget (C)의 함수로 구성할 수 있다는 아이디어임
최적의 학습파라미터 갯수가 있음! 그때 loss는 얼마큼인가? 이런 걸 계산함.
c는 critical, 즉 임계점을 의미함. 임계점 (critical point) 에서의 N, D, C와 지금 손에 갖고 있는 N, D, C가 존재할 때 loss를 계산할 수 있음
모델 성능은 scale과 큰 상관관계가 있으며, 모델 구조와는 큰 관계가 없음: scale은 model parameter (embedding 제외) N, dataset size D, 컴퓨팅 파워 C 로 구성됨. 모델의 depth와 width같은 architectural hyperparameter는 굉장히 작은 상관관계를 가짐 (sec 3)
Smooth power laws: N,D,C와 성능의 관계는 다른 요소들에서 bottleneck이 있지 않는 한 (loss 기준) 1e-^6차까지 확인됨 (sec 3)
다른 하나를 늘릴 수록 계속 늘어난다.
Transfer improves with test performance: training과 다른 distribution을 갖는 dataset에 evaluation 했을 때 (즉, transfer learning을 했을 때), 그 loss 및 penalty는 training set의 결과와 강한 상관관계를 가짐 (sec 3.2.2)
Universality of overfitting (모델 크기와 데이터셋의 비율): model parameter N과 dataset size D는 함께 상승시키면 예측가능한 범위 안에서 성능이 상승하지만, 하나를 고정하고 나머지 하나만 증가시키면 일정 지점에서 성능 하락이 발생함 (sec 4)
=> 데이터셋 사이즈가 작을 때 모델 크기 커지면 overfitting too much~~~
Universality of training: model size와는 별개로 training curve는 power-law를 따르는데, 학습이 더 길어질 때의 loss를 예측할 수 있음 (sec 5)
Convergence is inefficient: computing budget C가 고정되어 있고, model size N과 data size D에 별다른 제한이 없다면, 거대 모델을 사용하여 convergence가 이루어지기 전까지 훈련하는 것이 작은 모델을 사용하여 convergence가 이루어질 때까지 훈련하는 것보다 효과적이며, 데이터 크기 D와 computing budget C의 관계는 D∼C^0.27 과 같음 (computing budget 10배 증가 시 data size는 1.8배만 증가하면 됨) (sec 3 & sec 6) => 모델 파라미터는 5배 증가해야한다?!
=> 큰모델 사용해서 조금만 학습하는게 더 낫다!
Sample efficiency: 큰 모델은 작은 모델보다 sample-efficient하며, 이는 optimization step이 적어도 & 적은 data를 사용함으로써 유사한 수준의 성능을 달성할 수 있다는 말임 (fig 2 & fig 4)
패러다임은 얼마나 많은 데이터를 학습시킬 것이냐로 이동
Scale Efficiently: Insights from Pre-training and Fine-tuning Transformers (2021)
진짜로 width와 depth는 상관이 없어? 라는 질문에서 시작
OpenAI는 generation에 대한 loss (CEloss) 만을 측정했는데 (사실상 pretraining), 실제로 encoder-only 또는 encoder-decoder 모델에서는 pretrain & finetune pipeline으로 downstream task에 대응하므로, downstream task에 대한 성능 평가가 이루어져야
Unified Scaling Laws for Routed Language Models (ICML 2022)
Mixture of Experts (MoE) 구조를 사용했을 때, performance와 experts의 수는 power-law를 따름
Training Compute-Optimal Large Langauge Models (NeurIPS 2022)
(a.k.a. Chinchilla Scaling Law)