
모델의 smooth, continuous, predictable 변화가 performance에서는 어떻게 급격하고 예측 불가능하게 나타날 수 있는가?
대규모 언어 모델의 성능은 일반적으로 모델 크기가 커짐에 따라 부드럽고 예측 가능하게 개선된다. 이는 Neural scaling laws과 일치하는 관찰이다. 하지만, 연구자가 사용하는 특정 지표는 이러한 부드러운 변화를 급격한 변화로 오해하게 할 수 있다.
그림의 A에서 각 모형의 토큰당 교차 엔트로피가 거듭제곱 법칙으로 떨어진다고 가정

연구자가 어떤 지표를 사용하느냐에 따라 모델의 성능 개선이 다르게 해석될 수 있다. 예를 들어, 정확도(Accuracy)와 같은 지표는 모든 출력 토큰이 정확해야 하는 반면, 토큰 편집 거리(Token Edit Distance) 같은 지표는 부분적인 오류를 허용한다. 따라서 정확도를 사용할 경우 작은 모델의 성능이 과소평가될 수 있으며, 큰 모델에서 갑자기 높은 정확도가 나타나는 것처럼 보일 수 있다.


emergent abilities이 실제로 모델의 근본적인 변화를 반영하는 것이 아니라, 연구자의 평가 방식에 따라 다른 결과일 수 있음을 제안한다. 따라서, 연구자들은 모델의 성능을 평가할 때 다양한 지표를 고려하고, 특정 지표가 결과에 어떠한 영향을 미치는지 주의 깊게 고려해야 한다.




...