제목의 의미를 통해 연구 주제를 살펴볼 수 있을 것 같습니다. 제목을 해석해보면, LLM의 emergent abilities는 신기루인가? 인데요. 즉, 이 논문에서는 작은 모델엔 없고 큰 모델에만 나타나는 능력이 모델의 본질적 변화 때문이 아니라 metric choice 때문일 수 있다라는 점을 주장합니다.
emergent ability 라는 개념이 등장하는데요. “갑자기 능력이 생긴다”라는 의미를 갖고 있습니다.
이러한 2가지 특징을 가진다는 것이 emergent ability의 특징입니다.
첫번째로 논문에서 보인것이 task에 따라 emergent ability가 발생한다고 주장합니다.

위 그래프는
다양한 task를 사용한 모델마다의 accuracy를 측정한 값인데요. 모델 크기가 커질수록 성능이 갑자기 뛰는 것처럼 보인는 현상을 볼 수 있습니다.
논문에서 emergent ability가 발생하는 metrics 2가지를 제시합니다.
즉, 조금이라도 틀리면 0, 완전히 맞아야 1을 주는 all or nothing metrics 인데요.
다음으로는 논문에서 metric choice에 따라 emergent ability 발생할 수도 있고, 발생하지 않을 수도 있다는 것을 보입니다.

토큰 하나를 예측할 때의 평균적인 손실은 모델 파라미터가 커질수록 손실이 3 정도에서 3→ 1→ 0.5→ 0.1 꾸준히 감소하는 것을 볼 수 있습니다. 즉, 실제 모델 내부의 기본 성능 신호는 원래부터 매끈하게 좋아지고 있었을 수 있다라는 것을 보여줍니다.
작은 모델은 10% 정도 확률로 맞히고 조금 더 크면 30% → 60%→ 90% 로 점전직으로 좋아지는 것을 볼 수 있습니다. 즉 아무런 emergence가 없다는 것을 볼 수 있습니다.
수학적으로 이 확률을 계산해보면, 토큰 하나 맞힐 확률은 0.3 → 0.6 → 0.9로 부드럽게 증가하지만 전체 accuracy는 거의 0이거나 갑자기 많이 올라가는 emrgence가 발생한 것을 볼 수 있습니다.

실제로 metrics가 계산되는 공식을 보시면, L제곱을 통해 배우 비선형적인 형태로 증가하는 것을 볼 수 있습니다.
이 mertrics가 어떻게 평가되는지 살펴보면,
A: 0.30
B: 0.28 ← 정답
C: 0.22
D: 0.20
정답 B가 2등이면, metric에서는 그냥 0점
A: 0.29
B: 0.30 ← 정답
C: 0.21
D: 0.20
정답 B가 1등, 점수는 갑자기 1점으로 평가가 되는데, 이 metrics의 문제가 무엇이냐하면, 0.02밖에 증가하지 않았는데, 점수는 1점 차이가 나버리게 된다는 것입니다. 따라서 step 함수처럼 보이게 되는 것인데요.
이 metrics는
- 5개 다 틀리면 오차 큼
- 3개 틀리면 중간
- 1개 틀리면 작음
- 0개 틀리면 완벽
하게 평가되는 지표입니다. 같은 모델 출력도 “전부 맞았냐 아니냐”로 보지 말고 “얼
마나 덜 틀렸냐”로 보면 emergence 가 사라지는 것을 볼 수 있습니다.
“정답에 얼마나 높은 확률을 줬는가”를 연속적으로 평가하는 점수인데요.
정답에
- 0.51 줬는지
- 0.70 줬는지
- 0.95 줬는지
정답에 대해 모델이 얼마나 confidence하고 있는지까지 반영하기 때문에 emergence가 사라지고 있는 것을 볼 수 있습니다.

첫번째 행은 accuracy라는 지표로 평가한 것, 두번째 행은 token edit distance 지표로 평가한 결과인데요. 첫번째 열은 수학적 이론 task이며, 두번째 열은 GPT-3의 2자리수 곱셈 과제 task, 세번째 열은 GPT-3의 4자리수 덧셈 task입니다.
accuracy라는 metrics로 평가한 정답 문자열 길이(Target Str Len)가 길수록, 작은 모델에서는 성능이 거의 0처럼 보이다가, 큰 모델에서 갑자기 확 올라가는 것처럼 보입니다. 즉, → emergent ability가 발생했다고 볼 수 있습니다.
Token Edit Distance 그래프에서는 같은 모델 출력이 점진적으로 향상되는 모습이 나타나며, 실제 성능은 갑작스럽게 생긴 것이 아니라 조금씩 개선되는 현상을 볼 수 있습니다.
즉, 우리가 이 실험에서 볼 수 있는 것은 Accuracy로 보면 갑자기 잘하게 된 것처럼 보이지만, Token Edit Distance로 보면 사실은 원래부터 점점 덜 틀리고 있었던 것이였다 라는 점입니다.
본 논문에선 2가지 가정을 합니다.
→ 이걸 검증하기 위해 BIG-Bench 사용합니다.

이 수치가 계산되는 식을 보면,

BIG-Bench 전체를 메타분석했을 때, emergence가 어떤 metric에서 주로 나타나는지 보여주는 그림입니다. 몇 metric만 오른쪽으로 길게 뻗어 있는 것을 볼 수 있습니다.
옆에 원형 그래프는 not emergent metric, emergent metric의 비율을 보여주는데요.
즉, emergence는 아무 metric에서나 생기는 게 아니다라는 것을 확인할 수 있습니다.
지금까지는 metric choice에 따라 emergent ability 발생한다라는것을 연구 결과를 통해 입증했습니다.
그렇다면 반대로 emergent ability를 metric choice으로 만들어봅니다.
논문에서는 vision task를 사용해서 여러 신경망 구조에서 emergence-like 현상을 유도합니다. (왜 vision model을 선택했는지 궁금하여 찾아보니, vision model에서는 보통 LLM처럼 “갑자기 능력이 생겼다”는 식의 얘기가 잘 안 나왔기 때문이라고 합니다. )
본 논문에서는 CIFAR100 오토인코더 모델에 reconstruction metric을 인위적으로 만들어 emergence ability를 발생시킵니다.

젤 왼쪽에 있는 그래프가 LLM에서 나타나는 emergent ability 예시 그래프입니다. 중간에 있는 그래프는 실제 오토인코더를 일반적인 지표인 MSE로 평가한것인데, 그래프를 통해 우리는 emergence 발생하지 않았다는 것을 볼 수 있습니다. 젤 오른쪽에 있는 그래프는 본 논문에서 인위적으로 emergent ability가 발생했다는 것을 보이기 위해 만든 metric입니다.

위와 같은 계산 방식을 사용하며, 그래프 결과를 해석해보면, emergent ability가 명확하게 나타나는 것을 볼 수 있습니다.
최종적으로 정리를 해보자면, 우리가 현재 LLM을 평가하고 있는 metric이 all or nothing 성격이 강하기 때문에, LLM의 발전이 신기루라고 느끼는 것이다. 라는 것을 논문은 말하고 싶은 것 같습니다.
그렇다면 이러한 의문이 들 수 있을 것 같습니다.
우리가 자주 사용하는 accuracy라는 metrics가 문제인거냐?
우리는 여태까지 metrics choice를 잘못 해왔는가?
인데요.
논문에서 말하는 accuracy metrics는 sequence task에서
위와 같이 계산이 됩니다. 즉, all-or-nothing 성격이 강해서 특히 문자열 전체를 다 맞혀야 하는 llm에서는 emergent ability처럼 보이는 현상이 나타나기 쉽습니다.
즉, 논문에서 최종적으로 말하고 싶은 바는 accuracy 같은 emergence ability가 나타나는 metrics를 쓰지 마라! 가 아니라, accuracy를 썼다면, 그 metric이 가진 all-or-nothing 성격 문제를 통제한 뒤 해석해야 한다. 입니다.
논문이 metric choice에 따라 emergent ability가 나타나거나 사라질 수 있음을 보인 점에 그치지 않고, 실제로 vision task에서도 metric choice만으로 emergent ability처럼 보이는 현상을 Reconstruction_c라는 metrics를 직접 만들어낸 점에서 논문 주장의 설득력이 더 커졌다고 느꼈습니다.
마지막으로 느낀점은 모델의 성능을 해석할 때는 결과 자체를 받아들이기보다, 어떤 metric으로 평가했는지까지 함께 봐야 한다는 점을 다시 생각하게 되었습니다.
좋댓구알