[논문 리뷰] Do NOT Think That Much for 2+3=? On the Overthinking of o1-Like LLMs

lit·2025년 1월 3일

Paper Link

느낀점

추론 모델이 추론 시간과 비교하여 답변의 품질이 우수하지 않다고 생각이 들었는데 역시...
o1 like와 같은 모델들이 추론 토큰이 압도적으로 긴 이유?
결국 추론을 자기 출력 혹은 프론티어 모델의 추론을 학습하는데 결국 안 좋은 데이터로 학습하는 것이 아닌지 의문
추론을 하다가 맞는 결과가 나왔을 때 추론을 잘 멈추는 것도 역시 방법 아닐까?
추론이라는 것 이상의 컨셉이 나올 수 있을까?

Abstract

ChaGPT-o1과 같은 모델은 추론 과정에서 인간과 유사한 장기적 사고를 모방하는 능력 덕분에 높은 성능을 보여줍니다.
CoT 과정을 활용하여 문제 해결 능력을 어떻게 향상 시킬지 탐구합니다.
테스트 중에 컴퓨팅 자원을 어떻게 효율적으로 확장할 것인가?에 대한 중요한 문제가 남아 있습니다.
본 논문은 추론 모델에 흔히 발생하는 과잉 사고 문제, 아주 적은 이점으로 간단한 문제에 과도한 컴퓨팅 자원이 할당되는 문제에 대한 최초의 연구를 제안합니다.
추론 모델이 컴퓨팅 자원을 얼마만큼 합리적으로 사용하는지를 평가하기 위해 새로운 효율성 지표를 소개합니다.
self-training paradigm을 사용하여 과잉 사고를 완화하고 정확성을 저해하지 않으면서 추론 과정을 간소화하는 전략을 제안합니다.
실험 결과는 우리의 접근 방식이 GSM8K, MATH500, GPQA 및 AIME와 같이 다양한 난이도 수준의 테스트 세트에 걸쳐 모델 성능을 유지하면서도 컴퓨팅 오버헤드를 성공적으로 줄이는 것을 보여줍니다.

Introduction

OpenAI o1 모델과 비슷한 추론 모델(Qwen, DeepSeek)은 AI 추론 분야에서 최첨단 기술을 보여줍니다.
이러한 모델들의 성공은 질문에 답변하기 전에 인간과 유사한 장기적 사고를 모방하는 능력에 크게 도움을 받습니다.
특히, o1과 유사한 모델의 Chain-of-Thoughts(CoT)은 복잡한 추론 작업을 해결하는 능력을 향상시킵니다.
scaling test-time compute으로 알려진 이 접근 방식은 모델의 추론 단계에서 더 많은 컴퓨팅 자원을 할당하여 일반적으로 더 정확한 응답을 생성합니다.

효과적이긴 하지만 아직 탐구되지 않은 중요한 질문인 "효율적인가?"가 남아 있습니다.
먼저 o1과 유사한 모델들이 상당한 과잉 사고 문제를 보인다는 것을 관찰했습니다.
매우 간단한 질문이나 답이 이미 명백한 질문에 대해 과도한 연산량을 소비하는 경향이 있습니다.
예를 들어, 그림 1(a)는 "2 더하기 3은 무엇인가?"라는 질문에 답할 때 o1과 유사한 모델과 기존 모델의 토큰 사용량을 비교합니다.
평균적으로 o1과 유사한 모델은 동일한 답에 도달하는 데 기존 모델보다 1,953% 더 많은 토큰을 소비했습니다.
그림 2는 이처럼 간단한 질문에 대해 o1 스타일의 사고방식이 13개의 해답을 생성하는 구체적인 사례를 보여줍니다.
광범위한 수학 벤치마크 분석을 통해 우리는 이러한 과잉 사고 패턴이 (1) 정확도 향상에 미미한 기여를 하고, (2) 추론 전략의 다양성이 부족하며, (3) 간단한 문제에서 더 자주 발생한다는 것을 발견했습니다.

과잉 사고는 추론의 비효율성을 드러내며 추론 및 의사 결정 프로세스에 근본적인 한계가 있음을 시사합니다.
추론이 정확성뿐만 아니라 문제의 요구 사항에 따라 적절한 수준의 복잡성을 적용하는 것을 포함되어야 한다고 주장합니다.
o1과 유사한 모델의 효율성을 평가하기 위해 결과 및 프로세스 관점에서 두 가지 지표를 제안합니다.
이러한 지표는 일반적으로 사용되는 효과성 지표를 보완하여 o1과 유사한 모델의 효율성에 대한 포괄적인 평가를 제공하는 데 도움이 됩니다.

외부 정보를 도입하지 않고 과잉 사고를 완화하기 위해 self-trainingparadigm을 채택합니다.
효율성 지표를 통해 중복된 해답을 제거하여 생성된 응답을 간소화합니다.
다양한 난이도 수준의 테스트 세트(예: GSM8K, MATH500, GPQA, AIME)에 대한 실험 결과는 우리의 접근 방식이 과잉 사고 문제를 완화하는 데 효과적임을 입증합니다.
예를 들어, 그림 1(b)에서 볼 수 있듯이 우리의 접근 방식은 널리 사용되는 MATH500 테스트 세트에서 QwQ-32B-Preview에 적용했을 때 정확도를 유지하면서 토큰 출력을 48.6% 줄일 수 있습니다.

기여는 총 세 가지입니다.

o1과 유사한 LLM이 최종 결과에 미미하게 기여하는 불필요한 연산 자원을 중복된 해답에 소비하는 경우가 많다는 것을 보여주며, 과잉 사고 문제에 대한 명확한 설명과 포괄적인 분석을 제공하는 최초의 연구를 제시합니다.
o1과 유사한 모델의 효율성을 평가하기 위해 결과 및 프로세스 관점을 모두 고려하는 지표를 소개합니다.
다양한 난이도의 테스트 세트에서 모델 성능을 유지하면서 토큰 생성을 크게 줄이는 과잉 사고 문제를 해결하기 위한 여러 전략을 탐구합니다.

Observing Overthinking Issues

본 섹션에서는 o1과 유사한 모델에서 생성된 출력에 대한 종합적인 분석을 제시합니다.
기본적인 설명을 제공합니다(§ 2.1). 긴 CoT 응답에서 두 가지 비효율성을 식별합니다.
정확도에 대한 적은 기여(§ 2.2)와 다양성 부족(§ 2.3)을 차례대로 제공합니다.
비효율성을 평가하기 위해 두 가지 효율성 지표를 제안합니다.
마지막으로 § 2.4에서 경험적 결과를 제시하고 o1과 유사한 모델이 특히 쉬운 수학 문제에서 과잉 사고하는 경향이 있다는 결론을 내립니다.

Solution Distribution of o1-Like Models

세 가지 테스트 데이터셋 대해 실험을 수행합니다.

ASDIV: 2,305개의 인스턴스로 구성된 영어 수학 단어 문제 코퍼스이며, 각 인스턴스는 문제 유형과 학년 수준(난이도 1~6)으로 주석이 달려 있습니다. 테스트 세트는 초등학교에서 일반적으로 볼 수 있는 세 가지 주요 문제 유형을 다룹니다.

GSM8K: 인간 문제 작성자가 만든 고품질의 언어적으로 다양한 초등학교 수학 단어 문제 데이터 세트입니다. 테스트 세트는 1,319개의 문제로 구성되어 있으며, 해설은 종종 기본 산술 연산을 사용하는 일련의 초보적인 계산을 포함합니다. (중학생 수준)

MATH500: 7개 과목에 걸쳐 고등학교 수학 경시대회 문제와 AoPS를 기반으로 한 난이도 수준(1~5)으로 구성된 어려운 데이터 세트입니다. 이러한 경시대회의 문제는 가장 쉬운 AMC 8 시험에서 자주 볼 수 있는 레벨 1부터 AIME와 같은 레벨 5까지 다양합니다.

테스트 세트의 전체적인 난이도 수준은 ASDIV < GSM8K < MATH500입니다.

긴 CoT를 특징으로 하는 o1과 유사한 모델인 QwenQwQ-32B-Preview와 DeepSeek-R1-Preview를 평가합니다.
QwQ-32B-Preview는 오픈 소스 모델인 반면, DeepSeek-R1-Preview는 웹 인터페이스를 통해서만 접근할 수 있습니다.
DeepSeek-R1-Preview의 일일 메시지 제한이 50개이므로 MATH500 테스트 세트에서만 평가했습니다.

Llama-3.3-70B 모델을 사용하여 추론 모델이 생성된 응답에서 해설을 분리합니다.
그림 3은 생성된 응답에서 해설 수의 분포를 보여줍니다.
일반적으로 o1과 유사한 모델은 대부분의 인스턴스에 대해 2~4개의 해설 라운드를 생성합니다.
서로 다른 테스트 세트와 관련하여 QwQ-32B-Preview는 더 쉬운 테스트 세트에 대해 더 많은 해설을 생성하는 경향이 있습니다.
가장 쉬운 ASDIV 테스트 세트에서 QwQ 모델의 평균 해설 수는 3.6인 반면, 가장 어려운 MATH500 테스트 세트에서는 2.8입니다.

검증하기 위해 그림 4와 같이 MATH500 테스트 세트의 다양한 난이도 수준에 걸쳐 분석을 수행했습니다.
QwQ-32B-Preview와 DeepSeek-R1-Preview 모두 난이도가 높은 수준 4-5에 비해 쉬운 수준 1-2의 문제에 대해 더 많은 해설 라운드를 생성합니다.
이러한 결과는 o1과 유사한 모델이 더 쉬운 수학 문제에 대해 더 많은 해설 라운드를 생성하는 경향이 있다는 주장을 뒷받침합니다.

Efficiency on Diverse Thinking

Intuition
그림 2에 확인할 수 있듯이 초기 해설 라운드에서 이미 정답이 나온다는 것을 관찰했습니다.
생성된 토큰의 대부분을 차지하는 후속 해설은 정확도를 향상시키지 않습니다.
o1과 유사한 모델이 응답에서 정답을 생성하는 모든 경우에 대해 "최초 정답 분포"라고 명명된 최초 정답 발생 분포를 계산합니다.
더 많은 정답이 초기 해답에 나타나면 후속 해답은 정확도 향상에 미미하게 기여하므로 효율성이 감소합니다.

Observation
그림 5는 테스트 세트와 모델 간의 최초 정답 분포를 보여줍니다.
92% 이상의 경우에서 초기 해설 라운드에서 정답이 생성됩니다.
첫 번째 라운드는 일반적으로 생성된 총 토큰의 60% 미만을 차지하므로 확장된 CoT가 정확도를 크게 향상시키지 못할 수 있음을 시사합니다.
예를 들어, ASDIV 테스트 세트에서 QwQ-32B-Preview의 첫 번째 해답 라운드의 평균 길이는 287토큰이며, 이는 전체 응답의 38.7%에 불과합니다.
이러한 결과는 나중의 해답이 정확도 향상에 적게 기여한다는 것을 알 수 있습니다.

Outcome Efficiency Metric

위에서 확인한 결과를 바탕으로 나중의 해답이 정확도 향상에 얼마나 기여하는지를 평가하기 위한 결과 효율성 지표를 제안합니다.
결과 효율성 지표(ξO로 표시)는 다음 공식으로 정의됩니다:

ξO = \frac{1}{N} \sum_{i=1}^{N} \sigma_i \frac{\hat{T}_i}{T_i}

N은 주어진 테스트 세트의 인스턴스 수
Ti는 i번째 인스턴스에 대해 생성된 총 토큰 수
T̂i는 정답에 도달하는 데 기여하는 효율적인 토큰

직관적으로 모델이 초기 단계에서 올바르게 답변하면 그 이후에 생성된 토큰은 정확도 향상에 기여하지 않으므로 비효율적인 것으로 간주됩니다.
그림 2를 예로 들어 보겠습니다. 첫 번째 해답은 T̂ = 39로 문제를 올바르게 해결합니다.
결과적으로 ξO = 39 / 901 = 4.3%이며, 이는 매우 비효율적인 것으로 계산됩니다.

Efficiency on Diverse Thinking

Intuition

일부 연구자들은 쉬운 수학 문제를 해결하는 것이 간단해 보일 수 있지만 다양한 관점에서 접근하는 것은 이해를 깊게 하고 수학적 사고의 유연성을 키울 수 있어 가치가 있다고 주장합니다.
그림 2에서 QwQ-32B-Preview의 예시 출력을 살펴보겠습니다.
해설 1은 2 더하기 3은 5라는 기본 사실을 명시합니다.
해설 2는 덧셈을 더 작고 단순한 단계로 나눕니다.
해설 3은 물건 세기 비유를 사용합니다.
이 세 가지 해설은 서로 다른 관점을 제공합니다.
그러나 해설 4는 해설 3을 반복하고, 해설 5는 유사한 관점을 사용하여 해설 2를 반복합니다.

Observation

이후의 해설이 새로운 관점을 제공하는지 경험적으로 평가하기 위해 각 데이터 인덱스에 대한 고유한 해답 비율을 측정하는 "distinctness ratio"을 도입합니다.

GPT-4o를 사용하여 각 인스턴스의 해답을 다음과 같은 프롬프트를 통해 그룹으로 클러스터링합니다.
그림 2의 QwQ-32B-Preview 응답에 대한 클러스터링 결과는 다음과 같습니다.

클러스터 1: [해답 1, 해답 6, 해답 11] 2 더하기 3은 5라는 기본적인 산술 사실을 진술하거나 확인합니다.
클러스터 2: [해답 2, 해답 5] 결과를 얻기 위해 덧셈을 더 작고 단순한 단계로 나눕니다.
클러스터 3: [해답 3, 해답 4] 덧셈을 설명하기 위해 물건 세기라는 실용적인 비유를 사용합니다.
클러스터 4: [해답 7] 뺄셈을 반대로 확인하여 덧셈 결과를 검증합니다.
클러스터 5: [해답 8] 결과를 확인하기 위해 대수적 조작과 간단한 방정식을 사용합니다.
클러스터 6: [해답 9, 해답 10] 결과를 확인하기 위해 숫자를 다른 체계(이진수 및 로마 숫자)로 변환합니다.
클러스터 7: [해답 12, 해답 13] 전통적인 덧셈 결과를 변경할 수 있는 모듈러 산술 또는 프로그래밍과 같은 특정 컨텍스트 또는 프레임워크를 고려합니다.

고유한 해답의 토큰은 과정 효율적인 토큰으로 간주됩니다.
그림 2에 표시된 예에서 13개의 해답은 7개의 고유한 관점으로 분류됩니다. 결과적으로 해답 1, 2, 3, 7, 8, 9, 12의 토큰이 효율적이므로 ξP = (39+109+39+29+29+19+59) / 901 = 35.8%입니다.

Mitigating Overthinking Issues

o1과 유사한 모델의 효율성을 향상시키는 것을 목표로 하는 몇 가지 전략을 탐구합니다.
우리는 LLM 추론 작업 설정을 채택하고 주로 모델 자체가 학습 데이터를 생성하는 self-training strategy을 활용합니다.
이전 연구와 일관되게 우리는 자기 훈련 데이터를 생성하기 위한 학습 데이터 세트로 PRM12K 데이터 세트를 사용합니다.

Length Preference Optimization

가장 짧은 응답이 더 적은 라운드와 토큰을 사용하여 결과와 프로세스 효율성 모두에서 더 나은 성능을 보이는 것으로 나타났습니다.

우리는 자체 개선을 위한 몇 가지 효과적인 post-training 방법을 탐색합니다.

Supervised Fine-Tuning (SFT): 모델은 예측된 출력과 실제 출력 간의 교차 엔트로피 손실을 최소화하여 입력에서 선호하는 출력으로 매핑하는 방법을 학습합니다. SFT를 통해 모델은 학습 예시에서 보여지는 행동을 모방할 수 있습니다.

Direct Preference Optimization (DPO): 인간이 선호하는 응답에 대해 모델을 직접 훈련하여 선호하지 않는 응답보다 선호하는 응답의 가능성을 높입니다. DPO는 보상 함수를 최적 정책에 맞춰 목표를 최적화합니다.

Reasoning Preference Optimization (RPO): 선호하는 응답에 대한 NLL 항을 추가하여 DPO 를 따릅니다. RPO는 생성된 콘텐츠에 대한 원하는 형식을 유지하고 선택된 응답의 로그 확률 감소를 방지하여 DPO 훈련 안정성을 향상시킵니다.

Simple Preference Optimization (SimPO): 이 방법은 다른 선호도 최적화 방법에서 발견되는 추론 중 보상 함수와 생성 메트릭 간의 불일치를 해결합니다.

Simplifying Responses to Further Enhance Efficiency

더 짧은 샘플링된 응답이 o1과 유사한 모델의 효율성을 향상시키지만 여전히 과도하게 생각하는 문제를 겪습니다.
응답의 초기 솔루션이 더 효율적이라는 섹션 2의 관찰을 바탕으로 우리는 효율성을 높이기 위해 응답을 더욱 단순화합니다.
우리는 시작 부분부터 응답을 자르는 방식이 다른 세 가지 유형의 단순화 전략을 제안합니다.

First-Correct Solutions (FCS): 이 전략은 정답에 가장 먼저 도달하는 가장 빠른 솔루션을 유지합니다.

FCS+Reflection: 대부분의 응답이 첫 번째 솔루션에서 정답을 달성하므로 최초 정답 솔루션만 유지하면 o1과 유사한 모델이 기존 LLM 동작으로 되돌아갈 수 있습니다.

Greedily Diverse Solutions (GDS): 두 번째 솔루션이 종종 동일한 관점에서 첫 번째 솔루션의 답변을 재확인하기 때문에 솔루션 2의 차별성이 크게 감소한다는 것을 보여줍니다. 결과적으로 FCS+Reflection은 효율성을 저하시킬 수 있습니다. 이 문제를 해결하기 위해 새로운 관점을 제공하는 솔루션을 탐욕적으로 확장하는 간단한 휴리스틱을 제안합니다.

각 인스턴스에 대해 우리는 10개의 샘플 세트에서 각 유형의 가장 짧은 결과를 선택합니다.

"FCS"는 가장 적은 수의 솔루션 라운드와 토큰을 사용하여 결과와 프로세스 측면 모두에서 가장 효율적입니다.
"FCS+Reflection"은 Reflection을 포함하여 약 하나의 추가 솔루션 라운드가 필요하여 결과와 프로세스 효율성을 모두 감소시킵니다.
"Greedily Diverse Solutions"은 솔루션 수와 토큰 수의 균형을 맞추고 중간에서 높은 효율성을 달성하는 절충안 역할을 합니다.