The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity

lit·2025년 6월 15일

느낀점

실제로 추론을 하는가에 대한 의문을 실험을 통해 확인하는 점이 인상적
데이터 오염은 어쩔 수 없지
퍼즐 못 푸는 게 추론을 못 하는 거랑 직접적인 연관성이 있나?
텍스트로 해결하기에는 게임들이 너무 비정형적이여서 안 되는 거 아닌가?
그래서 어떻게 하면 성능이 좋아질까?

Abstract

최근 등장한 언어 모델들은 답변을 제공하기 전에 상세한 사고 과정을 생성하는 대규모 추론 모델(LRM)을 선보였습니다.
이 모델들은 추론 벤치마크에서 향상된 성능을 보여주지만 근본적인 능력과 확장 특성 및 한계는 충분히 설명되지 않고 있습니다.
현재 평가는 주로 기존의 수학 및 코딩 벤치마크에 초점을 맞추며 최종 답변 정확도를 강조합니다.
이러한 평가 방식은 데이터 오염으로 인해 어려움을 겪는 경우가 많으며 추론 과정의 구조와 품질에 대한 통찰력을 제공하지 못합니다.

본 연구에서는 제어 가능한 퍼즐 환경을 사용하여 이러한 격차를 체계적으로 조사합니다.
이 환경은 일관된 논리적 구조를 유지하면서 구성 복잡성을 정밀하게 조작할 수 있게 합니다.
이 설정을 통해 최종 답변뿐만 아니라 내부 추론 과정도 분석하여 LRM이 어떻게 생각하는지에 대한 통찰력을 얻을 수 있습니다.
다양한 퍼즐에 대한 광범위한 실험을 통해 최신 LRM이 특정 복잡성을 넘어서면 정확도가 완전히 붕괴된다는 것을 보여줍니다.
문제 복잡성이 증가함에 따라 추론 노력도 특정 지점까지 증가하지만 적절한 토큰 예산이 있음에도 불구하고 이후에는 추론 노력은 감소합니다.

동일한 추론 컴퓨팅 하에서 LRM을 표준 LLM과 비교함으로써 세 가지 성능 체제를 식별했습니다.

low complexity tasks: 표준 모델이 LRM보다 뛰어난 성능을 보입니다.
medium complexity tasks: LRM의 추가적인 사고가 이점을 보여줍니다.
high-complexity tasks: 두 모델 모두 완전히 엉망진창입니다

LRM은 정확한 계산에 한계가 있다는 것을 발견했습니다.
명시적인 알고리즘을 사용하지 못하고 퍼즐 전반에 걸쳐 일관성 없이 추론합니다.
또한 탐색된 솔루션의 패턴을 연구하고 모델의 계산 동작을 분석하여 추론 과정을 더 깊이 조사함으로써 LRM의 강점과 한계를 밝히고 궁극적으로 그들의 진정한 추론 능력에 대한 중요한 질문을 제기합니다.

Introduction

복잡한 문제를 해결할 때 추론 과정을 시각화하고 '생각' 과정이 모델의 정확도와 효율성에 미치는 영향을 분석합니다.
'생각' 능력이 복잡한 문제의 정화도를 향상시키지만 비효율적인 추론과정이 발생할 수 있음을 확인할 수 있음.

LLM은 추론 작업에 특화된 변형 모델인 대규모 추론 모델(LRM)로 발전했습니다.
OpenAI의 o1/o3, DeepSeek-R1, Claude 3.7 Sonnet Thinking, Gemini Thinking과 같은 모델들이 예시입니다.
긴 CoT와 자기 성찰과 같은 "사고" 메커니즘을 특징으로 하며 다양한 추론 벤치마크에서 유망한 결과를 보여주었습니다.

그러나 성능 향상에도 불구하고 LRM의 근본적인 이점과 한계는 여전히 이해되지 않고 있습니다.

여전히 중요한 질문들이 남아 있습니다.

이 모델들이 일반화 가능한 추론 능력을 가지고 있는지 아니면 다른 형태의 패턴 매칭을 활용하는가?
문제 복잡도가 증가함에 따라 성능은 어떻게 확장되는가?
동일한 추론 토큰 컴퓨팅이 제공될 때 사고 메커니즘이 없는 표준 LLM과 비교하여 어떤가?
가장 중요한 것은 현재의 추론 접근 방식에 내재된 한계는 무엇이며 더 강력한 추론 능력을 향상시키기 위해 어떤 개선이 필요한가?

기존 평가는 주로 확립된 수학 및 코딩 벤치마크에 초점을 맞추고 있는데 유용한 벤치마크이지만 종종 데이터 오염 문제가 있고 다양한 설정과 복잡성에 걸쳐 통제된 실험 조건을 허용하지 않습니다.
이러한 평가는 추론 과정의 구조와 품질에 대한 통찰력을 제공하지 않습니다.
이 모델들의 추론 행동을 더 엄격하게 이해하기 위해서는 통제된 실험이 가능한 환경이 필요합니다.

문제 복잡도라는 렌즈를 통해 선도적인 LRM의 추론 메커니즘을 조사합니다.
표준 벤치마크(예: 수학 문제) 대신 핵심 논리를 유지하면서 퍼즐 요소를 조정하여 복잡도를 체계적으로 변경할 수 있는 제어 가능한 퍼즐 환경을 채택하고 솔루션과 내부 추론(그림 1, 상단)을 모두 검사합니다.
(1) 복잡성에 대한 미세한 제어를 제공하고
(2) 기존 벤치마크에서 흔한 오염을 피하며
(3) 명시적으로 제공된 규칙만 필요로 하여 알고리즘적 추론을 강조하고
(4) 엄격한 시뮬레이터 기반 평가를 지원하여 정확한 솔루션 확인 및 상세한 실패 분석을 가능하게 합니다.

우리의 실험적 조사는 현재의 LRM에 대한 몇 가지 주요 발견을 밝혀냈습니다.
첫째 강화 학습을 통해 학습된 정교한 자기 성찰 메커니즘에도 불구하고 계획 작업에 대한 일반화 가능한 문제 해결 능력을 개발하는 데 실패했습니다. 또한 특정 복잡도 임계값을 넘어서면 성능이 0으로 급락했습니다.
둘째 동일한 추론 컴퓨팅 하에 LRM과 표준 LLM을 비교한 결과 세 가지 뚜렷한 추론 영역이 나타났습니다(그림 1, 하단). 단순하고 합성도가 낮은 문제의 경우, 표준 LLM이 더 큰 효율성과 정확성을 보였습니다. 문제 복잡도가 중간 정도로 증가하면 사고 모델이 유리해집니다. 그러나 문제가 긴 합성 깊이로 높은 복잡도에 도달하면, 두 모델 유형 모두 완전한 성능 저하를 경험합니다(그림 1, 왼쪽 하단). 이러한 성능 저하 지점 근처에서 LRM은 생성 길이 제한보다 훨씬 낮게 작동함에도 불구하고 문제 복잡도가 증가함에 따라 추론 노력(추론 시간 토큰으로 측정)을 줄이기 시작합니다(그림 1, 가운데 하단). 이는 LRM의 추론 능력에 있어 문제 복잡도와 관련된 근본적인 추론 시간 스케일링 한계를 시사합니다.
마지막으로 중간 추론 과정 또는 사고 분석은 복잡도에 따른 패턴을 보여줍니다. 단순한 문제에서는 추론 모델이 종종 올바른 솔루션을 일찍 식별하지만 비효율적으로 잘못된 대안을 계속 탐색하는 "과도한 생각(overthinking)" 현상이 나타납니다. 중간 복잡도에서는 잘못된 경로를 광범위하게 탐색한 후에야 올바른 솔루션이 나타납니다. 특정 복잡도 임계값을 넘어서면 모델은 올바른 솔루션을 완전히 찾지 못합니다(그림 1, 오른쪽 하단). 이는 LRM이 제한적인 자기 교정 능력을 가지고 있고 이 방식은 가치가 있지만 근본적인 비효율성과 명확한 스케일링 한계를 드러냅니다.

이러한 발견들은 기존 LRM의 강점과 한계를 모두 강조하며 이러한 시스템의 추론 본질에 대한 질문을 제기하고 그 설계 및 배포에 중요한 시사점을 던집니다.

주요 기여는 다음과 같습니다.

우리는 기존의 수학 벤치마크에 대한 LRM의 현재 평가 패러다임에 의문을 제기하고 문제 복잡도와 관련하여 제어 가능한 실험을 가능하게 하는 알고리즘 퍼즐 환경을 활용하여 제어된 실험 테스트베드를 설계했습니다.
우리는 최첨단 LRM(예: o3-mini, DeepSeek-R1, Claude-3.7-Sonnet-Thinking)이 여전히 일반화 가능한 문제 해결 능력을 개발하는 데 실패하며 다양한 환경에서 특정 복잡도를 넘어서면 정확도가 궁극적으로 0으로 떨어진다는 것을 보여줍니다.
LRM의 추론 노력에 있어 문제 복잡도에 대한 스케일링 한계가 존재하며 특정 복잡도 지점 이후에 사고 토큰의 추세가 역설적으로 감소하는 것으로 입증됩니다.
최종 정확도 기반의 현재 평가 패러다임에 의문을 제기하고 결정론적 퍼즐 시뮬레이터의 도움으로 추론 과정의 중간 솔루션으로 평가를 확장했습니다.
문제 복잡도가 증가함에 따라 올바른 솔루션이 잘못된 솔루션에 비해 사고 과정의 나중 위치에서 체계적으로 나타난다는 것을 밝혀냈으며 이는 LRM 내의 자기 교정 메커니즘에 대한 정량적인 통찰력을 제공합니다.
명시적인 알고리즘으로부터 이점을 얻지 못하고 퍼즐 유형에 걸쳐 일관되지 않은 추론을 포함하여 정확한 계산을 수행하는 LRM의 한계를 밝혀냈습니다.

Math and Puzzle Environments

최근 RL 기반 사고 모델에서 관찰된 성능 향상이
(1) 기존 수학 벤치마크 데이터에 대한 노출 증가 때문인지
(2) 사고 토큰에 할당된 훨씬 더 큰 추론 연산량 때문인지
(3) RL 기반 훈련을 통해 개발된 추론 능력 때문인지 명확하지 않습니다.
최근 연구에서 RL 기반 사고 모델의 상한 능력을 사고 기능이 없는 표준 LLM과 비교하여 기존 수학 벤치마크를 통해 이 질문을 탐구했습니다.
이 연구들은 동등한 추론 토큰 예산 하에 사고 기능이 없는 LLM도 MATH500 및 AIME24와 같은 벤치마크에서 사고 모델과 비슷한 성능에 도달할 수 있음을 보여주었습니다.

본 연구 또한 Claude-3.7-Sonnet(사고 기능 유무에 따라) 및 DeepSeek(R1 대 V3)과 같은 최첨단 LRM에 대한 비교 분석을 수행했습니다.
결과(그림 2에 표시)는 MATH500 데이터셋에서 사고 모델의 pass@k 성능이 동일한 추론 토큰 예산이 제공될 때 사고 기능이 없는 모델과 비슷하다는 것을 확인시켜 줍니다.
그러나 AIME24 벤치마크에서는 이러한 성능 격차가 커지고, AIME25에서는 더욱 커지는 것을 관찰했습니다.
이러한 격차 확대는 해석적인 문제를 제기합니다.
이는 다음 중 하나로 귀결될 수 있습니다.
(1) 증가하는 복잡성으로 인해 더 정교한 추론 과정이 필요해지면서, 더 복잡한 문제에 대한 사고 모델의 진정한 이점이 드러나는 경우
(2) 새로운 벤치마크(특히 AIME25)에서 데이터 오염이 줄어든 경우입니다.
흥미롭게도 AIME25에서 인간의 성능은 실제로 AIME24보다 높았으며 이는 AIME25가 덜 복잡할 수 있음을 시사합니다.
하지만 모델은 AIME25에서 AIME24보다 낮은 성능을 보였는데, 이는 최첨단 LRM 훈련 중 데이터 오염 가능성을 시사할 수 있습니다. 이러한 정당화되지 않은 관찰 결과와 수학 벤치마크가 문제 복잡성을 통제적으로 조작할 수 없다는 사실을 고려하여, 저희는 보다 정확하고 체계적인 실험을 가능하게 하는 퍼즐 환경으로 전환했습니다.

Puzzle Environments

구성적 깊이, 계획 복잡성, 분포 설정을 아우르는 네 가지 제어 가능한 퍼즐에서 LRM 추론을 평가합니다.
퍼즐은 아래에 정의되어 있으며 그림 3에 설명되어 있습니다.

하노이의 탑(Tower of Hanoi)은 세 개의 기둥과 크기가 다른 n개의 원반이 첫 번째 기둥에 크기 순서(가장 큰 원반이 바닥에)로 쌓여 있는 퍼즐입니다. 목표는 모든 원반을 첫 번째 기둥에서 세 번째 기둥으로 옮기는 것입니다. 유효한 이동은 한 번에 하나의 원반만 이동하고, 기둥의 맨 위에 있는 원반만 가져가며, 더 큰 원반을 더 작은 원반 위에 놓지 않는 것입니다. 이 작업의 난이도는 초기 원반의 수로 제어할 수 있습니다. n개의 초기 원반이 있을 때 필요한 최소 이동 수는 2^n−1입니다. 하지만 이 연구에서는 최종 해결책의 최적성을 평가하지 않고 각 이동의 정확성과 목표 상태 도달 여부만 측정합니다.

체커 점핑(Checker Jumping)은 빨간색 체커, 파란색 체커, 그리고 하나의 빈 공간이 일렬로 배열된 1차원 퍼즐입니다. 목표는 모든 빨간색 체커와 파란색 체커의 위치를 바꾸어 초기 구성을 효과적으로 미러링하는 것입니다. 유효한 이동은 체커를 인접한 빈 공간으로 미끄러뜨리거나, 반대 색상의 체커 하나를 정확히 뛰어넘어 빈 공간에 착지하는 것입니다. 이 퍼즐 과정에서 어떤 체커도 뒤로 움직일 수 없습니다. 이 작업의 복잡성은 체커의 수로 제어할 수 있습니다. 2n개의 체커가 있을 때 필요한 최소 이동 수는 (n+1)^2−1입니다.

강 건너기(River Crossing)는 n명의 배우와 그에 해당하는 n명의 대리인이 보트를 사용하여 강을 건너야 하는 제약 만족 계획 퍼즐입니다. 목표는 2n명의 모든 인물을 왼쪽 강둑에서 오른쪽 강둑으로 수송하는 것입니다. 보트는 최대 k명의 사람을 태울 수 있으며 비어있는 상태로 이동할 수 없습니다. 유효하지 않은 상황은 배우가 자신의 대리인이 없는 상태에서 다른 대리인과 함께 있을 때 발생합니다. 각 대리인은 자신의 의뢰인을 경쟁 대리인으로부터 보호해야 하기 때문입니다. 이 작업의 복잡성은 배우/대리인 쌍의 수로도 제어할 수 있습니다. n = 2, n = 3 쌍의 경우 보트 용량 k = 2를 사용하고, 더 많은 쌍의 경우 k = 3을 사용합니다.

블록스 월드(Blocks World)는 초기 구성에서 지정된 목표 구성으로 블록을 재배열하는 블록 쌓기 퍼즐입니다. 목표는 이 변환에 필요한 최소 이동 수를 찾는 것입니다. 유효한 이동은 스택의 가장 위에 있는 블록으로 제한되며, 이 블록은 빈 스택에 놓거나 다른 블록 위에 놓을 수 있습니다. 이 작업의 복잡성은 존재하는 블록의 수로 제어할 수 있습니다.

Conclusion

이 논문에서는 제어 가능한 퍼즐 환경을 사용하여 문제 복잡성이라는 렌즈를 통해 최신 대규모 추론 모델(LRM)을 체계적으로 조사했습니다. 연구 결과는 현재 모델의 근본적인 한계를 보여줍니다. 정교한 자기 성찰 메커니즘에도 불구하고, 이 모델들은 특정 복잡성 임계값을 넘어 일반화 가능한 추론 능력을 개발하는 데 실패합니다.

저희는 세 가지 뚜렷한 추론 체제를 확인했습니다.

낮은 복잡성: 표준 LLM이 LRM보다 뛰어납니다.
중간 복잡성: LRM이 탁월한 성능을 보입니다.
높은 복잡성: 두 모델 모두 성능이 급격히 저하됩니다.
특히 우려되는 점은 문제가 임계 복잡성에 가까워질수록 추론 노력이 직관에 반하게 감소한다는 것입니다. 이는 LRM에 내재된 계산 스케일링 한계를 시사합니다. 추론 과정에 대한 자세한 분석은 복잡성에 따른 추론 패턴을 드러냈습니다. 즉, 간단한 문제에서는 비효율적인 "과도한 생각(overthinking)"을 하다가 복잡한 문제에서는 완전히 실패하는 경향을 보였습니다. 이러한 통찰은 LRM 능력에 대한 일반적인 가정에 도전하며, 현재 접근 방식이 일반화 가능한 추론에 대한 근본적인 장벽에 부딪힐 수 있음을 시사합니다.

마지막으로, 저희는 LRM에 대한 몇 가지 놀라운 결과를 제시했으며, 이는 향후 연구를 위한 여러 가지 미해결 질문으로 이어집니다. 가장 주목할 만한 점은 정확한 계산 수행의 한계를 관찰했다는 것입니다. 예를 들어, 하노이 탑 문제에 대한 해법 알고리즘을 모델에 제공했을 때도 이 퍼즐에 대한 모델의 성능은 향상되지 않았습니다.

더욱이, 모델의 첫 번째 실패 이동(failure move)을 조사한 결과 놀라운 행동이 드러났습니다. 예를 들어, 하노이 탑에서는 최대 100개의 올바른 이동을 수행할 수 있었지만, 강 건너기(River Crossing) 퍼즐에서는 5개 이상의 올바른 이동을 제공하지 못했습니다. 저희는 이러한 결과가 이러한 시스템의 추론 능력에 대한 향후 조사를 위한 길을 열 수 있다고 믿습니다.

lit

AI Researcher

이전 포스트

Reflect, Retry, Reward: Self-Improving LLMs via Reinforcement Learning

다음 포스트