표준적인 LLM은 근본적으로 자기회귀(autoregressive) 모델로, 이전 토큰들을 기반으로 시퀀스에서 다음 토큰을 예측하도록 훈련된다.
이 과정은 빠르고 직관적인 시스템 1 사고와 유사하다. 반면, 추론은 신중하고 다단계적인 과정이다. 추론 LLM은 직접적인 답변을 즉시 생성하는 대신, 최종 결론에 도달하기 전에 먼저 중간 추론 단계 또는 추론의 흔적(reasoning traces)을 생성하도록 훈련된다. 이는 더 느리고 분석적인 시스템 2 사고 과정을 모방한다.
이러한 전환은 단순히 모델의 규모 확장만으로 나타나는 창발적 속성(emergent ability)이 아니라, 이러한 행동을 유도하기 위해 설계된 특정 훈련 및 파인튜닝 기법의 결과물이다.
이 목표는 모델이 인간의 사고 과정과 유사한 토큰 시퀀스를 언어화(verbalizing)함으로써 자신의 작업 과정을 보이도록 만드는 것이다. 이 과정 자체가 방대한 사전 훈련 코퍼스로부터 암묵적으로 학습된 잠재적인 문제 해결 능력을 이끌어내는 것으로 보인다.
이러한 패러다임 전환의 배경에는 근본적인 엔지니어링적 결정이 자리 잡고 있다. 추론 모델의 개발은 복잡한 과제에서의 성능 향상을 위해 계산 효율성을 의도적으로 희생하는 것을 의미한다. 이는 지연 시간과 추론 비용 최소화에 중점을 두었던 전통적인 접근 방식에서 벗어나는 것이다.
추론 모델은 응답하기 전에 생각하는 데 더 많은 시간을 보내도록 명시적으로 훈련되며, 이는 추론 시간에 모델이 사용하는 계산량을 본질적으로 증가시킨다. 이는 빠르고, 자동적이며, 직관적인것으로 특징지어지는 표준 자기회귀 생성 방식과 직접적으로 대조된다.
이러한 상충 관계는 이제 모델 아키텍처에 직접적으로 반영되고 있다. 예를 들어, DeepSeek V3.1 모델은 복잡한 추론을 위한 사고(Think) 모드와 간단한 질의를 위한 더 빠른 비사고(Non-Think) 모드를 갖춘 하이브리드 추론 구조를 특징으로 한다.
이 구조는 시스템이 과제의 복잡성에 따라 계산 자원을 동적으로 할당할 수 있게 한다. 이는 LLM 추론 분야가 하나의 크기로 모든 것을 맞추는 접근법을 넘어 성숙하고 있음을 보여준다. 하이브리드 추론 아키텍처의 등장은 업계가 사용자의 요구에 근본적인 이분법이 존재함을 인식하고 있음을 증명한다.
즉, 일부 과제는 즉각적이고 저비용의 답변을 요구하는 반면, 다른 과제는 더 느리고 비용이 많이 들지만 더 정확하고 신중한 추론을 필요로 한다. 이 상충 관계를 관리하는 것은 LLM 배포 및 아키텍처 설계의 핵심 과제로 부상하고 있다.
트랜스포머(Transformer) 아키텍처는 LLM이 구축되는 기반이다. 그 핵심 혁신인 어텐션 메커니즘(attention mechanism)은 모델이 입력 시퀀스에서 다른 토큰들의 중요도를 가중하여 평가할 수 있게 함으로써, 논리적 추론에 필요한 핵심 정보에 집중할 수 있도록 한다.
LLM은 자기지도학습(self-supervised learning)을 통해 방대한 양의 텍스트 데이터로 사전 훈련된다. 이 초기 단계는 모델에 일반적인 언어 유창성과 구문, 의미론, 그리고 데이터에 내재된 온톨로지 관계를 포함하는 광범위한 세상 지식의 기반을 부여한다. 상식과 같은 이러한 암묵적 지식은 이후의 모든 추론 활동을 위한 전제 조건이 된다.
현대 추론 접근법의 개념적 목표는 잠재적 결과물을 탐색하고, 평가하며, 정제하는 시스템 2와 유사한 행동을 구현하는 것이다. 이는 표준 모델의 빠르고 직접적인 응답에서 벗어나려는 움직임이다. 이를 가능하게 하는 핵심 혁신은 새로운 강화 학습(Reinforcement Learning, RL) 기법의 적용이다. 초기 사전 훈련과 지도 파인튜닝(Supervised Fine-Tuning, SFT) 이후, 강화 학습은 모델이 가치 있는 중간 추론 단계를 생성하도록 인센티브를 제공하는 데 사용된다.
추론 과정은 마르코프 결정 과정(Markov Decision Process, MDP)으로 구성될 수 있으며, 여기서 모델은 정확하거나 의미 있는 추론 단계를 생성한 것에 대해 중간 보상을 받고, 정답을 생성했을 때 최종적으로 더 큰 보상을 받는다. 이러한 보상 구조는 모델이 단순히 결과뿐만 아니라 과정 자체의 가치를 학습하도록 명시적으로 훈련시킨다.
이러한 훈련 과정은 LLM의 추론이 진정한 의미의 의식이나 이해가 아님을 시사한다. 대신, 이는 문제 해결에 매우 효과적인 것으로 입증된, 학습된 구조화된 출력 형식이다.
모델은 인간의 논리와 유사한 토큰 시퀀스를 생성하는 것이 복잡한 과제에서 정답에 도달하기 위한 고보상 전략임을 학습한다. 모델이 자신의 작업 과정을 보이도록 훈련되는 것은 인간의 사고 과정과 유사한 토큰(단어) 시퀀스를 생성하는 것을 의미하며, 여기서 유사하다는 표현은 진정한 인지가 아닌 모방을 암시한다. 이러한 행동은 정확한 중간 단계에 대해 보상을 제공하는 강화 학습을 통해 명시적으로 장려된다. 이는 이해하려는 내적 동기가 아닌 외부적 인센티브 구조이다.
추론의 신기루 논쟁은 이러한 관점을 더욱 뒷받침하는데, 이는 CoT의 효과가 진정한 논리적 추론보다는 훈련 데이터에서 학습된 구조화된 귀납적 편향에서 비롯된다고 제안한다. 즉, 모델은 추론처럼 보이는 패턴을 복제하는 것이다. 따라서 LLM의 추론은 고도로 정교한 형태의 패턴 매칭으로 이해되어야 하며, 여기서 패턴은 논리적 논증의 구조 그 자체이다. 이러한 단계를 언어화하는 행위는 모델이 자신의 생성 과정을 제약하여 더 나은 결과를 이끌어내는 데 도움을 주지만, 이것이 모델이 인간적인 의미에서 생각한다는 것을 의미하지는 않는다.
연쇄적 사고(Chain-of-Thought, CoT)는 LLM이 최종 답변을 제공하기 전에 복잡한 문제를 일련의 중간 단계로 분해하도록 유도하는 기법이다. 이 간단한 개입만으로도 논리, 산술 또는 상식 추론을 요구하는 과제에서 성능이 크게 향상되는 것으로 밝혀졌다.
CoT는 주로 두 가지 방식으로 구현된다.
퓨샷 CoT (Few-Shot CoT): 프롬프트에 상세하고 단계별 추론 과정이 포함된 질문-답변 예시 몇 개를 포함시킨다. 그러면 모델은 이 형식을 모방하여 새로운 문제에 적용하는 법을 학습한다.
제로샷 CoT (Zero-Shot CoT): 예시를 제공하지 않고, 대신 단계별로 생각해보자와 같은 간단한 지시어를 프롬프트에 추가한다. 이것만으로도 모델의 잠재된 추론 능력을 촉발시키기에 충분한 경우가 많다.
연구에 따르면, CoT 프롬프팅은 모델의 디코딩 과정에서 종종 숨겨져 있는 내재적 추론 경로를 전면으로 이끌어내는 역할을 한다. 이는 모델이 더 정확한 결론에 도달하는 데 도움이 되는 구조화된 맥락을 생성하도록 강제하는 안내자 역할을 한다.
CoT의 핵심 한계는 선형적이고 단일 경로적인 특성에 있다. 사슬의 초기에 발생한 단 하나의 실수가 전파되어 전체 해결책을 무효화할 수 있으며, 이를 수정하거나 대안을 탐색할 메커니즘이 없다.
사고 트리(Tree-of-Thoughts, ToT) 프레임워크는 LLM이 여러 추론 경로를 동시에 탐색할 수 있도록 함으로써 CoT를 일반화한다. 이는 문제 해결을 트리 탐색으로 구조화하는데, 각 노드는 사고(중간 단계)이고, 가지는 가능한 다음 단계를 나타낸다.
ToT는 다단계 과정을 포함한다.
사고 생성 (Thought Generation): 주어진 상태에서 모델은 여러 잠재적인 다음 사고나 단계를 제안한다.
상태 평가 (State Evaluation): LLM 자체가 이러한 여러 경로의 유망성을 평가하는 휴리스틱으로 사용된다. 모델에게 특정 상태에 "가치"를 부여하거나 여러 옵션 중 최선을 "투표"하도록 프롬프트할 수 있다.
탐색 알고리즘 (Search Algorithm): 너비 우선 탐색(BFS)이나 깊이 우선 탐색(DFS)과 같은 체계적인 탐색 알고리즘을 사용하여 트리를 순회한다. 이를 통해 모델은 신중한 탐색, 예측(lookahead), 그리고 결정적으로 백트래킹(backtracking)을 수행할 수 있다. 즉, 유망하지 않은 경로는 포기하고 더 실행 가능한 경로를 탐색하는 것이다.
CoT에서 ToT 및 GoT로의 진화는 고전적인 상징적 AI의 탐색 및 계획 알고리즘이 신경망 패러다임 내에서 재구현되고 있음을 보여준다. 이는 LLM이 확립된 탐색 원칙에 따라 휴리스틱 함수와 상태 생성기 역할을 동시에 수행하는 강력한 융합을 시사한다.
CoT는 탐색 없이 단일 경로를 따르는 단순하고 탐욕적인 선형 탐색과 유사하다. 반면 ToT는 탐색 트리, 상태 평가(휴리스틱), 그리고 탐색과 백트래킹을 허용하는 BFS/DFS와 같은 체계적인 탐색 알고리즘 등 고전 AI의 개념을 명시적으로 도입한다. 이는 A* 탐색과 같은 알고리즘과 직접적으로 유사하다.
이러한 발전은 LLM 추론이 상징적 AI의 형식적 구조를 채택함으로써 진보하고 있음을 보여준다. LLM의 독특한 기여는 방대하게 학습된 자연어 지식을 사용하여 이러한 상징적 상태(사고)를 생성하고 평가하는 능력에 있으며, 이는 수작업으로 코딩된 규칙과 휴리스틱을 프롬프트 기반 자가 평가로 효과적으로 대체한다. 이 하이브리드 접근 방식은 순수 신경망 시스템과 순수 상징적 시스템 모두의 취약성을 극복하는 열쇠가 될 수 있다.
더 나아가, GoT는 추론 과정을 트리가 아닌 그래프로 모델링한다. 이를 통해 사고들을 병합하고 변형하는 등 더 복잡한 상호작용이 가능해져, 더 유연하고 강력한 문제 해결 구조를 만든다.
일부 기법은 비판 및 개선 루프를 도입한다. 초기 추론 경로를 생성한 후, 모델은 자신의 작업에 대해 성찰하고 잠재적 오류를 식별하며 결과물을 개선하도록 프롬프트된다. 이 반복적인 과정은 자기 수정을 가능하게 하여 더 신뢰할 수 있는 답변으로 이어진다.
그러나 CoT의 본질에 의문을 제기하는 중요한 반론이 부상하고 있다. 이 관점은 CoT가 진정한 추론이 아니라 훈련 데이터 분포에 크게 의존하는 정교한 패턴 매칭의 한 형태라고 주장한다. 이는 모델의 신뢰성과 일반화 가능성에 중대한 영향을 미친다.
여러 자료에서 CoT 사슬이 정답으로 이어지더라도 논리적으로 타당하지 않은 경우가 많다고 보고되었다. 모델은 유창하지만 논리적으로 일관되지 않은 단계를 생성할 수 있다. 한 논문은 CoT가 훈련 데이터 분포에서 학습된 구조화된 귀납적 편향을 반영하는 취약한 신기루라고 가정한다. 모델은 훈련 데이터에 존재했던 시퀀스와 유사한 추론 시퀀스를 생성하는 법을 학습한다는 것이다.
이러한 취약성은 모델이 분포를 벗어난 문제에 대해 테스트될 때 성능이 급격히 저하되면서 드러난다. 모델은 논리적 절차보다는 표면적 의미와 단서에 의존한다. 만약 이것이 사실이라면, CoT는 일반적인 문제 해결 기술이 아니라 일종의 보간법이다.
이는 우리가 훈련 데이터와 크게 다른 새로운 문제에 대해 LLM이 정확하게 추론할 것이라고 신뢰할 수 없음을 의미한다. 또한, 단순히 모델을 확장하는 것만으로는 진정으로 일반화 가능한 추론을 달성하기에 충분하지 않을 수 있으며, 새로운 아키텍처나 훈련 패러다임이 필요할 수 있음을 시사한다.
LLM은 본질적으로 정적인 훈련 데이터에 의해 제한되며, 이 데이터는 구식이거나 실시간 정보가 부족할 수 있다. 도구 사용(또는 함수 호출)은 LLM이 API를 통해 외부 시스템과 상호작용할 수 있게 한다.
LLM은 코드를 직접 실행하지 않는다. 대신, 사용자 질의에 따라 호출할 함수와 사용할 인수를 지정하는 구조화된 출력(일반적으로 JSON)을 생성한다.
그러면 별도의 프로그램이 이 함수 호출을 실행하고, 결과를 검색하여 최종 응답을 위해 LLM의 컨텍스트에 다시 제공한다. LLM은 프롬프트나 미세조정 데이터에 제공된 사용 가능한 도구들의 설명을 자연어로 표현된 사용자의 의도와 일치시켜 어떤 도구를 사용할지 결정한다. 이러한 도구 설명의 품질은 정확한 함수 호출에 매우 중요하다.
ReAct(Reasoning + Acting)는 CoT의 내부 추론과 도구 사용의 외부 상호작용을 결합하는 프레임워크이다. 이는 LLM이 문제에 대해 추론하고, 행동을 결정하고, 실행하고, 결과를 관찰한 다음, 새로운 정보를 바탕으로 다시 추론할 수 있는 반복적인 루프를 생성한다.
전형적인 ReAct 루프는 다음과 같은 상호 연관된 시퀀스를 생성하는 것을 포함한다.
사고 (Thought): 모델이 문제의 현재 상태에 대해 추론하고 다음 단계를 계획한다.
행동 (Action): 모델이 정보를 수집하거나 과제를 수행하기 위해 특정 도구를 사용하기로 결정한다.
관찰 (Observation): 도구로부터의 결과가 모델의 컨텍스트로 다시 입력된다.
이러한 동적인 상호작용은 모델이 정보 수집과 계획이 필요한 복잡하고 다단계적인 과제를 해결할 수 있게 하여, 순수 CoT의 정적인 성격을 극복한다. 이는 현대 자율 LLM 에이전트의 기반을 형성한다.
추론 능력을 갖추었음에도 불구하고, LLM은 그럴듯하지만 사실적으로 부정확한 정보를 생성하는 "환각 현상"을 일으킬 수 있다. 이는 추론 사슬이 잘못된 전제 위에 구축될 때 특히 위험하다.
RAG는 LLM의 생성 과정을 외부의 검증 가능한 지식에 기반하게 함으로써 이 문제를 해결한다. 응답을 생성하기 전에, 시스템은 지정된 지식 베이스(벡터 데이터베이스)에서 관련 문서나 데이터 청크를 검색한다.
RAG 파이프라인은 세 가지 주요 단계로 구성된다.
인덱싱 (Indexing): 외부 문서를 정제하고, 청크로 분할한 후, 효율적인 검색을 위해 벡터 임베딩으로 변환한다.
검색 (Retrieval): 사용자 질의를 사용하여 벡터 데이터베이스를 검색하고 가장 관련성 높은 정보 청크를 가져온다.
생성 (Generation): 검색된 청크들을 원래 프롬프트와 함께 LLM의 컨텍스트에 추가한다. 그러면 LLM은 제공된 사실 정보에 기반하여 조건화된 답변을 생성한다.
RAG는 LLM이 추론 사슬을 구축하는 전제가 사실적으로 정확하고 최신 정보임을 보장하여, 환각 현상을 크게 줄이고 결과물의 전반적인 신뢰성을 향상시킨다.
CoT 스타일의 추론, 도구 사용, 그리고 RAG의 조합은 효과적인 자율 에이전트를 구축하기 위한 강력하고 필수적인 삼위일체를 형성한다. 각 구성 요소는 다른 구성 요소의 결정적인 약점을 보완하여, 부분의 합보다 더 유능한 공생 시스템을 만들어낸다.
추론(CoT/ToT)은 에이전트에게 두뇌 또는 계획 모듈을 제공하여 과제를 분해하고 전략을 수립하게 한다. 그러나 이는 외부 세계와 상호작용할 수 없는 진공 상태에서 작동한다는 한계가 있다.
행동(도구 사용)은 에이전트에게 손을 제공하여 외부 환경(API, 데이터베이스)과 상호작용함으로써 계획을 실행하게 한다. 그러나 추론 없이는 단순하고 반응적인 작업만 수행할 수 있으며, 다단계 계획에서 도구를 언제, 왜 사용해야 하는지 알지 못한다.
기반(RAG)은 에이전트에게 현실과의 연결을 제공하여 에이전트가 추론하는 지식이 정확하고 최신 정보임을 보장한다.
그러나 RAG 자체는 검색 시스템일 뿐, 검색한 정보를 바탕으로 행동할 계획이나 실행 능력은 없다. ReAct 프레임워크는 추론과 행동을 기능적인 루프로 결합하고 , RAG는 그 루프에 필요한 사실적 기반을 제공한다. 진정으로 효과적인 에이전트는 계획(추론), 그 계획에 따라 행동(도구), 그리고 그 계획이 사실에 기반하도록 보장(RAG)하는 이 세 가지 모두를 필요로 한다. 이 삼위일체는 견고하고 신뢰할 수 있는 LLM 에이전트를 구축하기 위한 현재의 아키텍처 청사진을 대표한다.
추론 기능이 강화된 LLM은 논리, 수학, 코딩을 테스트하는 벤치마크에서 최첨단 성능을 보여주었다.
GSM8K(초등 수학) 및 MATH(경시 수학)와 같은 데이터셋에서 CoT와 같은 기법은 모델이 다단계 계산 절차를 정확하게 따르도록 하여 정확도를 크게 향상시킨다. 최상위 모델들은 이제 GSM8K에서 90% 이상의 정확도를 달성하며 인간 수준의 성능에 근접하고 있다.
기능적으로 정확한 파이썬 코드 생성 능력을 테스트하는 HumanEval과 같은 벤치마크에서 추론은 모델이 문제 제약 조건을 이해하고 유효한 알고리즘을 생성하도록 하여 높은 통과율을 기록하게 한다.
이러한 벤치마크들은 다양한 모델의 문제 해결 능력을 객관적으로 측정하고 비교하는 표준화된 테스트 역할을 한다.
구조화된 단계별 결과물을 제공함으로써, 추론 모델은 근거가 명확하고 투명한 권장 사항을 제시하여 의사결정 과정을 향상시킨다. 인간과 유사한 문제 해결 방식을 모방하는 능력은 결과물을 인간 전문가에게 더 직관적이고, 공감할 수 있으며, 검증 가능하게 만든다.
이러한 적응성은 추론 능력이 다양한 고부가가치 전문 분야에 적용될 수 있도록 한다.
의료: 방대한 사례 연구 데이터셋과 증상을 연관시켜 데이터 분석, 잠재적 진단 제안, 치료 계획 권장 등을 지원한다.
법률: 방대한 양의 법률 문서를 처리하고 종합하여 문서 초안 작성, 법적 선례 식별, 논리적 주장 제시 등을 지원한다.
과학 연구: 화학 및 물리학과 같은 분야에서 실험 데이터를 해석하고, 패턴을 식별하며, 논리적 결론을 도출한다.
금융: 여러 분석 계층이 필요한 복잡한 금융 위험 평가를 수행한다.
추론 모델의 가장 중요하면서도 종종 간과되는 이점은 단순히 정확도 향상이 아니라, 결과물의 내재된 설명가능성(explainability)이다. 추론의 흔적은 감사 추적 역할을 하며, 이는 규제가 심하고 중대한 이해관계가 걸린 전문 분야에서 채택되기 위한 필수불가결한 요구사항이다.
추론 모델은 자신의 작업 과정을 보이도록 훈련된다. 결과물은 단지 최종 답변이 아니라 논리적인 진행 과정이다. 의료 진단, 법적 논증, 금융 위험 평가와 같은 응용 분야를 고려할 때 , 아무리 정확하더라도 블랙박스 답변은 종종 전문적으로나 법적으로 수용될 수 없다.
의사나 변호사는 결정의 배후에 있는 추론을 이해하고 방어할 수 있어야 한다. 명시적인 추론 사슬은 인간 전문가가 모델의 논리를 검증하고, 미묘한 오류를 발견하며, 궁극적으로 결과물을 신뢰할 수 있게 한다. 모델의 역할은 불투명한 신탁에서 투명한 조수로 전환된다.
따라서 인간과 같은 논리적 진행은 미적인 특징 이상으로, 중요한 기능적 요구사항이다. 추론 과정의 투명성은 책임성과 검증 가능성이 필수적인 전문 워크플로우에 이러한 모델을 통합할 수 있게 만드는 핵심 요소이다. 이러한 설명가능성은 순수한 벤치마크 점수보다 기업 채택에 있어 더 강력한 동인으로 작용할 수 있다.
추론은 자율 AI 에이전트를 구동하는 인지 엔진이다. 이 에이전트들은 LLM을 사용하여 복잡한 문제를 추론하고, 계획을 수립하며, 과제를 완료하기 위해 도구를 활용한다.
이러한 에이전트의 응용 분야에는 스마트 챗봇, 자동 코드 생성, 그리고 보험 또는 의료 청구 처리와 같은 복잡한 워크플로우 자동화가 포함된다. 추론과 행동 능력을 결합함으로써, 이 에이전트들은 새로운 정보에 동적으로 적응하고, 잠재적 사기를 식별하며, 복잡한 시나리오를 분석하여 적절한 조치를 권장할 수 있다.
추론은 계산적으로 비용이 많이 든다. 모델이 더 긴 출력 시퀀스(추론의 흔적)를 생성해야 하며, ToT와 같이 여러 경로를 생성하고 평가하는 더 복잡한 과정을 포함하는 경우가 많아 추론 시 사용되는 계산량이 본질적으로 증가한다.
이 증가된 계산은 직접적으로 더 높은 지연 시간, 즉 응답을 받는 데 걸리는 시간으로 이어진다. 대화형 챗봇과 같은 실시간 응용 프로그램의 경우, 높은 지연 시간은 사용자 경험을 심각하게 저하시킬 수 있다. DeepSeek과 같은 추론 모델은 비추론 모델에 비해 응답 지연 시간이 훨씬 긴 것으로 알려져 있다.
증가된 계산량과 더 긴 토큰 시퀀스(입력 및 출력 모두)의 조합은 쿼리당 더 높은 재정적 비용으로 이어진다. 특히 토큰당 요금을 부과하는 API 기반 모델을 사용할 경우 더욱 그렇다. ToT는 표준 CoT 프롬프트보다 5배에서 100배 더 비쌀 수 있다. 이는 조직이 신중하게 평가해야 하는 정확도-비용 상충 관계를 만들어낸다.
CoT의 순차적 특성은 이를 취약하게 만든다. 계산 실수든 논리적 결함이든, 한 단계에서의 오류가 사슬의 나머지 부분으로 전파되어 후속 단계가 논리적으로 타당하더라도 완전히 잘못된 최종 답변으로 이어질 수 있다. 이를 오류 누적이라고 한다.
경우에 따라, 모델에게 중간 추론 단계를 생성하도록 강제하는 것이 오히려 성능을 저하시킬 수 있다. 이러한 과잉 사고(overthinking)는 모델을 잘못된 추론 경로로 이끌거나 간단한 문제에 과도한 자원을 할당하게 하여, 직접적인 답변으로는 발생하지 않았을 오류를 유발할 수 있다.
앞에서 논의된 바와 같이, CoT가 진정한 추론인지 아니면 훈련 데이터 분포에 기반한 정교한 패턴 매칭인지에 대한 중요한 논쟁이 있다. 후자가 사실이라면, 모델의 추론은 일반화될 수 없으며 훈련 데이터와 다른 새로운 문제에 대해서는 실패하기 쉬워, 분포를 벗어난 과제에 대해서는 근본적으로 신뢰할 수 없게 된다.
추론이 환각 현상을 제거하지는 않으며, 때로는 이를 더 교묘하게 만들 수 있다. 모델은 표면적으로는 완벽하게 논리적이고 일관성 있어 보이지만, 잘못된 전제에 기반하거나 미묘한 논리적 오류를 포함하는 추론 사슬을 생성할 수 있다.
이러한 추론 환각은 단순한 사실적 오류와는 구별된다. 이는 그럴듯하지만 부정확한 논증으로, 탐지하고 디버깅하기가 더 어렵다. 모델은 따라야 할 규칙을 정확하게 명시했음에도 불구하고 논리적으로 일관되지 않은 결론을 자신 있게 주장할 수 있다.
ToT나 에이전트 프레임워크와 같은 구조화된 추론 체계를 설계, 개발, 유지하는 것은 단순한 프롬프팅보다 훨씬 더 복잡하다.
추론 과정의 정확성을 평가하는 것은 최종 답변을 평가하는 것보다 훨씬 어렵다. LLM이 자신의 추론 사슬에서 오류를 안정적으로 찾아내기 어렵기 때문에, 각 중간 단계의 유효성을 확인하기 위해서는 종종 인간의 주석 작업이나 정교한 검증 모델이 필요하다.
LLM 추론의 단점들은 개별적인 문제가 아니라 상호 연결된 삼중고(trilemma), 즉 비용 대 지연 시간 대 신뢰성을 형성한다.
현재로서는 이 세 가지를 동시에 최적화하는 것이 불가능하다. 이 삼중고는 추론 가능한 LLM을 배포하는 데 있어 핵심적인 엔지니어링 및 경제적 과제를 정의한다.
추론은 더 많은 계산을 필요로 하므로 비용과 지연 시간을 증가시킨다. 단순한 추론(CoT)은 빠르고 저렴하지만 오류 전파로 인해 신뢰성이 낮다. 신뢰성을 높이려면 ToT와 같이 더 복잡한 방법을 사용해야 하지만, 이는 계산량을 극적으로 증가시켜 비용과 지연 시간을 높인다.
이는 근본적인 상충 관계를 드러낸다. 개발자는 저렴하고 빠르지만 취약한 추론 과정(CoT)을 선택하거나, 신뢰할 수 있고 견고하지만 느리고 비싼 과정(ToT)을 선택해야 한다. 이 삼중고는 특정 응용 프로그램의 요구에 따라 전략적 결정을 강요한다. 고객 대면 챗봇은 낮은 지연 시간을 우선시할 수 있지만, 의료 진단 도구는 비용에 관계없이 신뢰성을 최우선으로 해야 한다. 하이브리드 모델의 존재 는 이 피할 수 없는 삼중고에 대한 시장과 엔지니어링의 직접적인 대응이다.