[논문 리뷰]Large Language Models Cannot Self-Correcting Reasoning Yet

gyoon·2025년 10월 27일

NLP

목록 보기

10/12

💡 CoVe란?

CoVe(Chain-of-Verification)은 대형 언어 모델(LLM)에서 발생하는 환각을 줄이기 위한 검증 체인 방법이다.

CoVe는 모델이 응답을 생성한 후, 스스로 그 응답의 정확성을 검증하는 일련의 질문을 계획하고, 그 질문에 독립적으로 답한 후 최종적으로 검증된 응답을 생성하는 과정이다. LLM에서 생성된 응답을 사용해서 자체적으로 검증할 수 있다는 개념에 근거하고 있다.

CoVe는 CoT 방식에서 한 단계 더 나아가, LLM이 스스로 생성한 답변의 근거를 단계별로 검증하고 정당화하는 메커니즘을 도입한 프롬프트 전략이다. CoT가 "답을 도출하는 과정"에 집중했다면, CoVe는 "답이 적절한지 검토하는 과정"을 포함하는 진화된 프롬프트 기법이다.

항목	CoVe Prompting	CoT Prompting	일반 Prompting
구조	추론 + 검증 + 정당화 단계 포함	추론 과정 강조	단일 응답 출력
오류 감지	LLM 자체 확인 가능	없음	없음
신뢰도	높음	중간	낮음
프롬프트 길이	김 (멀티 스테이지)	중간	짧음

CoVe는 다음과 같은 구성 요소로 이루어져 있다.

문제 제시 (Task Prompt): 사용자 질문 또는 문제 [LLM의 응답 유도 시작점]
Chain-of-Thought(CoT): 추론 단계 서술 유도 [문제 해결 과정 도출]
Self-Verification: LLM이 추론 단계별 오류를 점검 [정확성 재검토 및 오답 교정]
Justification: 답변 근거를 명시적으로 생성 [설명 가능성과 신뢰성 강화]
Final Answer: 검증된 최종 응답 출력 [사용자 최종 인터페이스로 제공]

CoVe는 LLM의 응답 신뢰성을 높이기 위한 고급 프롬프트 설계 전략으로 각광받고 있고, 모델 외부의 평가 없이도 품질 향상이 가능하다는 점에서 큰 주목을 받고 있다.

💡Self-refine이란?

인간이 자신의 쓴 글을 개선하는 방식과 유사하게, LLM이 반복적으로 피드백하고 수정하는 과정을 통해 결과물을 개선하는 방식을 Self-Refine 방식이라 한다.

LLM의 성능은 뛰어나지만, 복잡한 요구사항이나 정의하기 어려운 목표가 주어졌을 때는 성능이 떨어지는 경우가 존재한다. 기존의 방식들은 추가적인 수정이 필요할 때 별도의 refinement model을 설계하거나, 더 큰 training data 또는 expensive한 라벨링을 필요로 했다.

따라서 Self-Refine이라는 새로운 알고리즘을 만들어 Feedback과 Refine 단계를 반복적으로 거치면서 high-quality output을 생성할 수 있도록 한다. 모델이 initial output을 만들면, 동일한 모델이 더 이상의 개선이 필요없다고 판단할 때까지 해당 방식을 반복한다.

Self-Refine의 3단계 작동 메커니즘은 다음과 같다.

생성: 초기 결과물을 생성한다.
자가 진단: 생성된 결과물을 스스로 평가하고 문제점을 분석한다.
수정: 분석된 문제점을 바탕으로 결과물을 개선한다.

오늘 알아볼 논문에서는 CoVe나 Self-Refine과 같은 내재적 자기 교정 방식의 근본적인 한계를 지적하였다. LLM이 외부 피드백 없이는 자신의 추론 오류를 안정적으로 감지하고 수정하는 데 한계가 있음을 실험적으로 보인 연구이다.

🔹Abstract

대규모 언어모델(LLM)은 다양한 응용 분야에서 탁월한 텍스트 생성 능력을 보여주며 인공지능(AI)의 새로운 전환점을 이끌고 있다. 그럼에도 불구하고, LLM이 생성하는 내용의 정확성과 적절성에 대한 우려는 여전히 존재한다.

이러한 문제를 해결하기 위한 현대적 접근법 중 하나로 자기 교정(self-correction)이 제안되어 왔다.
이 연구는 이러한 접근법을 바탕으로, LLM 내부에서 이루어지는 자기 교정이 실제로 어떤 역할과 한계를 가지는지를 비판적으로 분석하고자 한다.

이 논문의 핵심은 내재적 자기 교정(intrinsic self-correction)이다.
이는 외부의 피드백이나 보조 수단 없이, LLM이 오직 자신의 내적 능력만을 바탕으로 자신의 초기 응답을 스스로 수정하려는 과정을 의미한다.

<본 연구의 주요 결과>

LLM은 외부 피드백이 주어지지 않은 상태에서 자기 스스로의 추론 오류를 교정하는 데 어려움을 겪는다.
일부 경우에는 오히려 자기 교정 이후 성능이 더 악화되는 현상이 나타난다는 것이 발견됐다.

이러한 분석 결과를 바탕으로, 본 논문은 자기 교정 연구의 실제적 가능성과 한계를 함께 조명하며, 향후 연구 및 실용적 응용에서 고려해야 할 방향성을 제시한다.

🔹Introduction

인공지능(AI) 분야의 급격한 발전은 오늘날 대규모 언어모델(Large Language Models, LLMs)의 시대를 열었다. 이들 모델은 방대한 수의 파라미터를 바탕으로 전례없는 수준의 텍스트 생성 능력을 보이며, 수많은 응용 분야에서 뛰어난 성과를 보여왔다.

그러나 동시에, 이러한 LLM의 정확성(accuracy), 추론(reasoning) 능력, 그리고 생성된 콘텐츠의 안전성(safety)에 대한 우려 또한 지속적으로 제기되고 있다.

🔻 자기 교정(self-Correction)의 등장

이러한 배경 속에서, 자기 교정(Self-Correction)이라는 개념이 LLM의 한계를 보완할 수 있는 유망한 해결책으로 주목받기 시작했다.

자기 교정이란 모델이 자신의 이전 출력에 대해 피드백을 생성하고, 그 피드백을 바탕으로 응답을 개선하는 과정이다. 하지만 이러한 연구들이 제안하는 자기 교정의 기저 메커니즘과 실질적 효과는 여전히 충분히 밝혀지지 않았다.

이에 따라 하나의 근본적인 의문이 제기된다.

"만약 LLM이 스스로를 교정할 수 있다면, 왜 처음부터 올바른 답을 내지 않는가?"

본 논문은 이 질문을 중심에 두고, LLM의 자기 교정 능력을 비판적이고 실증적으로 분석한다. 특히 본 연구는 그중에서도 추론(reasoning) 능력에 초점을 맞춘다.

🔻내재적 자기 교정(Instrinsic Self-Correction)

이를 연구하기 위해, 저자는 먼저 "내재적 자기 교정(intrinsic self-correction)"이라는 개념을 정의한다. 이것은 LLM이 외부 피드백이나 추가 도구의 도움 없이, 오직 자신이 가진 내재된 능력만으로 자신의 응답을 검토하고 수정하려는 상황을 의미한다.

이러한 설정은 여러 면에서 중요하다.

실제 응용 환경에서는 고품질의 외부 피드백을 얻기 어려운 경우가 많다.
LLM의 진정한 잠재 능력을 이해하기 위해서는 외부 신호 없이 자기 스스로 얼마나 판단하고 수정할 수 있는지를 파악해야 한다.

그러나 최근 자기 교정 연구들이 보여주는 낙관적인 결과와 달리, 본 연구의 발견은 LLM이 이러한 내재적 설정에서 추론 오류를 교정하는 데 실패하며, 대부분의 경우 자기 교정 이후 성능이 오히려 저하됨을 보여준다.

🔻 기존 연구의 문제점

본 연구는 기존 자기 교정 과련 문헌이 가진 세 가지 주요 한계를 지적한다.

Oracle Label(정답 레이블) 의존성
Kim et al. (2023) 및 Shinn et al. (2023) 등의 연구에서 보고된 성능 향상은, 실제로는 정답 라벨(oracle label)을 이용해 “정답일 때만 수정 종료”하도록 제어했기 때문이었다.
→ 그러나 실제 환경에서는 정답이 주어지지 않으므로, 이러한 향상은 "진정한 자기 교정 능력"이라 보기 어렵다.

비교 기준의 불공정성 (Inference Cost 불균형)
자기 교정은 설계상 여러 번의 모델 호출을 필요로 한다. 그럼에도 불구하고, 대부분의 연구에서는 동일한 비용을 가진 공정한 비교군과의 성능 비교가 이루어지지 않았다.
이에 본 연구는 multi-agent debate (Du et al., 2023; Liang et al., 2023) 접근을 검토하며, 동일한 모델 호출 수를 기준으로 self-consistency (Wang et al., 2022)와 비교하였다.
→ 그 결과, multi-agent debate는 self-consistency보다 낫지 않다는 사실을 확인했다.

프롬프트 설계(prompt design)의 왜곡
기존 일부 연구에서 보고된 자기 교정의 "성능 향상"은 실제로는 초기 프롬프트가 부적절하게 설계되어 있었기 때문이었다. 즉, 자기 교정 과정의 피드백 프롬프트에 더 구체적이고 유익한 정보가 들어가 결과적으로 초기 지시보다 더 잘 작동한 것이다.
→ 이 경우, 단순히 그 피드백 내용을 초기 프롬프트에 포함시키기만 해도 더 나은 성능을 얻을 수 있었다. 즉, 자기 교정이 아닌 프롬프트 개선 효과에 불과하다.

이러한 문제의식에 따라, 본 논문은 다음의 목표를 가진다.

LLM이 진정으로 자기 교정을 수행할 수 있는가?
그 성능 향상은 진짜 교정 효과인가, 아니면 외부 정보나 설계 요인의 결과인가?

이를 위해, 저자들은 여러 데이터셋(GSM8K, CommonSenseQA, HotpotQA)과 여러 모델(GPT-3.5, GPT-4 Turbo, Llama-2)을 대상으로 실험을 수행하였다.

그 결과, LLM은 정답 레이블 없이 스스로의 오류를 교정할 수 없으며, 대부분의 경우 교정 이후 정확도가 감소함을 보였다.

대규모 언어모델(LLM)의 발전과 함께, 자기교정(Self-Correction)은 점차 중요하게 부각되고 있다.

이 주제에 대한 논의의 핵심은, 이러한 고도화된 모델들이 스스로 자신의 출력의 정확성을 인식하고, 그 결과를 더 나은 형태로 수정(refine) 할 수 있는지에 있다.

예를 들어, 수학적 추론(mathemetical reasoning) 과제를 수행하는 경우를 생각해보자. LLM은 복잡한 문제를 단계별로 풀어나가지만, 계산 과정 중 일부에서 오류를 범할 수 있다. 이때 이상적인 자기교정 과정이라면, 모델이 자신의 실수를 인지하고, 문제를 다시 검토하여, 오류를 수정한 뒤 더 정확한 답변을 산출하는 것을 의미한다.

그러나 문헌을 살펴보면, 자기교정(Self-Correction)이라는 개념은 연구마다 정의가 다소 달라 모호성이 존재한다.
특히 중요한 차이는 피드백의 출처(source of feedback)에 있다. 즉, 피드백이 내부적으로(LLM 자체에서) 생성되는가, 혹은 외부 입력(External Input)으로부터 제공되는가에 따라 자기 교정의 성격이 완전히 달라진다.

내부 피드백(Internal Feedback)
모델이 자신의 내부 지식과 파라미터만을 활용해 응답의 품질을 스스로 재평가하는 경우
외부 피드백(External Feedback)
인간 사용자, 다른 모델 혹은 외부 도구 및 지식원으로부터 피드백을 받는 경우

본 논문은 LLM의 추론(reasoning) 능력에서의 자기교정 가능성에 초점을 맞춘다. 추론은 인간 인지의 핵심 과정으로, 세상을 이해하고 결론을 도출하며 의사결정을 내리고 문제를 해결하는 기반이 된다.

본 연구는 외부 피드백이나 인간의 개입이 전혀 없는 상황에서 LLM이 자기교정을 수행할 수 있는지를 평가한다. 이러한 설정을 내재적 자기교정(Instrinsic Self-Correction)이라고 부른다.
저자들은 기존에 제안된 다양한 자기 교정 기법들을 실험적으로 평가하여 다음 세 가지 사실을 보여주었다.

정답(oracle label)을 사용하지 않으면 기존 자기교정 기법들은 오히려 추론 성능을 저하시킨다.
동일한 수의 모델 응답(inference call)을 사용할 경우, 자기교정이 없는 기법들보다 성능이 더 낮다.
초기 응답 생성 단계의 프롬프트가 충분히 구체적일 경우, 자기교정 과정을 추가하면 성능이 오히려 떨어진다.

저자는 이전 LLM 자기-수정(Self-Correction) 연구들의 평가 설정에서 발견되는 문제들을 Table 1에 요약하였으며, 이에 대한 자세한 논의는 각 대응되는 섹션에서 제시한다.

🔹LLMS CANNOT SELF-CORRECT REASONING INTRINSICALLY

이 장에서는 기존에 제안된 다양한 자기교정(self-correction) 방법들을 평가하고, 정답 레이블(oracle label)을 사용할 때와 사용하지 않을 때의 성능을 비교한다.
핵심적으로, 외부 피드백 없이 LLM이 스스로 reasoing 오류를 교정할 수 있는가를 검증한다.

🔻 Experimental Setup

저자들은 기존 연구에서 자기교정이 의미 있는 성능 향상을 보였던 대표적인 세 개의 벤치마크를 선택했다.

GSM8K (Cobbe et al., 2021)
초등학생 수준의 수학 단어 문제 1,319개로 구성된 테스트 세트.
Kim et al. (2023)은 자기교정 이후 약 7% 성능 향상을 보고한 바 있다.

CommonSenseQA (Talmor et al., 2019)
일상적 상식 추론을 평가하는 5지선다형 질문 1,221개(개발 세트).
Kim et al. (2023)은 자기교정을 통해 약 15% 향상을 보였다고 보고했다.

HotpotQA (Yang et al., 2018)
다중 증거(multi-hop) 추론이 필요한 개방형 질의응답 데이터셋.
Shinn et al. (2023)은 자기교정을 통해 상당한 향상을 보였다고 보고하였다.
저자들은 동일한 100문항 세트를 사용하고, 정확 일치율(Exact Match)을 평가 지표로 삼았다.

테스트 모델 및 세부 구성은 다음과 같다.

모델
GPT-3.5-Turbo (gpt-3.5-turbo-0613),
GPT-4 (2023/08/29 버전),
GPT-4-Turbo (gpt-4-1106-preview),
Llama-2-70B-Chat (Touvron et al., 2023).

데이터 수
GPT-3.5는 전체 평가 세트를 사용했으며,GPT-4, GPT-4-Turbo, Llama-2는 비용 절감을 위해 각 데이터셋에서 무작위로 200문항(HotpotQA는 100문항)을 샘플링했다.

교정 단계
모델이 최대 2라운드(self-correction rounds) 까지 수행하도록 설정했다.

디코딩 설정
GPT-3.5와 GPT-4는 temperature = 1, GPT-4-Turbo와 Llama-2는 temperature = 0으로 평가했다.
(즉, 모델별로 서로 다른 디코딩 알고리즘을 포괄적으로 테스트한 셈이다.)

저자들은 Kim et al. (2013)과 Shinn et al. (2023)의 방식을 따라 자기교정을 3단계 prompting 절차로 구현했다.

초기 응답 생성
→ 모델이 표준 프롬프트(standard prompt)에 따라 처음 답변을 생성한다.

피드백 생성(review)
→ 모델이 자신이 생성한 답변을 검토하며 오류나 의심점을 설명한다.

재응답 (교정 단계)
→ 2단계에서 생성된 피드백을 참고해 다시 답변을 생성한다.

이 과정은 "standard prompting" 결과와 비교 평가된다.
추가로, 내재적 자기 교정을 평가하기 위해 다양한 피드백 프롬프트를 실험적으로 설계했다.

[기본 피드백 프롬프트]
“Assume that this answer could be either correct or incorrect.
Review the answer carefully and report any serious problems you find.”

🔻 Results

Self-Correction with Oracle Labels
기존 연구(Kim et al., 2023; Shinn et al., 2023)와 동일하게, 정답 라벨을 사용해 각 단계의 응답이 정확한지를 확인하고, 정답일 경우 다음 교정을 수행하지 않도록 설정했다.
즉, “정답을 알고 있는 환경”에서 모델의 교정 성능을 평가한 것이다.

이 표는 오라클 라벨을 사용할 때 자기 교정이 확실한 성능 향상을 보인다는 것을 확인시켜준다. 기존 연구와 일치하는 결과이지만, 저자들은 이 결과에 대해 다음과 같이 지적한다.

"정답을 이미 알고 있다면, 문제를 풀기 위해 LLM을 사용할 이유가 없다."

즉, 이러한 결과는 '진짜 자기교정 능력'이 아니라 정답을 알고 있는 오라클 환경의 효과에 불과하다는 것이다.

Intrinsic Self-Correction(정답 없이 스스로 교정)
이제 정답 라벨을 제거하고, 모델이 스스로 판단하여 교정을 머출 시점을 결정하도록 했다.
즉, LLM이 자체 판단만으로 "이전 답이 맞는가 틀린가"를 평가하게 한 것이다.

결과는 명확하게 모든 모델에서 정확도가 전반적으로 감소했다. 즉, 모델이 정답을 모른 채 스스로 교정하려 하면, 오히려 처음보다 성능이 나빠졌다.
Llama-2는 자기교정 이후 성능이 급격히 하락하고, 심지어 절반 이하로 떨어졌다. GPT-4-Turbo 역시 미세한 성능 감소가 관찰되었다. 모델 크기나 아키텍처와 무관하게 자기교정은 내재적 추론 성능을 향상시키지 못한다.

🔻 WHY DOES THE PERFORMANCE NOT INCREASE, BUT INSTEAD DECREASE?

저자들은 혹시 프롬프트의 문장 구조가 영향을 줄 수 있을지 검증하기 위해 세 가지 유형의 프롬프트를 추가로 테스트 했다.

Empirical Analysis

해당 그림은 두 번의 자기교정 이후 답변이 어떻게 변화했는지를 요약한 결과를 보여준다.

GSM8K 데이터셋
GPT-3.5는 전체 시도의 74.7%에서 초기 답변을 그대로 유지하였다.
남은 사례들 중에서는, 모델이 "정답을 오답으로 바꾸는 경우"가 "오답을 정답으로 수정하는 경우"보다 더 자주 발생했다. 이는 LLM이 자신의 추론이 올바른지를 정확히 판단하지 못한다는 근본적인 문제를 시사한다.
CommonSenseQA
GPT-3.5가 답변을 변경할 확률이 더 높게 나타났다. 그 이유는 이 데이터셋의 오답 선택지들이 질문과 그럴듯하게 관련되어 보이는 경우가 많기 때문이다.
따라서 자기교정 프롬프트를 사용하면 모델이 "혹시 이전 답이 틀렸을지도 모른다"는 편향을 받아들여 다른 선택지를 선택하게 되고, 결과적으로 '정답 → 오답’ 전환(correct ⇒ incorrect) 비율이 높아진다.

이와 유사하게, Llama-2 모델도 정답을 오답으로 바꾸는 사례가 자주 관찰되었다.
반면, GPT-4와 GPT-Turbo는 GPT-3.5나 Llama-2보다 초기 답변을 유지하는 경향이 강했다.

초기 답변에 대한 신뢰도가 더 높거나
모델 자체가 더 견고(robust)하여

자기 교정 프롬프트에 의해 편향되기 어려운 특성을 가지고 있기 때문으로 보인다.

표 2의 결과를 다시 살펴보면, 해당 표는 정답 라벨(ground-truth label)을 사용하여 모델이 "정답을 오답으로 바꾸는 현상"을 방지한 실험 설정을 보여준다. 그러나 바로 이러한 "오답 전환을 막는 방법"을 찾는 것이야말로 자기교정이 성공하기 위한 핵심 과제라고 저자들을 지적한다.

Intuitive Explanation
만약 모델이 충분히 정렬(aligned)되어 있고, 초기 프롬프트가 신중하게 설계되어 있다면 그 모델의 첫 번째 응답(initial response)은 이미 해당 프롬프트와 디코딩 알고리즘에 대해 최적화된 결과일 가능성이 높다.
그런데 여기에 “피드백(feedback)”을 추가하는 행위는, 결국 모델에게 추가적인 프롬프트를 덧붙이는 것으로 볼 수 있다.

이로 인해 모델은 원래의 질문에 집중하기보다, “기존 답변 + 피드백”이라는 복합 입력(combined input)에 맞춰 새로운 응답을 생성하려 하게 된다. 이러한 내재적 자기교정(intrinsic self-correction) 설정에서는, 특히 추론(reasoning)과 같은 과제에서 이 추가 프롬프트가 실제로 문제 해결에 추가적인 이점을 제공하지 않는다. 오히려, 모델을 원래의 최적 응답 분포에서 벗어나게 하여 성능 저하(performance drop)를 초래할 수도 있다.

🔹Multi-Agent Debate Does Not Outperform Self-Consistency

🔻 토론 기반 자기 교정 접근

LLM이 스스로 추론(reasoning)을 교정할 수 있는 또 다른 가능성으로, 여러 개의 모델 인스턴스가 서로의 응답을 비판하고 토론하도록 하는 멀티에이전트 토론(Multi-Agent Debate) 방식이 제안된 바 있다. (Du et al., 2023; Liang et al., 2023; Chen et al., 2023a).

Du et al. (2023)은 하나의 ChatGPT 모델의 여러 인스턴스를 활용해 서로의 답변을 논의하고 검증하는 “Multi-Agent Debate” 기법을 구현했다.
그들은 이러한 접근이 추론 정확도와 사실성 (factuality)을 높인다고 보고했다.

🔻실험 설정

저자들은 Du et al. (2023)의 방법을 그대로 재현하여 GSM8K 데이터셋에서 동일한 실험을 수행했다.

사용 모델: GPT-3.5-turbo-0301
구성: 3명의 에이전트(agent)
각 에이전트는 두 번의 토론 라운드를 수행
프롬프트: Du et al. (2023) 논문에서 제시한 원문 프롬프트 그대로 사용
차이점
기존 연구는 100문항만 사용했지만, 본 연구는 전체 GSM8K 테스트 세트를 사용하여 결과 분산을 줄였다.
또한, 비교를 위해 Self-Consistency(Wang et al., 2022) 기법도 함께 평가했다. 이는 모델이 여러 개의 응답을 생성한 뒤, 다수결을 통해 최종 답을 선택하는 방식이다.

즉, Multi-Agent Debate는 "모델 간의 토론 기반 평가"이고, Self-Consistency는 "단순 다수결 기반 평가"라고 볼 수 있다. 두 방법 모두 여러 번의 모델 호출을 필요로 하므로, 동일한 모델 응답 수를 기준으로 성능을 비교했다.

🔻결과 해석

결과는 다음과 같이 요약된다.

멀티에이전트 토론(Multi-Agent Debate)과 자기 일관성(Self-Consistency) 모두 표준 프롬프트에 비해 명확한 성능 향상을 보였다.
동일한 응답 수(예: 6개 응답 기준)로 비교했을 때, 멀티에이전트 토론은 자기일관성보다 오히려 낮은 성능을 보였다.

즉, 에이전트 간의 "토론(debate)" 과정이 추론 능력을 실질적으로 개선한 것은 아니며, 다지 여러 응답을 생성해 그 중 올바른 것을 고르는 효과에 불과하다는 것이다.

사실상 멀티에이전트 토론을 "토론(debate)" 혹은 "비판(critique)"으로 보기보다, 자기일관성(self-consistency)을 달성하기 위한 또 다른 형태의 접근으로 보는 것이 더 타당하다.

두 방법 모두 여러 번의 모델 호출을 수행하여 다양한 응답을 생성하고, 그 중에서 일관된 결과를 찾는다는 점에서 본질적으로 동일하다. 다만, 두 방법의 차이는 단지 "최종 응답을 선택하는 방식(selection mechanism)"에 있다.

Self-Consistency: 단순히 응답 빈도에 따른 다수결 투표
Multi-Agent Debate: 모델들이 서로의 답변을 평가하고 토론 후 결론 도출

하지만 실험 결과에서 나타난 성능 향상은 실질적인 자기교정의 결과라기보다, 단순히 여러 번 시도해본 것 중 최적의 결과를 고른 효과에서 비롯된 것이다.

따라서, 멀티에이전트 토론이 자기교정을 통한 추론 능력 향상의 증거로 간주되어서는 안된다. 그보다는, 자기일관성을 확보하는 다른 형태의 샘플링 및 다수결 전략으로 이해해야 한다.

멀티 에이전트 토론은 본질적으로 자기일관성과 동일한 개념을 다른 방식으로 구현한 것이며, 실제로는 Self-Consistency보다 성능이 낮다. 즉, LLM이 스스로 추론을 교정할 수 있다는 주장은 멀티에이전트 구조에서도 입증되지 않았다.

🔹Prompt Design Issues in Self-Correction Evaluation

앞선 3장에서 저자는 모든 종류의 피드백 프롬프트를 실험했음에도 불구하고 자기교정이 오히려 추론 성능을 떨어뜨린다는 사실을 확인했다.

이번 장에서는 그 원인 중 하나로 프롬프트 설계(prompt design)을 지적한다. 특히, 초기 프롬프트(initial prompt)가 충분히 정보량이 많지 않은 경우, 자기교정 단계가 마치 효과적인 개선처럼 착시 효과를 만들어낼 수 있다는 점을 실험적으로 보여준다.

🔻프롬프트 설계가 평가 결과에 미치는 영향

자기교정 실험에서 모델은 두 단계의 프롬프트를 사용한다.

초기 응답 생성 프롬프트(Initial Prompt)
문제를 해결하거나 문장을 생성하도록 하는 기본 지시문

피드백 프롬프트(Feedback Prompt)
모델이 자신이 만든 결과를 검토하고, 부족한 부분을 수정하도록 유도하는 지시문

자기교정 실험을 설계할 때 중요한 것은, 이 두 프롬프트가 동일한 정보 수준과 요구 조건을 반영해야 한다는 점이다.

그러나 기존의 많은 연구에서는 초기 프롬프트가 불충분하거나 모호하게 작성되어 있었고, 자기교정 단계의 피드백 프롬프트에만 추가적인 조건을 명시했다. 이 경우, 모델은 자기교정 덕분에 좋아진 것이 아닌 단순히 더 명확한 프롬프트를 두 번째에 받았기 때문에 성능이 향상된 것이다.

🔻 Madaan et al. Constrained Generation 과제

이 점을 보여주기 위해, 저자들은 Madaan et al. (2023)의 “Constrained Generation” 과제를 재분석했다. 이 과제의 목표는 모델이 주어진 20~30개의 개념(concepts)을 모두 포함하는 일관된 문장을 생성하는 것이다.

⚠️ 기존 연구의 문제
Madaan et al.의 원래 프롬프트는 “모든 개념을 반드시 포함해야 한다”는 명시적 요구사항이 없었다. 따라서 초기 출력에서는 일부 개념이 누락되었고, 이후 자기교정 단계에서 “누락된 개념을 찾아 추가하라”는 피드백이 주어지면서 성능이 좋아지는 것처럼 보였다.
→ 즉, 성능 향상의 원인은 자기교정 과정이 아니라, 피드백 프롬프트가 초기 프롬프트보다 더 구체적이었기 때문이다.
🔧 개선된 실험 설계
이러한 문제를 바로잡기 위해, 저자들은 초기 프롬프트를 다음과 같이 수정했다.
“Write a reasonable paragraph that includes ALL of the above concepts.”
즉, 피드백 프롬프트의 요구사항을 초기 프롬프트에 미리 통합한 것이다.

이후, 동일한 모델(gpt-3.5-turbo-0613)을 사용해 Madaan et al. (2023)의 결과를 그대로 재현하되, 초기 프롬프트만 바꾼 버전과 비교하였다.

결과 해석

초기 프롬프트를 단순히 조금 더 구체적으로 바꾼 것만으로 자기교정 없이도 81.8%의 정확도를 얻을 수 있었다.
반면, 그 상태에서 다시 자기교정 단계를 추가하자
오히려 성능이 75.1%로 하락했다.

즉, 이전 연구에서 “자기교정으로 인한 향상”이라 여겨졌던 것은, 사실상 “프롬프트 최적화 효과(prompt improvement)”였던 것이다.

이 실험을 통해 저자들은 다음의 중요한 교훈을 제시한다. 만약 모델이 특정 형식이나 기준을 충족해야 한다면 (예: 문장에 특정 단어를 포함, 코드의 효율성, 감정의 방향 등), 그러한 요구사항을 피드백 프롬프트가 아니라 초기 프롬프트에 명시적으로 포함시켜야 한다. 그렇지 않으면, 자기교정의 성능 향상은 실제로는 “더 명확한 지시를 나중에 준 결과”에 불과하게 된다.

따라서, 초기 프롬프트가 불완전하면 자기교정이 마치 유효한 것처럼 보이지만, 동일한 수준의 지시를 처음부터 제공한다면 자기교정은 대부분 성능을 저하시키거나 무의미하다.

🔹Conclusion and Discussion

🔻핵심 결론

이 연구는 현재의 대규모 언어모델(LLMs)이 외부 피드백 없이 스스로 추론(reasoning)을 교정할 수 없다는 점을 명확히 보여준다.즉, 모델이 자신의 출력이 옳은지 스스로 판단하고 수정하는 능력인 내재적 자기교정(intrinsic self-correction)은 현 시점의 LLM에게는 존재하지 않는다.

이는 “LLM이 스스로 오류를 인식하고 수정할 수 있다”는 낙관적인 기대가 현실적으로 지나치게 과대평가되어 있음을 의미한다.

따라서 연구 공동체는 자기교정 개념을 무조건적인 발전 방향으로 받아들이기보다는, 그 가능성과 한계를 명확히 인식하는 균형 잡힌 시각을 가져야 한다. 이러한 비판적 관점은 LLM의 한계를 진정으로 극복할 수 있는 차세대 자기교정 기법을 개발하는 데 필수적이다.

🔻자기교정이 실제로 유효할 수 있는 방향

저자들은 LLM이 자기교정 능력을 제대로 발휘할 수 있는 현실적 조건들을 세 가지로 제시한다.

① 외부 피드백의 적절한 활용
이번 연구 결과는 LLM이 외부 피드백 없이는 추론 성능을 개선하지 못함을 보여준다. 따라서 외부 피드백이 주어질 수 있는 상황에서는 이를 적극적으로 활용하는 것이 바람직하다.

코드 생성(Code Generation)
Chen et al. (2023b)는 코드 실행 결과(execution result)를 피드백 프롬프트에 포함시켜 LLM이 잘못된 코드를 스스로 수정하도록 유도했다.
이 경우 코드 실행기(code executor)가 완벽한 검증자(verifier) 역할을 하며, 에러 메시지는 매우 유용한 교정 신호를 제공한다.

도구 활용(External Tools)
Gou et al. (2023)은 검색엔진, 계산기 등 외부 도구와 상호작용할 수 있을 때 LLM의 자기검증 및 교정 능력이 유의미하게 향상된다고 보고했다.

모델 간 상호검증(Verifier Models)
Cobbe et al. (2021), Lightman et al. (2023), Wang et al. (2023b)는 고품질 데이터로 훈련된 검증 모델(verifier or critique model)을 통해 LLM의 출력을 평가하고 피드백을 제공하는 방법을 제안했다.

인간 피드백(Human Feedback)
인간이 직접 교정 방향을 제시하거나 원하는 결과를 명확히 설명하는 과정도 강력한 외부 피드백의 한 형태다.
→ 결국, LLM이 외부 환경과 상호작용하고 학습할 수 있는 구조를 만드는 것이 향후 자기교정 연구의 핵심 방향으로 제시한다.

② 동일한 연산비용(Inference Cost)을 고려한 공정한 비교
자기교정은 본질적으로 여러 번의 모델 호출을 요구한다.
즉, 계산 비용과 토큰 사용량이 증가하므로 자기교정 기법의 성능을 평가할 때는 단순히 “정확도가 향상되었다”는 결과만으로는 충분하지 않다.

동일한 모델 호출 수, 동일한 토큰 수, 동일한 시간 비용을 고려해야 한다.

향후 연구에서는 반드시 추가 연산 비용을 포함한 성능 분석이 병행되어야 한다.

가능하다면 적은 호출 횟수로도 최적 해답을 생성할 수 있는 정렬 기법(alignment techniques) 개발이 필요하다.

③ 프롬프트 설계(Prompt Design)의 공정성 확보
자기교정의 성능 향상은 종종 “피드백 프롬프트가 초기 프롬프트보다 더 잘 설계되어 있었기 때문”이었다.
향후 연구에서는 다음의 원칙을 따라야 한다.

초기 프롬프트와 피드백 프롬프트에 동등한 수준의 정보와 명시성을 포함해야 한다.

자기교정의 효과를 평가할 때는 “프롬프트의 완성도 차이”가 아니라 실질적인 교정 능력의 차이를 측정해야 한다.

“같은 조건에서 같은 난이도의 프롬프트를 주었을 때, 자기교정이 진짜로 도움이 되는가?”가 이 질문이 핵심이다.

🔻향후 연구 방향 요약

저자들은 위의 세 가지 논점을 종합해, 자기교정 연구의 올바른 발전 방향을 다음과 같이 정리한다.

외부 피드백 활용: 코드 실행, 검색, 계산, 검증차 모델 등과의 통합을 통한 상호작용적 교정
비용 대비 효과 분석: 추가 모델 호출에 따른 비용-성능 균형 평가, self-consistency형 비교 포함
프롬프트 공정성: 초기 피드백 프롬프트를 동일

현재의 LLM은 자기 인식(Self-awareness), 추론 검증(Reasoning verification), 자기 비판(Self-evaluation) 과 같은 고차적 인지 과정을 수행할 능력이 부족하다. 그 결과, 자기교정은 외부 피드백이 없을 경우 성능 향상보다 왜곡(bias)과 성능 저하(performance degradation)를 초래한다.

따라서 향후 연구자들은 자기교정(Self-Correction)을 “자동적 자기성찰 능력”으로 과대평가하지 말고, 그 한계를 인식한 채 외부 피드백과의 통합적 접근으로 발전시켜야 한다.

👀 My thoughts

이번 글에서는 LLM의 자기교정(Self-Correction) 개념에 대해 깊이 있게 살펴보았는데, CoVe나 Self-Refine 같은 내재적 자기교정 방식들이 단순히 “한 번 더 생각한다”는 이유만으로 성능이 향상되는 것이 아니라, 오히려 잘못된 방향으로 스스로를 확신하는 위험성이 있다는 점이 인상 깊었다.

특히 기존 연구들이 자기교정의 성능 향상을 보였던 이유가, 알고 보니 프롬프트 설계의 불균형과 오라클 레이블 의존성 때문이었다는 부분이 신기했다. ‘모델이 잘 고쳤다’라고 생각했던 결과가 실제로는 단지 더 명확한 지시를 나중에 준 효과였다는 점이, AI 연구에서 프롬프트 설계와 평가 기준의 중요성을 다시금 느끼게 했다.

또한, 해당 논문이 상당히 비판적인 연구 태도가 인상깊었다. 대부분의 논문에서는 기존 모델의 한계를 언급하지만, 새로운 성능 향상이나 모델 제안이 주 내용이다. 하지만 해당 논문은 기존 모델에 대한 비판이 주된 내용이어서 신기했고 재밌게 읽은 것 같다.

gyoon

이전 포스트

[논문 리뷰] DETERMINE-THEN-ENSEMBLE: NECESSITY OF TOP-K UNION FOR LARGE LANGUAGE MODEL ENSEMBLING

다음 포스트

[논문 리뷰]Large Language Models Cannot Self-Correcting Reasoning Yet

NLP

💡 CoVe란?

💡Self-refine이란?

🔹Abstract