[논문 리뷰] Chain-of-Thought Prompting Elicits Reasoning in Large Language Models

smj·2026년 3월 31일

ChainOfThought EmergentAbility Prompting Reasoning 논문리뷰

review

목록 보기

21/30

한줄 요약: "단계별로 생각하라"는 프롬프트만으로 LLM의 수학·논리 추론 성능이 극적으로 향상되며, 이 효과는 모델이 클수록 강하게 나타난다 (emergent ability).

항목	내용
저자	Jason Wei, Xuezhi Wang, Dale Schuurmans, Maarten Bosma, Brian Ichter, Fei Xia, Ed Chi, Quoc V. Le, Denny Zhou
소속	Google Brain
발표	NeurIPS 2022
링크	arxiv.org/abs/2201.11903
키워드	Prompting, Reasoning, Chain-of-Thought, Emergent Ability

1. 문제 정의

LLM은 패턴 매칭과 언어 생성에 뛰어나지만, 다단계 추론(multi-step reasoning)에서 취약하다:

표준 프롬프팅:
  Q: "Roger has 5 tennis balls. He buys 2 more cans of 3. How many does he have?"
  A: "11"  ← 정답이지만, 더 복잡한 문제에서는 자주 틀림

문제:
  - 산술 추론: 중간 계산 과정 없이 바로 답을 맞히기 어려움
  - 상식 추론: 여러 사실을 연결해야 하는 질문
  - 기호 추론: 규칙을 순차 적용해야 하는 태스크

핵심 질문: 모델 변경 없이, 프롬프트만으로 추론 능력을 끌어낼 수 있는가?

2. 제안 방법

Chain-of-Thought (CoT) 프롬프팅

표준 Few-shot:
  Q: "Roger has 5 tennis balls. He buys 2 cans of 3. How many?"
  A: "11"

CoT Few-shot:
  Q: "Roger has 5 tennis balls. He buys 2 cans of 3. How many?"
  A: "Roger started with 5 balls. 2 cans of 3 tennis balls each is
      2 × 3 = 6. So he has 5 + 6 = 11. The answer is 11."

→ 답만 보여주는 대신 "사고 과정"을 보여줌
→ 모델이 유사한 사고 과정을 생성하도록 유도

왜 효과적인가? (저자들의 분석)

1. 문제 분해: 복잡한 문제를 중간 단계로 나눔
   → 각 단계는 모델이 처리할 수 있을 만큼 단순

2. 해석 가능성: 중간 과정이 보이므로 어디서 틀렸는지 확인 가능

3. 범용성: 산술, 상식, 기호 추론 등 다양한 태스크에 적용
   → 태스크별 특수 설계 불필요

4. 비용 제로: 모델 재학습/파인튜닝 없이 프롬프트만 변경

Zero-shot CoT (후속 연구, Kojima et al.)

Few-shot CoT: 사고 과정 예시를 여러 개 제공 (수작업 필요)

Zero-shot CoT: 단순히 "Let's think step by step" 한 문장 추가
  Q: "If there are 3 cars in the parking lot and 2 more arrive,
      how many cars are in the lot?"
  A: "Let's think step by step.
      Initially there are 3 cars. 2 more arrive. 3 + 2 = 5.
      The answer is 5."

→ 예시 없이도 사고 과정 유도 가능
→ 실전에서 가장 널리 사용되는 형태

3. 실험 결과

3.1 산술 추론 (GSM8K)

모델	표준 프롬프트	CoT 프롬프트
GPT-3 (6B)	5%	8%
GPT-3 (175B)	18%	57%
PaLM (8B)	4%	5%
PaLM (62B)	33%	56%
PaLM (540B)	56%	74%

→ 175B에서 18% → 57%, 540B에서 56% → 74% — 극적 향상

3.2 Emergent Ability (창발적 능력)

모델 크기별 CoT 효과:
  ~1B:   CoT 효과 없음 (오히려 성능 하락)
  ~10B:  미미한 효과
  ~100B: 극적 효과 발현

→ CoT는 일정 규모 이상에서만 "창발"하는 능력
→ 작은 모델은 중간 과정을 생성하지만 논리적이지 않음

3.3 다양한 추론 태스크

태스크 유형	벤치마크	표준 → CoT
산술 추론	GSM8K	18% → 57%
상식 추론	CommonsenseQA	73% → 80%
기호 추론	Last Letter Concat	0% → 58%
전략 추론	StrategyQA	65% → 73%

3.4 CoT의 견고성

사고 과정의 품질에 따른 영향:
  올바른 CoT:     57% (GSM8K)
  잘못된 방정식:   잘못된 CoT:  ~40%
  관련 없는 CoT:   ~20%

→ CoT의 논리적 정확성이 중요, 단순히 길게 쓰는 것이 아님

4. 한계점

소형 모델에서 비효과적: ~10B 이하에서는 CoT가 성능을 오히려 저하시킬 수 있음 → 논리적이지 않은 중간 과정 생성
추론 비용 증가: 사고 과정 토큰 생성 → 출력 길이 2-10배 증가 → 비용·지연 증가
사고 과정의 정확성 보장 없음: 유창하지만 논리적으로 잘못된 사고 과정 생성 가능 ("faithful reasoning"이 아닐 수 있음)
Few-shot 예시 의존: 예시의 품질과 다양성에 따라 성능 변동
단순 태스크에서 불필요: 이미 높은 정확도의 태스크에서는 CoT가 오버헤드만 추가
다국어 환경: 영어 CoT 예시가 비영어 추론에 얼마나 전이되는지 미검증

5. 의의와 영향

프롬프트 엔지니어링의 가장 영향력 있는 기법 — 사실상 모든 LLM 사용에서 기본 적용
"Let's think step by step"이 AI 역사에서 가장 유명한 프롬프트가 됨
Emergent ability 개념 확산: 모델 크기에 따른 질적 변화의 대표 사례
후속 연구 대량 촉발: Tree of Thoughts, Self-Consistency, Least-to-Most, CoT-SC 등
DeepSeek-R1, o1 등 추론 특화 모델의 학습 데이터 구성에 직접적 영향
"모델을 바꾸지 않고 사용법을 바꾸다"라는 실용적 패러다임 확립

6. 💬 리뷰어 코멘트

CoT의 가장 놀라운 점은 아이디어의 단순함이다. "중간 과정을 보여주면 모델도 중간 과정을 생성한다" — 이것이 전부다. 하지만 이 단순한 관찰이 LLM 활용의 패러다임을 바꿨다.

더 깊은 질문은 "CoT가 진짜 추론인가?"이다. 모델이 생성하는 사고 과정이 실제로 답변에 인과적으로 기여하는지(faithful reasoning), 아니면 답을 먼저 "직감"하고 사고 과정을 사후 합리화하는지에 대한 논쟁이 있다. 이 질문은 아직 완전히 해결되지 않았으며, LLM의 본질에 대한 철학적 논의와 연결된다.

실전 교훈: CoT는 "어려운 문제"에만 사용해야 한다. 간단한 분류 태스크에 CoT를 적용하면 비용만 증가하고 성능은 변함없다. "이 태스크에 다단계 추론이 필요한가?"를 먼저 판단하는 것이 중요하다.

관련 논문: Zero-shot CoT, Self-Consistency, Tree of Thoughts, Least-to-Most, DeepSeek-R1

smj

이전 포스트

[논문 리뷰] Constitutional AI: Harmlessness from AI Feedback

다음 포스트