한줄 요약: "단계별로 생각하라"는 프롬프트만으로 LLM의 수학·논리 추론 성능이 극적으로 향상되며, 이 효과는 모델이 클수록 강하게 나타난다 (emergent ability).
| 항목 | 내용 |
|---|---|
| 저자 | Jason Wei, Xuezhi Wang, Dale Schuurmans, Maarten Bosma, Brian Ichter, Fei Xia, Ed Chi, Quoc V. Le, Denny Zhou |
| 소속 | Google Brain |
| 발표 | NeurIPS 2022 |
| 링크 | arxiv.org/abs/2201.11903 |
| 키워드 | Prompting, Reasoning, Chain-of-Thought, Emergent Ability |
LLM은 패턴 매칭과 언어 생성에 뛰어나지만, 다단계 추론(multi-step reasoning)에서 취약하다:
표준 프롬프팅:
Q: "Roger has 5 tennis balls. He buys 2 more cans of 3. How many does he have?"
A: "11" ← 정답이지만, 더 복잡한 문제에서는 자주 틀림
문제:
- 산술 추론: 중간 계산 과정 없이 바로 답을 맞히기 어려움
- 상식 추론: 여러 사실을 연결해야 하는 질문
- 기호 추론: 규칙을 순차 적용해야 하는 태스크
핵심 질문: 모델 변경 없이, 프롬프트만으로 추론 능력을 끌어낼 수 있는가?
표준 Few-shot:
Q: "Roger has 5 tennis balls. He buys 2 cans of 3. How many?"
A: "11"
CoT Few-shot:
Q: "Roger has 5 tennis balls. He buys 2 cans of 3. How many?"
A: "Roger started with 5 balls. 2 cans of 3 tennis balls each is
2 × 3 = 6. So he has 5 + 6 = 11. The answer is 11."
→ 답만 보여주는 대신 "사고 과정"을 보여줌
→ 모델이 유사한 사고 과정을 생성하도록 유도
1. 문제 분해: 복잡한 문제를 중간 단계로 나눔
→ 각 단계는 모델이 처리할 수 있을 만큼 단순
2. 해석 가능성: 중간 과정이 보이므로 어디서 틀렸는지 확인 가능
3. 범용성: 산술, 상식, 기호 추론 등 다양한 태스크에 적용
→ 태스크별 특수 설계 불필요
4. 비용 제로: 모델 재학습/파인튜닝 없이 프롬프트만 변경
Few-shot CoT: 사고 과정 예시를 여러 개 제공 (수작업 필요)
Zero-shot CoT: 단순히 "Let's think step by step" 한 문장 추가
Q: "If there are 3 cars in the parking lot and 2 more arrive,
how many cars are in the lot?"
A: "Let's think step by step.
Initially there are 3 cars. 2 more arrive. 3 + 2 = 5.
The answer is 5."
→ 예시 없이도 사고 과정 유도 가능
→ 실전에서 가장 널리 사용되는 형태
| 모델 | 표준 프롬프트 | CoT 프롬프트 |
|---|---|---|
| GPT-3 (6B) | 5% | 8% |
| GPT-3 (175B) | 18% | 57% |
| PaLM (8B) | 4% | 5% |
| PaLM (62B) | 33% | 56% |
| PaLM (540B) | 56% | 74% |
→ 175B에서 18% → 57%, 540B에서 56% → 74% — 극적 향상
모델 크기별 CoT 효과:
~1B: CoT 효과 없음 (오히려 성능 하락)
~10B: 미미한 효과
~100B: 극적 효과 발현
→ CoT는 일정 규모 이상에서만 "창발"하는 능력
→ 작은 모델은 중간 과정을 생성하지만 논리적이지 않음
| 태스크 유형 | 벤치마크 | 표준 → CoT |
|---|---|---|
| 산술 추론 | GSM8K | 18% → 57% |
| 상식 추론 | CommonsenseQA | 73% → 80% |
| 기호 추론 | Last Letter Concat | 0% → 58% |
| 전략 추론 | StrategyQA | 65% → 73% |
사고 과정의 품질에 따른 영향:
올바른 CoT: 57% (GSM8K)
잘못된 방정식: 잘못된 CoT: ~40%
관련 없는 CoT: ~20%
→ CoT의 논리적 정확성이 중요, 단순히 길게 쓰는 것이 아님
CoT의 가장 놀라운 점은 아이디어의 단순함이다. "중간 과정을 보여주면 모델도 중간 과정을 생성한다" — 이것이 전부다. 하지만 이 단순한 관찰이 LLM 활용의 패러다임을 바꿨다.
더 깊은 질문은 "CoT가 진짜 추론인가?"이다. 모델이 생성하는 사고 과정이 실제로 답변에 인과적으로 기여하는지(faithful reasoning), 아니면 답을 먼저 "직감"하고 사고 과정을 사후 합리화하는지에 대한 논쟁이 있다. 이 질문은 아직 완전히 해결되지 않았으며, LLM의 본질에 대한 철학적 논의와 연결된다.
실전 교훈: CoT는 "어려운 문제"에만 사용해야 한다. 간단한 분류 태스크에 CoT를 적용하면 비용만 증가하고 성능은 변함없다. "이 태스크에 다단계 추론이 필요한가?"를 먼저 판단하는 것이 중요하다.
관련 논문: Zero-shot CoT, Self-Consistency, Tree of Thoughts, Least-to-Most, DeepSeek-R1