Chain-of-Thought Prompting
https://arxiv.org/abs/2201.11903
ABSTRACT
- 사고의 사슬(chain of thought)은 사고의 사슬 프롬프팅(chain-of-thought prompting)을 통해 구현한다
- 세 가지 대규모 언어 모델에 대한 실험을 통해 사고의 사슬 프롬프트가 다양한 산술, 상식 및 기호 추론 작업에서 성능을 향상시킨다는 것을 보여준다
- 사고의 사슬 예시 8개만으로 PaLM 540B를 프롬프트 → 수학 단어 문제의 GSM8K 벤치마크에서 SOTA 달성, 미세 조정된 GPT-3를 능가
1. INTRODUCTION
- NLP의 최근 경향과 한계
- 모델의 크기를 확장 → 성능과 샘플 효율성 향상
- 그러나 모델 크기를 확장하는 것만으로는 산술, 상식, 기호 추론과 같은 어려운 과제에서는 높은 성능을 달성하기에 충분하지 않음.
- 기존에 LLM의 추론 능력을 활성화하는 방법과 그 한계
-
근거를 추가한 학습 및 미세 조정 방법
- 산수 문제를 풀 때, 중간 과정을 자연어로 설명
- 모델이 중간 추론 단계를 생성하도록 처음부터 훈련하거나, 기존 모델을 미세 조정
- 자연어 대신 수학적 또는 형식적 언어를 사용
⇒ But, 고품질 자료를 많이 필요로 하기 때문에 비용이 많이 들고 복잡
-
few-shot learning 프롬프트
- 미세 조정하는 대신 작업을 보여주는 몇 가지 입력-출력 예시로 모델을 간단히 "프롬프팅" 가능
- 특히, 간단한 질의응답 작업에서 좋은 성능 보임
⇒ But, 복잡한 추론이 필요한 작업에서는 효과적이지 않으며, 모델의 크기가 커지는 경우에도 성능 개선이 제한적
- 따라서 이 논문에서 제안하는 방식 - “chain-of-thought prompting”
-
앞선 두 방법의 장점을 결합하면서 단점은 피하는 방안
-
트리플로 구성된 프롬프트⟨입력, 생각의 사슬 , 출력⟩가 주어졌을 때 추론 작업에 대한 few-shot 프롬프트
-
생각의 사슬은 최종 출력으로 이어지는 일련의 중간 자연어 추론 단계
⇒ 이 접근 방식을 생각의 사슬 프롬프트 라고 함
예시)
[그림 1 : Chain-of-thought prompting의 예시. LLM이 복잡한 산술, 상식, 기호 추론 작업을 처리할 수 있도록 함. 하이라이트 된 부분이 Chain-of-thought 추론 프로세스에 해당됨.]
- 의의
-
산술(arithmetic), 상식(commonsense), 기호 추론 벤치마크(symbolic reasoning)에 대한 경험적 평가를 제시하여 표준 프롬프트(standard prompt)보다 성능이 뛰어남
-
수학 단어 문제의 GSM8K 벤치마크 - PaLM 540B를 사용한 생각의 사슬 프롬프팅이 표준 프롬프팅보다 훨씬 뛰어난 성능을 보이며, SOTA 달성
[그림 2: PaLM 540B는 사고의 사슬을 사용하여 수학 단어 문제의 GSM8K 벤치마크에서 새로운 최첨단 성능을 달성합니다.]
-
프롬프트만을 사용하는 접근법이기 때문에, 큰 훈련 데이터셋이 필요하지 않음
-
하나의 모델이 다양한 작업을 수행 가능
-
몇 가지 예시와 함께 자연어 데이터를 통해 작업에 대해 학습할 수 있는 방법
⇒ 즉, 큰 훈련 데이터셋을 통해 입출력의 패턴을 자동으로 학습하는 것과 대비
2. Chain-of-Thought Prompting
- 복잡한 문제
- 수학 단어 문제와 같은 복잡한 추론 과제
- 이러한 복잡한 문제를 풀 때 나타나는 사고 과정을 고려
- 문제를 중간 단계로 분해하고 최종 답을 제시하기 전에 각 단계를 푸는 것이 일반적
- 이 논문의 목적은 언어 모델에도 이러한 단계적 사고와 유사한, 사고의 사슬을 생성할 수 있는 능력을 부여하는 것
- 사고의 사슬은 문제에 대한 최종 답으로 이어지는 일관된 일련의 중간 추론 단계
- 큰 언어 모델은 적절한 예시를 제공하면 생각의 사슬을 생성할 수 있음을 증명할 것
- 생각의 사슬은 단계별 사고 과정을 모방하는 것을 강조한다는 의미에서 생각의 사슬로 정의
- 언어 모델 추론에 유용한 여러 특징
-
생각의 사슬은 복잡한 문제를 단계별로 분해 가능, 따라서 복잡한 문제의 각 단계마다 충분한 시간과 자원을 사용할 수 있음
-
모델의 사고 과정을 설명하므로, 오류를 찾는 데(디버깅) 유용 (그러나 모델의 계산을 완벽하게 이해하는 것은 아직 해결되지 않음)
-
수학 문제, 상식적 추론, 기호 조작과 같은 다양한 작업에 사용될 수 있으며, 인간이 언어를 통해 해결할 수 있는 모든 작업에 잠재적으로 적용될 수 있습니다(적어도 이론적으로는).
-
큰 언어 모델에서 쉽게 구현 가능
몇 가지 짧은 프롬프트의 예시에 사고의 연쇄 시퀀스의 예를 포함시키는 것만으로도 사고의 연쇄적 추론을 이끌어내는 것이 가능
⇒ 경험적 실험을 통해 “산술적 추론, 상식적 추론, 기호적 추론” 을 위한 사고의 사슬 프롬프트의 유용성을 관찰할 것입니다 .
3. Arithmetic Reasoning
- 언어모델의 산술 추론 능력
- 산술 추론은 인간에게는 간단하지만 언어 모델에겐 까다로운 task
- 540B 매개변수 언어 모델과 함께 사용할 때 생각의 사슬 프롬프트는 여러 작업에서 작업별 미세 조정 모델과 비슷한 성능
- 까다로운 GSM8K 벤치마크에서도 SOTA 달성
3.1 Experimental Setup
[그림 3: ⟨입력, 생각의 사슬, 출력⟩의 예. 산술, 상식, 기호 추론 벤치마크를 위한 트리플. 사고의 사슬이 강조 표시]
여러 벤치마크를 통해 다양한 언어 모델에 대한 사고의 사슬 프롬프트를 탐구함
Benchmarks.
5가지 수학 단어 문제 벤치마크를 고려
(1) 수학 단어 문제의 GSM8K 벤치마크 ( Cobbe et al.,2021)
(2) 다양한 구조를 갖는 수학 단어 문제의 SVAMP 데이터 세트 ( Patel et al.,2021)
(3) 다양한 수학 단어 문제의 ASDiv 데이터 세트 ( Miao et al.,2020)
(4) 대수 단어 문제의 AQuA 데이터 세트
(5) MAWPS 벤치마크 ( Koncel-Kedziorski et al.,2016) .
- 예제 문제는 부록 표 12
| 데이터 세트 | N | 예제 문제 |
|---|
| GSM8K | 1,319 | 조쉬는 집을 뒤집기로 결심합니다. 그는 8만 달러에 집을 사고 5만 달러를 수리에 투자합니다. 이로 인해 집의 가치가 150% 상승했습니다. 그는 얼마나 많은 이익을 냈습니까? |
| 슈밤프 | 1,000 | DVD 한 팩은 76달러입니다. 각 팩에 25달러 할인이 적용된다면, 각 팩을 사려면 얼마를 지불해야 합니까? |
| ASDiv | 2,096 | 엘렌은 마린보다 공이 6개 더 많습니다. 마린은 공이 9개입니다. 엘렌은 공이 몇 개나 있습니까? |
| 아쿠아 | 254 | 자동차가 직선으로 일정한 속도로 수직 타워 바닥을 향해 운전되고 있습니다. 자동차에서 타워 꼭대기를 관찰하고, 이 과정에서 고도 각도가 45 ∘ 에서 60 ∘ 로 바뀌는 데 10분이 걸립니다 . 이 자동차가 타워 바닥에 도착하는 데 얼마나 더 걸리겠습니까? 답 선택지: (a) 53+ 1 (나) 63+2(다) 73- 1(d) 83- 2(e) 이 중 어느 것도 아님 |
| MAWPS: 싱글옵 | 562 | 상자에 병뚜껑이 7개 있고 린다가 병뚜껑을 7개 더 넣었다면, 상자에는 몇 개의 병뚜껑이 있을까요? |
| MAWPS: SingleEq | 508 | 베니는 2달러에 청량음료와 사탕 5개를 샀습니다. 그는 총 27달러를 썼습니다. 사탕 한 개당 얼마였습니까? |
| MAWPS: AddSub | 395 | 꽃병에는 장미가 6송이 있었습니다. 메리는 꽃밭에서 장미를 몇 송이 꺾었습니다. 이제 꽃병에는 장미가 16송이 있습니다. 그녀는 장미를 몇 송이 꺾었습니까? |
| MAWPS: 멀티아리스 | 600 | 학교 식당은 학생들의 점심으로 붉은 사과 42개와 녹색 사과 7개를 주문했습니다. 하지만 과일을 원하는 학생이 9명뿐이라면, 식당은 얼마나 더 많은 과일을 얻었을까요? |
Standard prompting.
- 비교 기준선: Brown et al.에 의해 대중화된 표준 few-shot 프롬프팅
- 언어 모델은 테스트 시간 예제에 대한 예측을 출력하기 전에 입력-출력 쌍의 컨텍스트 내 예시를 제공합니다. 예시는 질문과 답변으로 형식화
- 그림 1 (왼쪽)
Chain-of-thought prompting.
- 몇 가지 샷 예시(few-shot exemplar)마다 연결된 사고 과정(chain of thought)을 추가하는 것
- 그림 1 (오른쪽)
- 연관된 답변에 대한 생각의 사슬로 few-shot 프롬프트의 각 예시를 증강
- 대부분의 데이터 세트에는 평가 분할만 있으므로 프롬프트를 위한 생각의 사슬이 있는 8개의 few-shot 예시 세트를 수동으로 구성
- 그림 1 (오른쪽)의 특정 예시는 프롬프트 엔지니어링을 거치지 않았습니다.
- 다양한 수학 단어 문제에서 성공적인 추론 유도 실험
- AQuA를 제외한 모든 벤치마크에 대해 8개의 연쇄 사고 과정 예시 세트 사용
- AQuA는 다지선다형 문제이기 때문에, 부록 표 21에 나와 있는 대로 훈련 세트에서 4개의 예시와 해답을 사용
[그림 1 : Chain-of-thought prompting의 예시. LLM이 복잡한 산술, 상식, 기호 추론 작업을 처리할 수 있도록 함. 하이라이트 된 부분이 Chain-of-thought 추론 프로세스에 해당됨.]
Language models.
- 다섯 가지 대규모 언어 모델을 평가
-
GPT-3 (Brown et al.,2020)
⇒ text-ada-001, text-babbage-001, text-curie-001 및 text-davinci-002를 사용하는데,
이는 아마도 350M, 1.3B, 6.7B 및 175B 매개변수의 InstructGPT 모델에 해당하는 것으로 보임
-
LaMDA (Thoppilan et al.,2022)
⇒ 422M, 2B, 8B, 68B, 137B 파라미터 모델
- 시드 간 큰 변동을 보이지 않았기 때문에, 계산 자원을 절약하기 위해 다른 모든 모델에 대해서는 단일 예시 순서의 결과만 보고
-
PaLM
⇒ 8B, 62B, 540B 파라미터 모델
-
UL2 20B
-
Codex
- 5개의 랜덤 시드에 대한 평균 결과를 보고
- 우리는 탐욕적 디코딩(greedy decoding)을 통해 모델에서 샘플링
- 하지만 후속 작업에서는 여러 샘플링 세대에 걸쳐 최종 답변을 다수로 취함으로써 사고의 사슬 프롬프트를 개선할 수 있음을 보여줍니다 (Wang et al.,2022년)
3.2 Results
그림 4 : 연쇄 사고 유도의 효과
-
작은 모델에서는 큰 효과 X
- 작은 규모의 모델이 유창하지만 비논리적인 사고 과정을 생성하여 표준 프롬프트보다 낮은 성능
- 약 100B 파라미터의 모델에서 사용될 때만 성능 향상
[그림 4: 사고의 사슬을 촉구하는 것은 대규모 언어 모델이 어려운 수학 문제를 풀 수 있게 해줍니다. 특히 사고의 사슬 추론은 모델 규모를 늘리는 새로운 능력입니다. 이전의 최고 수치는 Cobbe et al.에서 나왔습니다. ]
-
더 복잡한 문제에 대해 더 큰 성능 향상
- GSM8K(기준 성능이 가장 낮은 데이터 세트)의 경우 가장 큰 GPT 및 PaLM 모델에서 성능이 두 배 이상 향상
- MAWPS의 가장 쉬운 하위 집합인 SingleOp의 경우, 해결하는 데 단계가 하나뿐이어서 성능 향상이 부정적이거나 매우 미미
-
큰 모델들이 연쇄 사고 유도로 최고 성능에 도달하거나 근접
- GPT-3 175B와 PaLM 540B에 COT 한 것은 fine-tuning 한 성능과 유사
- PaLM 540B 모델이 여러 데이터셋(GSM8K, SVAMP 및 MAWPS)에서 새로운 최고 성능 기록 다른 두 데이터 세트인 AQuA와 ASDiv에서 사고의 사슬 프롬핑을 사용한 PaLM은 최신 상태의 2% 이내에 도달합니다(부록 표 2 ).
⇒ 해결해야 하는 단계가 여러 개인 경우 효과적, 따라서 큰 모델인 경우에 성능 확실
- COT 효과 분석
- GSM8K에 대해 LaMDA 137B로 모델에서 생성된 chains of thought를 수동으로 검사
- 모델이 최종 정답을 반환한 50개의 무작위 예시 분석 → 대부분의 사고 과정이 논리적이었으며, 두 개의 예시만 우연히 정답에 도달했습니다.
- 틀린 답을 제공한 50개의 무작위 샘플을 무작위로 검사 → 46%의 사고 과정은 사소한 실수(계산기 오류, 기호 매핑 오류 또는 추론 단계 하나 누락)를 제외하고 거의 정확 → 나머지 54%는 의미적 이해 또는 일관성에 중대한 오류
- 스케일링이 COT 성능을 개선 시키는 이유 분석
- 모델의 크기를 키우면 오류가 줄어듦
- PaLM 62B에서 발생한 오류와 PaLM 540B로 스케일링하여 해당 오류가 수정되었는지 실험
- 요약하면, PaLM을 540B로 스케일링하면 62B 모델에서 한 단계 누락 및 의미 이해 오류의 상당 부분이 수정됩니다( 섹션 A.1 참조 ).
3.3 Ablation Study
사슬 사고 프롬핑을 사용하는 관찰된 이점이 효과를 다른 프롬프트 유형에서도 얻을 수 있는지 조사
그림 5에서 세 가지 다른 방법으로 실험한 결과
Equation only.
- 모델이 답을 제시하기 전에 방정식만 출력하도록 한 것
- GSM8K에서는 방정식만 사용한 프롬프트가 큰 효과가 없었음
- 즉, GSM8K의 질문 의미론은 생각의 사슬에서 자연어 추론 단계 없이 방정식으로 바로 변환할 수 없음을 의미 → 문제의 의미를 이해하고 해석하는 과정이 필요
- 그러나 단계가 적은 문제의 경우 '오직 방정식만'이 성능을 향상 시킴
- 한두 단계로 해결할 수 있는 간단한 문제에서는 방정식만으로도 성능이 좋아짐
- 왜냐하면 방정식을 질문에서 쉽게 파생할 수 있기 때문
그림 5:[LaMDA 137B 및 PaLM 540B를 사용한 다양한 프롬프팅 변형에 대한 절제 연구. 다른 데이터 세트에 대한 결과는 부록 표 6]
Variable compute only.
- 더 어려운 문제에 더 많은 계산(즉, 중간 토큰)을 사용할 수 있게 하는 것
- COT의 효과와 분리하기 위해, 필요한 문자 수만큼 점(...)을 출력하도록 모델을 설정
- (…)은 문제를 해결하는 데 필요한 방정식의 문자 수와 동일
- 이 변형은 기준선과 거의 같은 성능
⇒ 이는 변수 계산 자체가 사고의 사슬 프롬프트의 성공 이유가 아님을 알 수 있음
⇒ 또한, 자연어로 중간 단계를 표현하는 것이 더 유용함
Chain of thought after answer.
- 기존에는 연쇄 사고를 사용하여 문제를 푼 후 → 답을 제시하기 때문에, 답을 내기 전에 연쇄 사고가 필요하지 않은지 확인
- 모델에게 답을 먼저 내고 나서 → 사고 과정을 설명하게 하는 방법을 사용
- COT 프롬프트는 모델이 사전 학습에서 배운 지식을 더 잘 활용할 수 있게 함
- 단순히 이러한 프롬프트를 통해 모델이 사전 훈련 중에 습득한 관련 지식에 더 잘 접근할 수 있다
- 우리는 사고의 사슬 프롬프트가 답변 이후에만 주어지고, 모델이 실제로 최종 답변을 제공하기 위해 생성된 사고의 사슬에 의존하는지 여부를 분리하는 대체 구성을 테스트
- 이 변형은 기준선과 거의 같은 성능
⇒ COT는 학습된 것을 떠올리는 것만이 아니라, 논리적으로 문제를 해결하는 과정에서도 유용
3.4 Robustness of Chain of Thought
- 프롬프트 방법의 중요한 고려사항 중 하나는 예시(exemplar)에 대한 민감도
- 예시의 순서를 바꾸는 것만으로도 모델의 성능이 크게 달라짐
- 예를 들어, 소수 샷 예시의 순열을 변경하면 SST-2에서 GPT-3의 정확도가 거의 우연(54.3%)에서 거의 최신 기술(93.4%)까지 변동 가능
- 따라서 서로 다른 사람들이 작성한 연쇄 사고가 얼마나 강건한지(일관된 성능을 보이는지) 평가
- 위의 결과 외에도, Annotator A가 작성한 연쇄 사고를 사용하여, 이 논문의 두 명의 다른 공동 저자(Annotators B와 C)가 같은 몇 개의 샷 예시를 위해 독립적으로 연쇄 사고를 작성했습니다(부록 H에 나와 있음).
- 또한, Annotator A는 기존보다 더 간결한 스타일로 연쇄 사고를 작성
- GSM8K 및 MAWPS에서 LaMDA 137B에 대한 결과 : 그림 6
- 다른 사람들이 작성한 연쇄 사고는 조금씩 차이가 있었지만, 그 어떤 방식이든 간에 모두 기본적인 방식(연쇄 사고를 사용하지 않은 경우)보다 훨씬 좋은 성능
⇒ 생각의 사슬을 성공적으로 사용하는 것이 특정 언어 스타일에 의존하지 않는다
[그림 6: 생각의 사슬을 촉구하는 방식은 예상대로 다양한 촉구 사례에 따라 차이가 있지만, 다양한 주석자 및 다양한 예시에 대해서는 표준 촉구 방식보다 더 나은 성과를 보입니다.]
- 다른 표본 세트에서도 효과적인지 확인
- 독립적인 소스인 GSM8K 훈련 세트에서
무작위로 샘플링한 8개의 표본 세트 3개로 실험을 수행
- 그림 6에서 무작위 예시도 수동으로 작성한 예시들처럼 좋은 성능을 보임
- 다양한 변수들에도 불구하고 연쇄 사고 유도가 일관된 성능을 보인다는 것을 확인했습니다.
- 다양한 변수들에도 불구하고 연쇄 사고 유도가 일관된 성능을 보인다는 것을 확인했습니다. → 주석자에 대한 강건성 외에도, 독립적으로 작성된 연쇄 사고, 다른 예시, 다양한 언어 모델에 대해, 산술 추론을 위한 연쇄 사고 유도가 다양한 예시 순서와 예시 수에도 강건함
4. Commonsense Reasoning
- 사고의 사슬은 수학 단어 문제에 특히 적합
- 그러나 일반적인 배경 지식을 전제로 물리적 및 인간 상호 작용에 대한 추론 등 상식적 추론 문제에도 적용 가능
- 상식 추론은 세상과 상호 작용하기 위한 중요한 요소이지만, 자연어 이해 시스템이 아직 완벽히 해결하지 못한 영역
Benchmarks.
- 상식적 추론 유형을 포괄하는 5가지 데이터 세트를 고려
-
CSQA (Talmor et al.,2019)
세상에 대한 상식적인 질문을 던지며, 이를 답하려면 복잡한 이해와 사전 지식이 필요
-
StrategyQA (Geva et al.,2021) 여러 단계로 나뉜 전략을 생각해서 답을 찾아야 하는 문제들
-
BIG-bench 프로젝트에서 두 가지 평가 세트를 선택
- Date Understanding : 문맥에서 날짜를 유추하는 문제
- Sports Understanding : 스포츠 관련 문장의 타당성을 판단하는 문제
-
SayCan : 자연어 명령을 로봇이 실행할 수 있는 행동으로 변환하는 문제
Prompts.
-
CSQA와 StrategyQA의 경우
→ 훈련 세트에서 무작위로 예를 선택
→ 수동으로 사고의 사슬을 구성하여 몇 가지 샷 예시로 사용
-
두 개의 BIG-bench 작업에는 훈련 세트가 없음
→ 처음 10개를 예로 삼고 나머지 데이터를 평가에 사용
-
SayCan
→ Ahn et al.에서 사용한 훈련 세트에서 6개의 예를 사용\
→ 또한 수동으로도 구성
Results.
- PaLM 모델에 대한 (상식 추론) 결과: 그림 7
- (LaMDA, GPT-3 및 다양한 모델 척도에 대한 전체 결과는 표 4 에 표시됨 ).
- 모델 크기를 키우면 성능이 좋아지고, 연쇄 사고 프롬프트를 사용하면 추가로 성능이 향상
- 특히, PaLM 540B 모델에서 가장 큰 성능 향상
-
PaLM 540B 모델은 연쇄 사고 프롬프트로 StrategyQA에서 이전 최고 성능보다 더 좋은 결과를 냈습니다.
-
스포츠 관련 문제에서도 PaLM 540B 모델이 인간보다 더 나은 성과를 보였습니다.
⇒ 연쇄 사고 유도가 상식 추론 문제에서도 유용하다는 것을 보여주지만,
⇒ But, CSQA에서는 그 효과가 크지 않았음
) 및 StrategyQA (Geva et al.,[2021](https://ar5iv.labs.arxiv.org/html/2201.11903#bib.bib20)) (단일 모델만 해당, 2022년 5월 5일 기준). 다양한 크기의 LaMDA, GPT-3 및 PaLM을 사용한 추가 결과는 [표 4](https://ar5iv.labs.arxiv.org/html/2201.11903#A2.T4) 에 나와 있습니다 .](https://prod-files-secure.s3.us-west-2.amazonaws.com/f71b219d-0f91-4412-a236-3d8f7ca2589a/1939d5a1-afa1-4c9b-9b75-be781863ad35/image.png)
그림 7: 생각의 사슬을 촉구하는 것은 또한 언어 모델의 상식적 추론 능력을 향상시킵니다. 여기에 표시된 언어 모델은 PaLM입니다. 이전의 최고 숫자는 CSQA (Talmor et al.,2019) 및 StrategyQA (Geva et al.,2021) (단일 모델만 해당, 2022년 5월 5일 기준). 다양한 크기의 LaMDA, GPT-3 및 PaLM을 사용한 추가 결과는 표 4 에 나와 있습니다 .
5. Symbolic Reasoning
- 인간에게는 간단하지만 언어 모델에게는 도전적인 상징적 추론(symbolic reasoning)을 다룸
- 논리적인 규칙을 따르는 문제
- chain-of-thought prompting를 사용하면 AI 모델이 더 잘 사고하고, 훈련 중에 보지 못한 새로운 문제도 잘 풀 수 있다
- 훈련 중에 보지 못한 더 긴 문제를 풀 때, 표준 프롬프트(단순히 답만 찾게 하는 방법)로는 잘 못 풀었지만, 연쇄 사고 유도를 사용하면 더 잘 풀 수 있음
Tasks.
두 가지 간단한 과제를 사용
-
마지막 글자 연결(Last letter concatenation).
이 작업은 모델에 이름의 단어의 마지막 글자를 연결하도록 요청
(예: "Amy Brown"). → “yn” ).
-
동전 던지기(Coin flip).
이 과제는 사람들이 동전을 던지거나/ 던지지 않은 후에도 동전이 여전히 앞면인지 모델에 답하도록 요구
(예: "동전이 앞면입니다. 피비가 동전을 던졌습니다. 오스발도는 동전을 던지지 않았습니다. 동전이 여전히 앞면인가요?" → "아니요" ).
- 이러한 상징적 추론 과제들은 명확히 정의되어 있음
- (in-domain) 테스트 세트와 (out-of-domain) 테스트 세트 고려
- (in-domain) 각 과제에 대해 훈련/소수 샷 표본과 동일한 단계 수를 갖는 예제가 있는 도메인 내 테스트 세트
- (out-of-domain) (OOD) 평가 예제가 표본의 단계보다 많은 단계가 있는 도메인 외 테스트 세트
- OOD 예시:
- 모델은 처음에는 두 단어로 된 이름만 보고 학습하고, 그 후에는 세 단어, 네 단어 이름의 마지막 글자 연결을 시도
- 동전 던지기 문제도 뒤집는 횟수를 늘려가며 실험
- 실험 설정은 이전 두 섹션과 동일한 방법과 모델을 사용
- 그림 3 에 나와 있는 각 작업에 대한 소수 샷 표본에 대한 사고의 사슬을 다시 수동으로 구성

Results.
- in-domain 및 OOD 평가의 결과는 PaLM에 대한 결과: 그림 8
- LaMDA에 대한 결과: 부록 표 5
- PaLM 540B를 사용하면 사고의 사슬 프롬프트로 거의 100%의 해결률
- 표준 프롬프트로도 PaLM 540을 사용하여 동전 던지기를 이미 풀 수 있지만,
LaMDA 137B의 경우는 그렇지 않음.
- 동일 도메인 문제 평가 (in-domain)
- 이미 해결 방법이 주어져 있어서, 모델이 해야 할 일은 새 문제에서 같은 방법을 사용하는 것
- 모든 모델은 테스트 시간 예제에서 새 기호로 동일한 단계를 반복하기만 하면 됨
- 그러나 작은 모델은 여전히 실패
→ 이 문제들을 해결하려면 모델이 매우 커야 함. (100B 모델 매개변수의 규모)
- 도메인 외 평가 (OOD)
- OOD 평가에서는 표준 프롬프트가 두 작업 모두(마지막 이름, 동전 던지기)에서 실패
- 연쇄 사고 프롬프트가 더 나은 결과
- 모델의 크기가 커질수록 성능이 더 좋아진다
- 그러나, in-domain 성능 보다는 낮음.
⇒ 따라서 사고의 사슬 프롬프트는 충분한 규모의 언어 모델에 대해, 훈련 중에 보지 못한 새로운 문제도 잘 풀 수 있다 (일반화에 용이하다)

그림 8: 사고의 연쇄를 사용하면 두 가지 상징적 추론 과제에서 더 긴 순서로 일반화하는 것이 용이해집니다.
6. Discussion
- chain-of-thought prompting : 큰 언어 모델이 여러 단계로 생각하게 만드는 간단한 방법
- 산술 추론 실험 (arithmetic reasoning) - 섹션3
- 숫자 계산 문제에서 성능이 크게 향상됩니다.
- 다양한 조건(다른 사람의 설명, 예시, 언어 모델)에서도 안정적인 성능
- 상식 추론(commonsense reasoning) - 섹션4
- 언어 기반의 특성 때문에 상식적인 문제를 푸는 데도 효과적입니다.
- 기호적 추론(symbolic reasoning) - 섹션5
- 훈련되지 않은 더 긴 문제(즉, 훈련 데이터에서 보지 못한 복잡한 문제) 푸는 데도 효과적
- 모든 실험에서 사용된 언어 모델은 추가 학습 없이, 단순히 프롬프트만 제공하여 성능을 발휘 표준 프롬프트가 평평한 스케일링 곡선을 갖는 많은 추론 작업의 경우, 사고의 사슬 프롬프트는 스케일링 곡선을 극적으로 증가시킵니다.
- 모델의 크기가 커질수록 연쇄 사고 유도가 더 잘 작동
- chain-of-thought 없이 기본 프롬프트만으로는 큰 언어 모델의 진짜 능력을 모두 보여주지 못함
- 모델 규모의 결과로 사고의 사슬 추론이 나타나는 것은 지배적인 주제였습니다 (Wei et al.,2022년 (b)) . 사고의 사슬 프롬프트는 대규모 언어 모델이 성공적으로 수행할 수 있는 작업 집합을 확장하는 것으로 보입니다. 다시 말해, 우리의 작업은 표준 프롬프트가 대규모 언어 모델의 기능에 대한 하한만 제공한다는 것을 강조합니다. 이 관찰은 답보다 더 많은 질문을 제기할 가능성이 높습니다.
- 제한사항
- 우리는 먼저 사고의 사슬이 인간 추론자의 사고 과정을 모방하지만, 이것이 신경망이 실제로 "추론"하고 있는지에 대한 답은 아니라는 점을 인정합니다. 이는 우리가 열린 질문으로 남겨둡니다.
- 둘째, 사고의 사슬로 예시를 수동으로 증강하는 비용은 few-shot 설정에서 최소이지만, 이러한 주석 비용은 미세 조정에 금지될 수 있습니다(하지만 이는 잠재적으로 합성 데이터 생성 또는 제로샷 일반화로 극복할 수 있음).
- 셋째, 올바른 추론 경로가 보장되지 않아 정답과 오답이 모두 나올 수 있습니다. 언어 모델의 사실적 생성을 개선하는 것은 향후 작업의 열린 방향입니다 (Rashkin et al.,2021; Ye와 Durrett,2022; Wiegreffe 등,2022, 그 외 ) .
- 마지막으로, 대규모 모델 규모에서만 생각의 사슬 추론이 등장하면서 실제 세계 애플리케이션에서 서비스하는 데 비용이 많이 듭니다. 추가 연구를 통해 더 작은 모델에서 추론을 유도하는 방법을 탐색할 수 있습니다.
7. Conclusions
- COT prompting: 언어 모델에서 추론을 강화하기 위한 간단하고 광범위한 방법
- 산술적, 상징적, 상식적 추론에 대한 실험을 통해 COT가 모델 규모의 새로운 속성이며, 이를 통해 충분히 큰 언어 모델이 그렇지 않으면 평평한 스케일링 곡선을 갖는 추론 작업을 수행할 수 있다는 것을 발견
- 언어 모델이 수행할 수 있는 추론 작업의 범위를 넓히면 언어 기반 추론 접근 방식에 대한 추가 작업에 영감을 줄 수 있기를 바랍니다.