Chain-of-Thought Prompting

손아현·2025년 7월 23일

AI Paper Review

목록 보기

2/5

Chain-of-Thought Prompting

https://arxiv.org/abs/2201.11903

ABSTRACT

사고의 사슬(chain of thought)은 사고의 사슬 프롬프팅(chain-of-thought prompting)을 통해 구현한다
세 가지 대규모 언어 모델에 대한 실험을 통해 사고의 사슬 프롬프트가 다양한 산술, 상식 및 기호 추론 작업에서 성능을 향상시킨다는 것을 보여준다
- 사고의 사슬 예시 8개만으로 PaLM 540B를 프롬프트 → 수학 단어 문제의 GSM8K 벤치마크에서 SOTA 달성, 미세 조정된 GPT-3를 능가

1. INTRODUCTION

NLP의 최근 경향과 한계
- 모델의 크기를 확장 → 성능과 샘플 효율성 향상
- 그러나 모델 크기를 확장하는 것만으로는 산술, 상식, 기호 추론과 같은 어려운 과제에서는 높은 성능을 달성하기에 충분하지 않음.
기존에 LLM의 추론 능력을 활성화하는 방법과 그 한계
1. 근거를 추가한 학습 및 미세 조정 방법
  - 산수 문제를 풀 때, 중간 과정을 자연어로 설명
  - 모델이 중간 추론 단계를 생성하도록 처음부터 훈련하거나, 기존 모델을 미세 조정
  - 자연어 대신 수학적 또는 형식적 언어를 사용
  ⇒ But, 고품질 자료를 많이 필요로 하기 때문에 비용이 많이 들고 복잡
2. few-shot learning 프롬프트
  - 미세 조정하는 대신 작업을 보여주는 몇 가지 입력-출력 예시로 모델을 간단히 "프롬프팅" 가능
  - 특히, 간단한 질의응답 작업에서 좋은 성능 보임
  ⇒ But, 복잡한 추론이 필요한 작업에서는 효과적이지 않으며, 모델의 크기가 커지는 경우에도 성능 개선이 제한적
따라서 이 논문에서 제안하는 방식 - “chain-of-thought prompting”
- 앞선 두 방법의 장점을 결합하면서 단점은 피하는 방안
- 트리플로 구성된 프롬프트⟨입력, 생각의 사슬 , 출력⟩가 주어졌을 때 추론 작업에 대한 few-shot 프롬프트
- 생각의 사슬은 최종 출력으로 이어지는 일련의 중간 자연어 추론 단계
  
  ⇒ 이 접근 방식을 생각의 사슬 프롬프트 라고 함
  
  예시)
  [그림 1 : Chain-of-thought prompting의 예시. LLM이 복잡한 산술, 상식, 기호 추론 작업을 처리할 수 있도록 함. 하이라이트 된 부분이 Chain-of-thought 추론 프로세스에 해당됨.]
의의
- 산술(arithmetic), 상식(commonsense), 기호 추론 벤치마크(symbolic reasoning)에 대한 경험적 평가를 제시하여 표준 프롬프트(standard prompt)보다 성능이 뛰어남
- 수학 단어 문제의 GSM8K 벤치마크 - PaLM 540B를 사용한 생각의 사슬 프롬프팅이 표준 프롬프팅보다 훨씬 뛰어난 성능을 보이며, SOTA 달성
  
  [그림 2: PaLM 540B는 사고의 사슬을 사용하여 수학 단어 문제의 GSM8K 벤치마크에서 새로운 최첨단 성능을 달성합니다.]
- 프롬프트만을 사용하는 접근법이기 때문에, 큰 훈련 데이터셋이 필요하지 않음
- 하나의 모델이 다양한 작업을 수행 가능
- 몇 가지 예시와 함께 자연어 데이터를 통해 작업에 대해 학습할 수 있는 방법
  
  ⇒ 즉, 큰 훈련 데이터셋을 통해 입출력의 패턴을 자동으로 학습하는 것과 대비

2. Chain-of-Thought Prompting

복잡한 문제
- 수학 단어 문제와 같은 복잡한 추론 과제
- 이러한 복잡한 문제를 풀 때 나타나는 사고 과정을 고려
- 문제를 중간 단계로 분해하고 최종 답을 제시하기 전에 각 단계를 푸는 것이 일반적
- 이 논문의 목적은 언어 모델에도 이러한 단계적 사고와 유사한, 사고의 사슬을 생성할 수 있는 능력을 부여하는 것
- 사고의 사슬은 문제에 대한 최종 답으로 이어지는 일관된 일련의 중간 추론 단계
- 큰 언어 모델은 적절한 예시를 제공하면 생각의 사슬을 생성할 수 있음을 증명할 것
- 생각의 사슬은 단계별 사고 과정을 모방하는 것을 강조한다는 의미에서 생각의 사슬로 정의
언어 모델 추론에 유용한 여러 특징
1. 생각의 사슬은 복잡한 문제를 단계별로 분해 가능, 따라서 복잡한 문제의 각 단계마다 충분한 시간과 자원을 사용할 수 있음
2. 모델의 사고 과정을 설명하므로, 오류를 찾는 데(디버깅) 유용 (그러나 모델의 계산을 완벽하게 이해하는 것은 아직 해결되지 않음)
3. 수학 문제, 상식적 추론, 기호 조작과 같은 다양한 작업에 사용될 수 있으며, 인간이 언어를 통해 해결할 수 있는 모든 작업에 잠재적으로 적용될 수 있습니다(적어도 이론적으로는).
4. 큰 언어 모델에서 쉽게 구현 가능
  
  몇 가지 짧은 프롬프트의 예시에 사고의 연쇄 시퀀스의 예를 포함시키는 것만으로도 사고의 연쇄적 추론을 이끌어내는 것이 가능

⇒ 경험적 실험을 통해 “산술적 추론, 상식적 추론, 기호적 추론” 을 위한 사고의 사슬 프롬프트의 유용성을 관찰할 것입니다 .

3. Arithmetic Reasoning

언어모델의 산술 추론 능력
산술 추론은 인간에게는 간단하지만 언어 모델에겐 까다로운 task
540B 매개변수 언어 모델과 함께 사용할 때 생각의 사슬 프롬프트는 여러 작업에서 작업별 미세 조정 모델과 비슷한 성능
까다로운 GSM8K 벤치마크에서도 SOTA 달성

3.1 Experimental Setup

[그림 3: ⟨입력, 생각의 사슬, 출력⟩의 예. 산술, 상식, 기호 추론 벤치마크를 위한 트리플. 사고의 사슬이 강조 표시]

여러 벤치마크를 통해 다양한 언어 모델에 대한 사고의 사슬 프롬프트를 탐구함

Benchmarks.

5가지 수학 단어 문제 벤치마크를 고려

(1) 수학 단어 문제의 GSM8K 벤치마크 ( Cobbe et al.,2021)

(2) 다양한 구조를 갖는 수학 단어 문제의 SVAMP 데이터 세트 ( Patel et al.,2021)

(3) 다양한 수학 단어 문제의 ASDiv 데이터 세트 ( Miao et al.,2020)

(4) 대수 단어 문제의 AQuA 데이터 세트

(5) MAWPS 벤치마크 ( Koncel-Kedziorski et al.,2016) .

예제 문제는 부록 표 12

데이터 세트	N	예제 문제
GSM8K	1,319	조쉬는 집을 뒤집기로 결심합니다. 그는 8만 달러에 집을 사고 5만 달러를 수리에 투자합니다. 이로 인해 집의 가치가 150% 상승했습니다. 그는 얼마나 많은 이익을 냈습니까?
슈밤프	1,000	DVD 한 팩은 76달러입니다. 각 팩에 25달러 할인이 적용된다면, 각 팩을 사려면 얼마를 지불해야 합니까?
ASDiv	2,096	엘렌은 마린보다 공이 6개 더 많습니다. 마린은 공이 9개입니다. 엘렌은 공이 몇 개나 있습니까?
아쿠아	254	자동차가 직선으로 일정한 속도로 수직 타워 바닥을 향해 운전되고 있습니다. 자동차에서 타워 꼭대기를 관찰하고, 이 과정에서 고도 각도가 45 ∘ 에서 60 ∘ 로 바뀌는 데 10분이 걸립니다 . 이 자동차가 타워 바닥에 도착하는 데 얼마나 더 걸리겠습니까? 답 선택지: (a) 53+ 1 (나) 63+2(다) 73- 1(d) 83- 2(e) 이 중 어느 것도 아님
MAWPS: 싱글옵	562	상자에 병뚜껑이 7개 있고 린다가 병뚜껑을 7개 더 넣었다면, 상자에는 몇 개의 병뚜껑이 있을까요?
MAWPS: SingleEq	508	베니는 2달러에 청량음료와 사탕 5개를 샀습니다. 그는 총 27달러를 썼습니다. 사탕 한 개당 얼마였습니까?
MAWPS: AddSub	395	꽃병에는 장미가 6송이 있었습니다. 메리는 꽃밭에서 장미를 몇 송이 꺾었습니다. 이제 꽃병에는 장미가 16송이 있습니다. 그녀는 장미를 몇 송이 꺾었습니까?
MAWPS: 멀티아리스	600	학교 식당은 학생들의 점심으로 붉은 사과 42개와 녹색 사과 7개를 주문했습니다. 하지만 과일을 원하는 학생이 9명뿐이라면, 식당은 얼마나 더 많은 과일을 얻었을까요?

Standard prompting.

비교 기준선: Brown et al.에 의해 대중화된 표준 few-shot 프롬프팅
언어 모델은 테스트 시간 예제에 대한 예측을 출력하기 전에 입력-출력 쌍의 컨텍스트 내 예시를 제공합니다. 예시는 질문과 답변으로 형식화
그림 1 (왼쪽)

Chain-of-thought prompting.

몇 가지 샷 예시(few-shot exemplar)마다 연결된 사고 과정(chain of thought)을 추가하는 것
그림 1 (오른쪽)
연관된 답변에 대한 생각의 사슬로 few-shot 프롬프트의 각 예시를 증강
대부분의 데이터 세트에는 평가 분할만 있으므로 프롬프트를 위한 생각의 사슬이 있는 8개의 few-shot 예시 세트를 수동으로 구성
그림 1 (오른쪽)의 특정 예시는 프롬프트 엔지니어링을 거치지 않았습니다.
다양한 수학 단어 문제에서 성공적인 추론 유도 실험
- AQuA를 제외한 모든 벤치마크에 대해 8개의 연쇄 사고 과정 예시 세트 사용
- AQuA는 다지선다형 문제이기 때문에, 부록 표 21에 나와 있는 대로 훈련 세트에서 4개의 예시와 해답을 사용
[그림 1 : Chain-of-thought prompting의 예시. LLM이 복잡한 산술, 상식, 기호 추론 작업을 처리할 수 있도록 함. 하이라이트 된 부분이 Chain-of-thought 추론 프로세스에 해당됨.]

Language models.

다섯 가지 대규모 언어 모델을 평가
1. GPT-3 (Brown et al.,2020)
  
  ⇒ text-ada-001, text-babbage-001, text-curie-001 및 text-davinci-002를 사용하는데,
  이는 아마도 350M, 1.3B, 6.7B 및 175B 매개변수의 InstructGPT 모델에 해당하는 것으로 보임
2. LaMDA (Thoppilan et al.,2022)
  
  ⇒ 422M, 2B, 8B, 68B, 137B 파라미터 모델
  - 시드 간 큰 변동을 보이지 않았기 때문에, 계산 자원을 절약하기 위해 다른 모든 모델에 대해서는 단일 예시 순서의 결과만 보고
3. PaLM
  
  ⇒ 8B, 62B, 540B 파라미터 모델
4. UL2 20B
5. Codex
5개의 랜덤 시드에 대한 평균 결과를 보고
우리는 탐욕적 디코딩(greedy decoding)을 통해 모델에서 샘플링
- 하지만 후속 작업에서는 여러 샘플링 세대에 걸쳐 최종 답변을 다수로 취함으로써 사고의 사슬 프롬프트를 개선할 수 있음을 보여줍니다 (Wang et al.,2022년)

3.2 Results

그림 4 : 연쇄 사고 유도의 효과

작은 모델에서는 큰 효과 X
- 작은 규모의 모델이 유창하지만 비논리적인 사고 과정을 생성하여 표준 프롬프트보다 낮은 성능
- 약 100B 파라미터의 모델에서 사용될 때만 성능 향상
[그림 4: 사고의 사슬을 촉구하는 것은 대규모 언어 모델이 어려운 수학 문제를 풀 수 있게 해줍니다. 특히 사고의 사슬 추론은 모델 규모를 늘리는 새로운 능력입니다. 이전의 최고 수치는 Cobbe et al.에서 나왔습니다. ]
더 복잡한 문제에 대해 더 큰 성능 향상
- GSM8K(기준 성능이 가장 낮은 데이터 세트)의 경우 가장 큰 GPT 및 PaLM 모델에서 성능이 두 배 이상 향상
- MAWPS의 가장 쉬운 하위 집합인 SingleOp의 경우, 해결하는 데 단계가 하나뿐이어서 성능 향상이 부정적이거나 매우 미미
큰 모델들이 연쇄 사고 유도로 최고 성능에 도달하거나 근접
- GPT-3 175B와 PaLM 540B에 COT 한 것은 fine-tuning 한 성능과 유사
- PaLM 540B 모델이 여러 데이터셋(GSM8K, SVAMP 및 MAWPS)에서 새로운 최고 성능 기록 다른 두 데이터 세트인 AQuA와 ASDiv에서 사고의 사슬 프롬핑을 사용한 PaLM은 최신 상태의 2% 이내에 도달합니다(부록 표 2 ).

⇒ 해결해야 하는 단계가 여러 개인 경우 효과적, 따라서 큰 모델인 경우에 성능 확실

COT 효과 분석
- GSM8K에 대해 LaMDA 137B로 모델에서 생성된 chains of thought를 수동으로 검사
- 모델이 최종 정답을 반환한 50개의 무작위 예시 분석 → 대부분의 사고 과정이 논리적이었으며, 두 개의 예시만 우연히 정답에 도달했습니다.
- 틀린 답을 제공한 50개의 무작위 샘플을 무작위로 검사 → 46%의 사고 과정은 사소한 실수(계산기 오류, 기호 매핑 오류 또는 추론 단계 하나 누락)를 제외하고 거의 정확 → 나머지 54%는 의미적 이해 또는 일관성에 중대한 오류
스케일링이 COT 성능을 개선 시키는 이유 분석
- 모델의 크기를 키우면 오류가 줄어듦
- PaLM 62B에서 발생한 오류와 PaLM 540B로 스케일링하여 해당 오류가 수정되었는지 실험
- 요약하면, PaLM을 540B로 스케일링하면 62B 모델에서 한 단계 누락 및 의미 이해 오류의 상당 부분이 수정됩니다( 섹션 A.1 참조 ).

3.3 Ablation Study

사슬 사고 프롬핑을 사용하는 관찰된 이점이 효과를 다른 프롬프트 유형에서도 얻을 수 있는지 조사

그림 5에서 세 가지 다른 방법으로 실험한 결과

Equation only.

모델이 답을 제시하기 전에 방정식만 출력하도록 한 것
GSM8K에서는 방정식만 사용한 프롬프트가 큰 효과가 없었음
즉, GSM8K의 질문 의미론은 생각의 사슬에서 자연어 추론 단계 없이 방정식으로 바로 변환할 수 없음을 의미 → 문제의 의미를 이해하고 해석하는 과정이 필요
그러나 단계가 적은 문제의 경우 '오직 방정식만'이 성능을 향상 시킴
- 한두 단계로 해결할 수 있는 간단한 문제에서는 방정식만으로도 성능이 좋아짐
- 왜냐하면 방정식을 질문에서 쉽게 파생할 수 있기 때문

그림 5:[LaMDA 137B 및 PaLM 540B를 사용한 다양한 프롬프팅 변형에 대한 절제 연구. 다른 데이터 세트에 대한 결과는 부록 표 6]

Variable compute only.

더 어려운 문제에 더 많은 계산(즉, 중간 토큰)을 사용할 수 있게 하는 것
COT의 효과와 분리하기 위해, 필요한 문자 수만큼 점(...)을 출력하도록 모델을 설정
(…)은 문제를 해결하는 데 필요한 방정식의 문자 수와 동일
이 변형은 기준선과 거의 같은 성능

⇒ 이는 변수 계산 자체가 사고의 사슬 프롬프트의 성공 이유가 아님을 알 수 있음

⇒ 또한, 자연어로 중간 단계를 표현하는 것이 더 유용함

Chain of thought after answer.

기존에는 연쇄 사고를 사용하여 문제를 푼 후 → 답을 제시하기 때문에, 답을 내기 전에 연쇄 사고가 필요하지 않은지 확인
모델에게 답을 먼저 내고 나서 → 사고 과정을 설명하게 하는 방법을 사용
COT 프롬프트는 모델이 사전 학습에서 배운 지식을 더 잘 활용할 수 있게 함
단순히 이러한 프롬프트를 통해 모델이 사전 훈련 중에 습득한 관련 지식에 더 잘 접근할 수 있다
우리는 사고의 사슬 프롬프트가 답변 이후에만 주어지고, 모델이 실제로 최종 답변을 제공하기 위해 생성된 사고의 사슬에 의존하는지 여부를 분리하는 대체 구성을 테스트
이 변형은 기준선과 거의 같은 성능

⇒ COT는 학습된 것을 떠올리는 것만이 아니라, 논리적으로 문제를 해결하는 과정에서도 유용

3.4 Robustness of Chain of Thought

프롬프트 방법의 중요한 고려사항 중 하나는 예시(exemplar)에 대한 민감도
- 예시의 순서를 바꾸는 것만으로도 모델의 성능이 크게 달라짐
- 예를 들어, 소수 샷 예시의 순열을 변경하면 SST-2에서 GPT-3의 정확도가 거의 우연(54.3%)에서 거의 최신 기술(93.4%)까지 변동 가능
따라서 서로 다른 사람들이 작성한 연쇄 사고가 얼마나 강건한지(일관된 성능을 보이는지) 평가
- 위의 결과 외에도, Annotator A가 작성한 연쇄 사고를 사용하여, 이 논문의 두 명의 다른 공동 저자(Annotators B와 C)가 같은 몇 개의 샷 예시를 위해 독립적으로 연쇄 사고를 작성했습니다(부록 H에 나와 있음).
- 또한, Annotator A는 기존보다 더 간결한 스타일로 연쇄 사고를 작성
GSM8K 및 MAWPS에서 LaMDA 137B에 대한 결과 : 그림 6
다른 사람들이 작성한 연쇄 사고는 조금씩 차이가 있었지만, 그 어떤 방식이든 간에 모두 기본적인 방식(연쇄 사고를 사용하지 않은 경우)보다 훨씬 좋은 성능

⇒ 생각의 사슬을 성공적으로 사용하는 것이 특정 언어 스타일에 의존하지 않는다

[그림 6: 생각의 사슬을 촉구하는 방식은 예상대로 다양한 촉구 사례에 따라 차이가 있지만, 다양한 주석자 및 다양한 예시에 대해서는 표준 촉구 방식보다 더 나은 성과를 보입니다.]

다른 표본 세트에서도 효과적인지 확인
- 독립적인 소스인 GSM8K 훈련 세트에서
  무작위로 샘플링한 8개의 표본 세트 3개로 실험을 수행
- 그림 6에서 무작위 예시도 수동으로 작성한 예시들처럼 좋은 성능을 보임
- 다양한 변수들에도 불구하고 연쇄 사고 유도가 일관된 성능을 보인다는 것을 확인했습니다.
- 다양한 변수들에도 불구하고 연쇄 사고 유도가 일관된 성능을 보인다는 것을 확인했습니다. → 주석자에 대한 강건성 외에도, 독립적으로 작성된 연쇄 사고, 다른 예시, 다양한 언어 모델에 대해, 산술 추론을 위한 연쇄 사고 유도가 다양한 예시 순서와 예시 수에도 강건함

4. Commonsense Reasoning

사고의 사슬은 수학 단어 문제에 특히 적합
그러나 일반적인 배경 지식을 전제로 물리적 및 인간 상호 작용에 대한 추론 등 상식적 추론 문제에도 적용 가능
상식 추론은 세상과 상호 작용하기 위한 중요한 요소이지만, 자연어 이해 시스템이 아직 완벽히 해결하지 못한 영역

Benchmarks.

상식적 추론 유형을 포괄하는 5가지 데이터 세트를 고려
1. CSQA (Talmor et al.,2019)
  
  세상에 대한 상식적인 질문을 던지며, 이를 답하려면 복잡한 이해와 사전 지식이 필요
2. StrategyQA (Geva et al.,2021) 여러 단계로 나뉜 전략을 생각해서 답을 찾아야 하는 문제들
3. BIG-bench 프로젝트에서 두 가지 평가 세트를 선택
  1. Date Understanding : 문맥에서 날짜를 유추하는 문제
  2. Sports Understanding : 스포츠 관련 문장의 타당성을 판단하는 문제
4. SayCan : 자연어 명령을 로봇이 실행할 수 있는 행동으로 변환하는 문제

Prompts.

이전 섹션과 동일한 실험 설정

CSQA와 StrategyQA의 경우

→ 훈련 세트에서 무작위로 예를 선택

→ 수동으로 사고의 사슬을 구성하여 몇 가지 샷 예시로 사용
두 개의 BIG-bench 작업에는 훈련 세트가 없음

→ 처음 10개를 예로 삼고 나머지 데이터를 평가에 사용
SayCan

→ Ahn et al.에서 사용한 훈련 세트에서 6개의 예를 사용\

→ 또한 수동으로도 구성

Results.

PaLM 모델에 대한 (상식 추론) 결과: 그림 7
(LaMDA, GPT-3 및 다양한 모델 척도에 대한 전체 결과는 표 4 에 표시됨 ).
모델 크기를 키우면 성능이 좋아지고, 연쇄 사고 프롬프트를 사용하면 추가로 성능이 향상
특히, PaLM 540B 모델에서 가장 큰 성능 향상
- PaLM 540B 모델은 연쇄 사고 프롬프트로 StrategyQA에서 이전 최고 성능보다 더 좋은 결과를 냈습니다.
- 스포츠 관련 문제에서도 PaLM 540B 모델이 인간보다 더 나은 성과를 보였습니다.
  
  ⇒ 연쇄 사고 유도가 상식 추론 문제에서도 유용하다는 것을 보여주지만,
  
  ⇒ But, CSQA에서는 그 효과가 크지 않았음

그림 7: 생각의 사슬을 촉구하는 것은 또한 언어 모델의 상식적 추론 능력을 향상시킵니다. 여기에 표시된 언어 모델은 PaLM입니다. 이전의 최고 숫자는 CSQA (Talmor et al.,[2019](https://ar5iv.labs.arxiv.org/html/2201.11903#bib.bib64)) 및 StrategyQA (Geva et al.,[2021](https://ar5iv.labs.arxiv.org/html/2201.11903#bib.bib20)) (단일 모델만 해당, 2022년 5월 5일 기준). 다양한 크기의 LaMDA, GPT-3 및 PaLM을 사용한 추가 결과는 [표 4](https://ar5iv.labs.arxiv.org/html/2201.11903#A2.T4) 에 나와 있습니다 .

그림 7: 생각의 사슬을 촉구하는 것은 또한 언어 모델의 상식적 추론 능력을 향상시킵니다. 여기에 표시된 언어 모델은 PaLM입니다. 이전의 최고 숫자는 CSQA (Talmor et al.,2019) 및 StrategyQA (Geva et al.,2021) (단일 모델만 해당, 2022년 5월 5일 기준). 다양한 크기의 LaMDA, GPT-3 및 PaLM을 사용한 추가 결과는 표 4 에 나와 있습니다 .

5. Symbolic Reasoning

인간에게는 간단하지만 언어 모델에게는 도전적인 상징적 추론(symbolic reasoning)을 다룸
논리적인 규칙을 따르는 문제
chain-of-thought prompting를 사용하면 AI 모델이 더 잘 사고하고, 훈련 중에 보지 못한 새로운 문제도 잘 풀 수 있다
훈련 중에 보지 못한 더 긴 문제를 풀 때, 표준 프롬프트(단순히 답만 찾게 하는 방법)로는 잘 못 풀었지만, 연쇄 사고 유도를 사용하면 더 잘 풀 수 있음

Tasks.

두 가지 간단한 과제를 사용

마지막 글자 연결(Last letter concatenation).

이 작업은 모델에 이름의 단어의 마지막 글자를 연결하도록 요청
(예: "Amy Brown"). → “yn” ).
- 첫 글자 연결은 언어 모델이 생각의 연쇄 없이도 수행 가능함
- 그러나 마지막 글자 연결은 이보다 더 어려움
- 우리는 이름 인구 조사 데이터( https://namecensus.com/ ) 에서 상위 1,000개의 이름과 성에서 이름을 무작위로 연결하여 전체 이름을 생성
동전 던지기(Coin flip).

이 과제는 사람들이 동전을 던지거나/ 던지지 않은 후에도 동전이 여전히 앞면인지 모델에 답하도록 요구
(예: "동전이 앞면입니다. 피비가 동전을 던졌습니다. 오스발도는 동전을 던지지 않았습니다. 동전이 여전히 앞면인가요?" → "아니요" ).

이러한 상징적 추론 과제들은 명확히 정의되어 있음
(in-domain) 테스트 세트와 (out-of-domain) 테스트 세트 고려
- (in-domain) 각 과제에 대해 훈련/소수 샷 표본과 동일한 단계 수를 갖는 예제가 있는 도메인 내 테스트 세트
- (out-of-domain) (OOD) 평가 예제가 표본의 단계보다 많은 단계가 있는 도메인 외 테스트 세트
- OOD 예시:
  - 모델은 처음에는 두 단어로 된 이름만 보고 학습하고, 그 후에는 세 단어, 네 단어 이름의 마지막 글자 연결을 시도
  - 동전 던지기 문제도 뒤집는 횟수를 늘려가며 실험
실험 설정은 이전 두 섹션과 동일한 방법과 모델을 사용
그림 3 에 나와 있는 각 작업에 대한 소수 샷 표본에 대한 사고의 사슬을 다시 수동으로 구성

Results.

in-domain 및 OOD 평가의 결과는 PaLM에 대한 결과: 그림 8
LaMDA에 대한 결과: 부록 표 5
- PaLM 540B를 사용하면 사고의 사슬 프롬프트로 거의 100%의 해결률
- 표준 프롬프트로도 PaLM 540을 사용하여 동전 던지기를 이미 풀 수 있지만,
  LaMDA 137B의 경우는 그렇지 않음.
동일 도메인 문제 평가 (in-domain)
- 이미 해결 방법이 주어져 있어서, 모델이 해야 할 일은 새 문제에서 같은 방법을 사용하는 것
- 모든 모델은 테스트 시간 예제에서 새 기호로 동일한 단계를 반복하기만 하면 됨
- 그러나 작은 모델은 여전히 실패
  → 이 문제들을 해결하려면 모델이 매우 커야 함. (100B 모델 매개변수의 규모)
도메인 외 평가 (OOD)
- OOD 평가에서는 표준 프롬프트가 두 작업 모두(마지막 이름, 동전 던지기)에서 실패
- 연쇄 사고 프롬프트가 더 나은 결과
- 모델의 크기가 커질수록 성능이 더 좋아진다
- 그러나, in-domain 성능 보다는 낮음.

⇒ 따라서 사고의 사슬 프롬프트는 충분한 규모의 언어 모델에 대해, 훈련 중에 보지 못한 새로운 문제도 잘 풀 수 있다 (일반화에 용이하다)

그림 8: 사고의 연쇄를 사용하면 두 가지 상징적 추론 과제에서 더 긴 순서로 일반화하는 것이 용이해집니다.

6. Discussion

chain-of-thought prompting : 큰 언어 모델이 여러 단계로 생각하게 만드는 간단한 방법
산술 추론 실험 (arithmetic reasoning) - 섹션3
- 숫자 계산 문제에서 성능이 크게 향상됩니다.
- 다양한 조건(다른 사람의 설명, 예시, 언어 모델)에서도 안정적인 성능
상식 추론(commonsense reasoning) - 섹션4
- 언어 기반의 특성 때문에 상식적인 문제를 푸는 데도 효과적입니다.
기호적 추론(symbolic reasoning) - 섹션5
- 훈련되지 않은 더 긴 문제(즉, 훈련 데이터에서 보지 못한 복잡한 문제) 푸는 데도 효과적
모든 실험에서 사용된 언어 모델은 추가 학습 없이, 단순히 프롬프트만 제공하여 성능을 발휘 표준 프롬프트가 평평한 스케일링 곡선을 갖는 많은 추론 작업의 경우, 사고의 사슬 프롬프트는 스케일링 곡선을 극적으로 증가시킵니다.
모델의 크기가 커질수록 연쇄 사고 유도가 더 잘 작동
- 작은 모델에서는 효과가 미미
chain-of-thought 없이 기본 프롬프트만으로는 큰 언어 모델의 진짜 능력을 모두 보여주지 못함
모델 규모의 결과로 사고의 사슬 추론이 나타나는 것은 지배적인 주제였습니다 (Wei et al.,2022년 (b)) . 사고의 사슬 프롬프트는 대규모 언어 모델이 성공적으로 수행할 수 있는 작업 집합을 확장하는 것으로 보입니다. 다시 말해, 우리의 작업은 표준 프롬프트가 대규모 언어 모델의 기능에 대한 하한만 제공한다는 것을 강조합니다. 이 관찰은 답보다 더 많은 질문을 제기할 가능성이 높습니다.
제한사항
- 우리는 먼저 사고의 사슬이 인간 추론자의 사고 과정을 모방하지만, 이것이 신경망이 실제로 "추론"하고 있는지에 대한 답은 아니라는 점을 인정합니다. 이는 우리가 열린 질문으로 남겨둡니다.
- 둘째, 사고의 사슬로 예시를 수동으로 증강하는 비용은 few-shot 설정에서 최소이지만, 이러한 주석 비용은 미세 조정에 금지될 수 있습니다(하지만 이는 잠재적으로 합성 데이터 생성 또는 제로샷 일반화로 극복할 수 있음).
- 셋째, 올바른 추론 경로가 보장되지 않아 정답과 오답이 모두 나올 수 있습니다. 언어 모델의 사실적 생성을 개선하는 것은 향후 작업의 열린 방향입니다 (Rashkin et al.,2021; Ye와 Durrett,2022; Wiegreffe 등,2022, 그 외 ) .
- 마지막으로, 대규모 모델 규모에서만 생각의 사슬 추론이 등장하면서 실제 세계 애플리케이션에서 서비스하는 데 비용이 많이 듭니다. 추가 연구를 통해 더 작은 모델에서 추론을 유도하는 방법을 탐색할 수 있습니다.

7. Conclusions

COT prompting: 언어 모델에서 추론을 강화하기 위한 간단하고 광범위한 방법
산술적, 상징적, 상식적 추론에 대한 실험을 통해 COT가 모델 규모의 새로운 속성이며, 이를 통해 충분히 큰 언어 모델이 그렇지 않으면 평평한 스케일링 곡선을 갖는 추론 작업을 수행할 수 있다는 것을 발견
언어 모델이 수행할 수 있는 추론 작업의 범위를 넓히면 언어 기반 추론 접근 방식에 대한 추가 작업에 영감을 줄 수 있기를 바랍니다.

손아현

이전 포스트

LoRA

다음 포스트

Chain-of-Thought Prompting

AI Paper Review

Chain-of-Thought Prompting

ABSTRACT

1. INTRODUCTION

2. Chain-of-Thought Prompting

3. Arithmetic Reasoning

3.1 Experimental Setup

Benchmarks.

Standard prompting.

Chain-of-thought prompting.

Language models.

3.2 Results

3.3 Ablation Study

Equation only.

Variable compute only.

Chain of thought after answer.

3.4 Robustness of Chain of Thought

4. Commonsense Reasoning

Benchmarks.

Prompts.

Results.

5. Symbolic Reasoning

Tasks.

Results.

6. Discussion

7. Conclusions

LoRA

Alpaca

0개의 댓글