[๐Ÿ“–๋…ผ๋ฌธ ๋ฆฌ๋ทฐ] Chain-of-Thought Prompting Elicits Reasoning in Large Language Models (2022)

Becky's Study Labยท2024๋…„ 12์›” 9์ผ
0

PaperReview

๋ชฉ๋ก ๋ณด๊ธฐ
24/24

์ตœ๊ทผ์— Prompting, Chain-of-Thought๋ฅผ ํ™œ์šฉํ•œ Few-shot reasoning์„ ํ†ตํ•œ ๋…ผ๋ฌธ์„ ๋‚ด๋ ค๊ณ  ์ž‘์—…ํ•˜๊ณ  ์žˆ๋‹ค. ๊ทธ๋Ÿฌ๋ฉด์„œ ์ œ๋Œ€๋กœ ๊ผผ๊ผผํžˆ ์ฝ์œผ๋ ค๊ณ  ๋ณด๊ณ  ์žˆ๊ณ , ์ •๋ฆฌํ•ด ๋ณด์•˜๋‹ค.

๋ณธ ๋…ผ๋ฌธ์€ NeurIPS 2022 Main Conference Track์— publish ๋œ ๋…ผ๋ฌธ์œผ๋กœ ์•„๋งˆ ๋งŽ์€ ๋ถ„๋“ค์ด CoT๋ผ๊ณ  ์•Œ๊ณ  ์žˆ๋Š” ๋…ผ๋ฌธ์ด๋‹ค.

โœ’๏ธChain-of-Thought Prompting Elicits Reasoning in Large Language Models(โญNeurIPS-2022-Main)

43ํŽ˜์ด์ง€๊ฐ€ ๋˜๋Š” Appendix๊นŒ์ง€ ๋งค์šฐ ์ž์„ธํ•˜๊ฒŒ ์ •๋ฆฌ๋œ ๋…ผ๋ฌธ์œผ๋กœ์„œ ๊ณต๋ถ€ํ•˜๋Š” ๋ถ„๋“ค์€ ํ•˜๋‚˜ํ•˜๋‚˜ ๋ฒˆ์—ญํ•˜๋ฉด์„œ ๋๊นŒ์ง€ ์ฝ์–ด๋ณด๊ธธ ์ถ”์ฒœํ•œ๋‹ค. ํŠนํžˆ Appendix์— ์‹ค์ œ๋กœ ์–ด๋–ป๊ฒŒ few-shot exampler text(์œ„์˜ ๊ทธ๋ฆผ์—์„œ ํŒŒ๋ž‘์ƒ‰ ๋ถ€๋ถ„)์„ ๊ตฌ์„ฑํ–ˆ๋Š”์ง€ ๋‹ค ๊ณต๊ฐœํ•ด์„œ ์ •๋ง ์ข‹์•˜๋‹ค.


Abstract

[์ฃผ์š” ๋ฐฉ๋ฒ•๋ก ] Chain of Thought (CoT)

  • ์ค‘๊ฐ„ ์ถ”๋ก  ๋‹จ๊ณ„๋ฅผ ์ œ๊ณตํ•ด few-shot inference ์‹œ ์ถ”๋ก ์˜ ๋ฐฉํ–ฅ์„ฑ์„ ๊ฐ„์ ‘์ ์œผ๋กœ ์ „๋‹ฌํ•˜๋Š” ๋ฐฉ์‹์œผ๋กœ, ๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ์˜ ๋ณต์žกํ•œ ์ถ”๋ก  ๋Šฅ๋ ฅ์„ ํฌ๊ฒŒ ํ–ฅ์ƒ.
  • ๋ช‡ ๊ฐœ์˜ Chain of Thought ์˜ˆ์ œ ํ…์ŠคํŠธ์ธ "Exemplars"๋ฅผ ํ”„๋กฌํ”„ํŠธ์— ์ œ๊ณตํ•˜์—ฌ ๋ชจ๋ธ์˜ ์ถ”๋ก  ๋Šฅ๋ ฅ์„ ๊ฐ•ํ™”

[์‹คํ—˜ ๊ฒฐ๊ณผ]

  1. ์„ธ ๊ฐ€์ง€ ๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ์—์„œ ์‹คํ—˜ ์ง„ํ–‰ : GPT-3(InstructGPT) - [350M, 1.3B, 6.7B, 175B]
  2. Chain of Thought Prompting์ด Arithmetic Reasoning, Commonsense Reasoning, Symbolic Reasoning ์ž‘์—…์—์„œ ์„ฑ๋Šฅ ํ–ฅ์ƒ์„ ๋ณด์ž„
  3. ์—ฌ๋Ÿฌ Benchmark์—์„œ Stardard Prompt๋ฅผ ๋Šฅ๊ฐ€ํ•จ
    • PaLM 540B ๋ชจ๋ธ์— 8๊ฐœ์˜ ์ฒด์ธ ์˜ค๋ธŒ ์˜ํŠธ ์˜ˆ์ œ๋ฅผ ํ”„๋กฌํ”„ํŒ…์œผ๋กœ ์ œ๊ณต
    • ์ˆ˜ํ•™ ๋‹จ์–ด ๋ฌธ์ œ(GSM8K) ๋ฒค์น˜๋งˆํฌ์—์„œ ์ตœ์‹  ์„ฑ๋Šฅ(SOTA)์„ ๋‹ฌ์„ฑ
    • Fine-tuned GPT-3 with a verifier๋ฅผ ๋Šฅ๊ฐ€ํ•˜๋Š” ์ •ํ™•๋„

Chain-of-Thought Prompting : ใ€ˆinput, chain of thought, output>

์œ„์˜ ํ•˜์ด๋ผ์ดํŠธ๋œ ๋ถ€๋ถ„์ด chain of thought์— ํ•ด๋‹น๋˜๋Š” prompt text์ด๋‹ค. ์œ„์™€ ๊ฐ™์€ ํ…์ŠคํŠธ๋“ค์€ ๋ชจ๋ธ์ด ์ถ”๋ก ํ•˜๋Š” ๊ณผ์ •์—์„œ ๊ทธ ์ถ”๋ก  ๊ณผ์ •์„ ์œ ๋„ํ•˜๋„๋ก ํ•˜๋Š” ์—ญํ• ์„ ํ•˜๊ณ  ์žˆ๋‹ค.

Chain-of-Thought ํ”„๋กฌํ”„ํŠธ์˜ ์ฃผ์š” ํŠน์ง• ๋ฐ ์žฅ์ 

1. ๋ณต์žกํ•œ ๋ฌธ์ œ๋ฅผ ์ค‘๊ฐ„ ๋‹จ๊ณ„๋กœ ๋ถ„ํ•ด ๊ฐ€๋Šฅ
์ฒด์ธ ์˜ค๋ธŒ ์†ŒํŠธ๋Š” ๋‹ค๋‹จ๊ณ„ ๋ฌธ์ œ๋ฅผ ์ค‘๊ฐ„ ๋‹จ๊ณ„๋กœ ๋ถ„ํ•ดํ•˜๋„๋ก ๋ชจ๋ธ์„ ์œ ๋„ํ•ฉ๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ์ถ”๊ฐ€์ ์ธ ๊ณ„์‚ฐ ๋ฆฌ์†Œ์Šค๋ฅผ ํ• ๋‹นํ•˜์—ฌ ๋” ๋ณต์žกํ•œ ์ถ”๋ก ์ด ํ•„์š”ํ•œ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
2. ๋ชจ๋ธ์˜ ํ–‰๋™์„ ํ•ด์„ํ•  ์ˆ˜ ์žˆ๋Š” ์ฐฝ ์ œ๊ณต
์ฒด์ธ ์˜ค๋ธŒ ์†ŒํŠธ๋Š” ๋ชจ๋ธ์ด ํŠน์ • ๋‹ต์— ๋„๋‹ฌํ•œ ๊ฒฝ๋กœ๋ฅผ ํ•ด์„ํ•  ์ˆ˜ ์žˆ๊ฒŒ ํ•ด์ค๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ์ถ”๋ก  ๊ณผ์ •์—์„œ ์–ด๋””์„œ ์˜ค๋ฅ˜๊ฐ€ ๋ฐœ์ƒํ–ˆ๋Š”์ง€ ๋””๋ฒ„๊น…ํ•  ์ˆ˜ ์žˆ๋Š” ๊ธฐํšŒ๋ฅผ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค. (๋‹ค๋งŒ, ๋ชจ๋ธ์˜ ๊ณ„์‚ฐ ๊ณผ์ •์„ ์™„์ „ํžˆ ํŠน์„ฑํ™”ํ•˜๋Š” ๊ฒƒ์€ ์—ฌ์ „ํžˆ ํ•ด๊ฒฐ๋˜์ง€ ์•Š์€ ๊ณผ์ œ์ž…๋‹ˆ๋‹ค.)
3. ๋‹ค์–‘ํ•œ ์ž‘์—…์— ์ ์šฉ ๊ฐ€๋Šฅ
์ฒด์ธ ์˜ค๋ธŒ ์†ŒํŠธ ์ถ”๋ก ์€ ์ˆ˜ํ•™ ๋ฌธ์ œ, ์ƒ์‹์  ์ถ”๋ก , ์‹ฌ๋ณผ๋ฆญ ์กฐ์ž‘๊ณผ ๊ฐ™์€ ์ž‘์—…์— ์‚ฌ์šฉํ•  ์ˆ˜ ์žˆ์œผ๋ฉฐ, ์›์น™์ ์œผ๋กœ ์ธ๊ฐ„์ด ์–ธ์–ด๋กœ ํ•ด๊ฒฐํ•  ์ˆ˜ ์žˆ๋Š” ๋ชจ๋“  ์ž‘์—…์— ์ ์šฉํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
4. ๋Œ€ํ˜• ์–ธ์–ด ๋ชจ๋ธ์—์„œ ๊ฐ„๋‹จํžˆ ํ™œ์šฉ ๊ฐ€๋Šฅ
์ถฉ๋ถ„ํžˆ ํฐ ํฌ๊ธฐ์˜ ๊ธฐ์กด ์–ธ์–ด ๋ชจ๋ธ์— ์ฒด์ธ ์˜ค๋ธŒ ์†ŒํŠธ ์˜ˆ์ œ๋ฅผ ํฌํ•จ์‹œํ‚ค๋Š” ๊ฒƒ๋งŒ์œผ๋กœ ์ด๋Ÿฌํ•œ ์ถ”๋ก  ๋Šฅ๋ ฅ์„ ์‰ฝ๊ฒŒ ์œ ๋„ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.


Arithmetic Reasoning

Benchmark

๋‹ค ๊ธฐ๋ณธ์ ์ด ์ถ”๋ก ์„ ํ•„์š”๋กœํ•˜๋Š” ์‚ฐ์ˆ  ๋ฌธ์ œ ๋Œ€ํ•œ ๋‹ต์ด ์žˆ๋Š” ๋ฐ์ดํ„ฐ์…‹์ด๋‹ค.

1) GSM8K

2) SVAMP

3) ASDiv
4) MAWPS
5) AQuA

Standard prompting & Chain-of-thought prompting

์‚ฐ์ˆ ์ถ”๋ก  Task์— CoT๋ฅผ ์ ์šฉํ•ด ์‹คํ—˜ํ•˜์˜€๊ณ , SoTA ๋‹ฌ์„ฑ์„ ํ•  ์ˆ˜ ์žˆ์—ˆ๋‹ค.๋…ผ๋ฌธ์—์„œ๋Š” Few-Shot Prompt๋ฅผ Standard Prompting์ด๋ผ๊ณ  ๋ถ€๋ฅด๋ฉด์„œ Base Prompt๋กœ ํ•˜์˜€๋‹ค. ๊ทธ๋ฆฌ๊ณ  CoT Prompt๋ฅผ ์ถ”๊ฐ€ํ•œ ๊ฒฝ์šฐ๋ฅผ Chain-of-thought Prompting์ด๋ผ๊ณ  ํ•˜์—ฌ ์‹คํ—˜์„ ํ•˜์˜€๋‹ค.

์œ„์˜ ๊ฒฝ์šฐ๊ฐ€ 1shot์˜ ์˜ˆ์‹œ, ์ฆ‰ input-output ์˜ˆ์‹œ๊ฐ€ 1๊ฐœ ๋“ค์–ด๊ฐ„ ๊ฒฝ์šฐ์ด๋‹ค. ์ด๋ ‡๊ฒŒ ๊ตฌ์„ฑํ•œ ๊ฒฝ์šฐ๊ฐ€ ๊ฐ€์žฅ Base Prompt์ด๋‹ค.

์œ„์˜ ๊ฒฝ์šฐ๊ฐ€ ๊ฐ™์€ 1shot ์ด์ง€๋งŒ, chain-of-thought text๊ฐ€ ๋“ค์–ด๊ฐ„ ๊ฑฐ๋กœ Chain-of-thought Prompting์ด๋‹ค.

๐Ÿค” Chain-of-thought Prompt์— ํ•ด๋‹น๋˜๋Š” ์ถ”๋ก  ๊ณผ์ •์„ ๋‹ด์€ ์˜ˆ์‹œ, text๋Š” ์–ด๋–ป๊ฒŒ ๋งŒ๋“ ๊ฑฐ์ง€? ์–ด๋””์„œ ์™”์„๊นŒ?

์ €๋ ‡๊ฒŒ ์ถ”๋ก ์„ ์œ ๋„ํ•˜๊ธฐ ์œ„ํ•ด chain-of-thought text๋ฅผ ๋„ฃ์–ด์ฃผ๋Š” ๊ฑด ์•Œ๊ฒ ๋Š”๋ฐ, ๋ฌธ์ œ๋Š” "์–ด๋””์„œ ์ € CoT Text๋ฅผ ๊ฐ€์ ธ์™”์„๊นŒ?"๋ผ๋Š” ๊ฑฐ๋‹ค. ์‹ค์ œ๋กœ CoT ๋ฐฉ๋ฒ•๋ก ์„ ์‚ฌ์šฉํ•  ๊ฒฝ์šฐ๋ฅผ ์ƒ๊ฐํ•˜๋”๋ผ๋„ ์ € CoT Text๋ฅผ ๊ตฌํ•˜๋Š”๊ฒŒ ๋ฌธ์ œ์ด๊ธฐ ๋•Œ๋ฌธ์ด๋‹ค.
์ •๋‹ต์€ ๋…ผ๋ฌธ์— ์ ํ˜€ ์žˆ๋Š”๋ฐ, ๊ทธ๋ƒฅ ์‚ฌ๋žŒ์ด ์ง์ ‘ ๋งŒ๋“ค์—ˆ๋‹ค(manually composed)๋ผ๊ณ  ์ ํ˜€์žˆ๋‹ค. ์‹ค์ œ๋กœ 8๊ฐœ์˜ ์˜ˆ์‹œ์— ๋Œ€ํ•œ CoT Text๋ฅผ ๋งŒ๋“ค์—ˆ๋Š”๋ฐ Appendix์— ์•„๋ž˜์™€ ๊ฐ™์ด ๊ธฐ์žฌ๋˜์–ด ์žˆ์—ˆ๋‹ค.

์œ„์˜ 8๊ฐœ์˜ example์— ์žˆ๋Š” CoT ์˜ˆ์‹œ๊ธ€์„ ๋งŒ๋“ค์–ด์„œ 1shot์— ํ•ด๋‹น๋˜๋„๋ก ํ•œ ๊ฒƒ์ด๋‹ค. ์‚ฐ์ˆ ์ถ”๋ก ์— ํ•ด๋‹น๋˜๋Š” benchmark๋Š”

profile
๋ฐฐ์šฐ๊ณ  ๊ณต๋ถ€ํ•˜๊ณ  ๊ธฐ๋กํ•˜๋Š” ๊ฒƒ์„ ๋ฉˆ์ถ”์ง€ ์•Š๋Š”๋‹ค.

0๊ฐœ์˜ ๋Œ“๊ธ€