์ต๊ทผ์ Prompting, Chain-of-Thought๋ฅผ ํ์ฉํ Few-shot reasoning์ ํตํ ๋ ผ๋ฌธ์ ๋ด๋ ค๊ณ ์์ ํ๊ณ ์๋ค. ๊ทธ๋ฌ๋ฉด์ ์ ๋๋ก ๊ผผ๊ผผํ ์ฝ์ผ๋ ค๊ณ ๋ณด๊ณ ์๊ณ , ์ ๋ฆฌํด ๋ณด์๋ค.
๋ณธ ๋ ผ๋ฌธ์ NeurIPS 2022 Main Conference Track์ publish ๋ ๋ ผ๋ฌธ์ผ๋ก ์๋ง ๋ง์ ๋ถ๋ค์ด CoT๋ผ๊ณ ์๊ณ ์๋ ๋ ผ๋ฌธ์ด๋ค.
โ๏ธChain-of-Thought Prompting Elicits Reasoning in Large Language Models(โญNeurIPS-2022-Main)
43ํ์ด์ง๊ฐ ๋๋ Appendix๊น์ง ๋งค์ฐ ์์ธํ๊ฒ ์ ๋ฆฌ๋ ๋ ผ๋ฌธ์ผ๋ก์ ๊ณต๋ถํ๋ ๋ถ๋ค์ ํ๋ํ๋ ๋ฒ์ญํ๋ฉด์ ๋๊น์ง ์ฝ์ด๋ณด๊ธธ ์ถ์ฒํ๋ค. ํนํ Appendix์ ์ค์ ๋ก ์ด๋ป๊ฒ few-shot exampler text(์์ ๊ทธ๋ฆผ์์ ํ๋์ ๋ถ๋ถ)์ ๊ตฌ์ฑํ๋์ง ๋ค ๊ณต๊ฐํด์ ์ ๋ง ์ข์๋ค.
์์ ํ์ด๋ผ์ดํธ๋ ๋ถ๋ถ์ด chain of thought
์ ํด๋น๋๋ prompt text์ด๋ค. ์์ ๊ฐ์ ํ
์คํธ๋ค์ ๋ชจ๋ธ์ด ์ถ๋ก ํ๋ ๊ณผ์ ์์ ๊ทธ ์ถ๋ก ๊ณผ์ ์ ์ ๋ํ๋๋ก ํ๋ ์ญํ ์ ํ๊ณ ์๋ค.
Chain-of-Thought ํ๋กฌํํธ์ ์ฃผ์ ํน์ง ๋ฐ ์ฅ์
1. ๋ณต์กํ ๋ฌธ์ ๋ฅผ ์ค๊ฐ ๋จ๊ณ๋ก ๋ถํด ๊ฐ๋ฅ
์ฒด์ธ ์ค๋ธ ์ํธ๋ ๋ค๋จ๊ณ ๋ฌธ์ ๋ฅผ ์ค๊ฐ ๋จ๊ณ๋ก ๋ถํดํ๋๋ก ๋ชจ๋ธ์ ์ ๋ํฉ๋๋ค. ์ด๋ฅผ ํตํด ์ถ๊ฐ์ ์ธ ๊ณ์ฐ ๋ฆฌ์์ค๋ฅผ ํ ๋นํ์ฌ ๋ ๋ณต์กํ ์ถ๋ก ์ด ํ์ํ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ ์ ์์ต๋๋ค.
2. ๋ชจ๋ธ์ ํ๋์ ํด์ํ ์ ์๋ ์ฐฝ ์ ๊ณต
์ฒด์ธ ์ค๋ธ ์ํธ๋ ๋ชจ๋ธ์ด ํน์ ๋ต์ ๋๋ฌํ ๊ฒฝ๋ก๋ฅผ ํด์ํ ์ ์๊ฒ ํด์ค๋๋ค. ์ด๋ฅผ ํตํด ์ถ๋ก ๊ณผ์ ์์ ์ด๋์ ์ค๋ฅ๊ฐ ๋ฐ์ํ๋์ง ๋๋ฒ๊น ํ ์ ์๋ ๊ธฐํ๋ฅผ ์ ๊ณตํฉ๋๋ค. (๋ค๋ง, ๋ชจ๋ธ์ ๊ณ์ฐ ๊ณผ์ ์ ์์ ํ ํน์ฑํํ๋ ๊ฒ์ ์ฌ์ ํ ํด๊ฒฐ๋์ง ์์ ๊ณผ์ ์ ๋๋ค.)
3. ๋ค์ํ ์์ ์ ์ ์ฉ ๊ฐ๋ฅ
์ฒด์ธ ์ค๋ธ ์ํธ ์ถ๋ก ์ ์ํ ๋ฌธ์ , ์์์ ์ถ๋ก , ์ฌ๋ณผ๋ฆญ ์กฐ์๊ณผ ๊ฐ์ ์์ ์ ์ฌ์ฉํ ์ ์์ผ๋ฉฐ, ์์น์ ์ผ๋ก ์ธ๊ฐ์ด ์ธ์ด๋ก ํด๊ฒฐํ ์ ์๋ ๋ชจ๋ ์์ ์ ์ ์ฉํ ์ ์์ต๋๋ค.
4. ๋ํ ์ธ์ด ๋ชจ๋ธ์์ ๊ฐ๋จํ ํ์ฉ ๊ฐ๋ฅ
์ถฉ๋ถํ ํฐ ํฌ๊ธฐ์ ๊ธฐ์กด ์ธ์ด ๋ชจ๋ธ์ ์ฒด์ธ ์ค๋ธ ์ํธ ์์ ๋ฅผ ํฌํจ์ํค๋ ๊ฒ๋ง์ผ๋ก ์ด๋ฌํ ์ถ๋ก ๋ฅ๋ ฅ์ ์ฝ๊ฒ ์ ๋ํ ์ ์์ต๋๋ค.
์ฐ์ ์ถ๋ก Task์ CoT๋ฅผ ์ ์ฉํด ์คํํ์๊ณ , SoTA ๋ฌ์ฑ์ ํ ์ ์์๋ค.๋
ผ๋ฌธ์์๋ Few-Shot Prompt๋ฅผ Standard Prompting
์ด๋ผ๊ณ ๋ถ๋ฅด๋ฉด์ Base Prompt๋ก ํ์๋ค. ๊ทธ๋ฆฌ๊ณ CoT Prompt๋ฅผ ์ถ๊ฐํ ๊ฒฝ์ฐ๋ฅผ Chain-of-thought Prompting
์ด๋ผ๊ณ ํ์ฌ ์คํ์ ํ์๋ค.
์์ ๊ฒฝ์ฐ๊ฐ 1shot์ ์์, ์ฆ input-output ์์๊ฐ 1๊ฐ ๋ค์ด๊ฐ ๊ฒฝ์ฐ์ด๋ค. ์ด๋ ๊ฒ ๊ตฌ์ฑํ ๊ฒฝ์ฐ๊ฐ ๊ฐ์ฅ Base Prompt์ด๋ค.
์์ ๊ฒฝ์ฐ๊ฐ ๊ฐ์ ์ผ๋จ 1shot ์ด์ง๋ง, chain-of-thought text๊ฐ ๋ค์ด๊ฐ ๊ฑฐ๋ก Chain-of-thought Prompting์ด๋ค.
๐ค Chain-of-thought Prompt์ ํด๋น๋๋ ์ถ๋ก ๊ณผ์ ์ ๋ด์ ์์, text๋ ์ด๋ป๊ฒ ๋ง๋ ๊ฑฐ์ง? ์ด๋์ ์์๊น?
์ ๋ ๊ฒ ์ถ๋ก ์ ์ ๋ํ๊ธฐ ์ํด chain-of-thought text๋ฅผ ๋ฃ์ด์ฃผ๋ ๊ฑด ์๊ฒ ๋๋ฐ, ๋ฌธ์ ๋ "์ด๋์ ์ CoT Text๋ฅผ ๊ฐ์ ธ์์๊น?"๋ผ๋ ๊ฑฐ๋ค. ์ค์ ๋ก CoT ๋ฐฉ๋ฒ๋ก ์ ์ฌ์ฉํ ๊ฒฝ์ฐ๋ฅผ ์๊ฐํ๋๋ผ๋ ์ CoT Text๋ฅผ ๊ตฌํ๋๊ฒ ๋ฌธ์ ์ด๊ธฐ ๋๋ฌธ์ด๋ค.
์ ๋ต์ ๋ ผ๋ฌธ์ ์ ํ ์๋๋ฐ, ๊ทธ๋ฅ ์ฌ๋์ด ์ง์ ๋ง๋ค์๋ค(manually composed)๋ผ๊ณ ์ ํ์๋ค. ์ค์ ๋ก 8๊ฐ์ ์์์ ๋ํ CoT Text๋ฅผ ๋ง๋ค์๋๋ฐ Appendix์ ์๋์ ๊ฐ์ด ๊ธฐ์ฌ๋์ด ์์๋ค.์์ 8๊ฐ์ example์ ์๋ CoT ์์๊ธ์ ๋ง๋ค์ด์ 8shot ์ผ๋ก prompt์ ๋ฃ์ด์ค ๊ฒ์ด๋ค. ์ฐ์ ์ถ๋ก ์ ํด๋น๋๋ benchmark๋ ๋ชจ๋ ์ 8๊ฐ์ few shot eaxampler ๊ฐ ๋ค์ด๊ฐ๊ฑฐ๋ค
๋ฌผ๋ก AQuA๊น์ง ํด์ 4๊ฐ ๋ ์๋ค.
์ฐ๋ฆฌ๊ฐ ์๋ ์ฐ์ ๋ฌธ์ ์ธ๋ฐ, ์ฝ๊ฐ ์์์ ์ธ ๋๋๋ณด๋ค๋ ํ ์คํธ๋ก ์ํฉ์ ๋งํ๋ฉด ๊ณ์ฐ๋ ๋ต์ ๋งํ๋๋ก ํ๋ QAํ์์ ๋ฐ์ดํฐ์ ์ ์ฃผ๋ก ๊ฐ์ง๊ณ ์คํํ๋ค.
์๋์ ๊ฐ์ Benchmark ๋ฐ์ดํฐ์ ์ ์ฌ์ฉํ๋ค.
์ผ๋จ, ๋น์ฐํ CoT๋ฅผ ์ ์ฉํ ํ๋กฌํํธ๊ฐ ๋ ์ข์ ๊ฒฐ๊ณผ๋ฅผ ๋ธ๊ฑด ๋ง๋ค. ํ์ง๋ง, ์ด ๋ ผ๋ฌธ์ ์ฐ์ ์ถ๋ก ์คํ ๊ฒฐ๊ณผ์์ ๊ผญ ๋ด์ผ ํ ๋ถ๋ถ์ด ์๋ค.
"First, Figure 4 shows that chain-of-thought prompting is an emergent ability of model scale (Wei et al., 2022b). That is, chain-of-thought prompting does not positively impact performance for small models, and only yields performance gains when used with models of โผ100B parameters. We qualitatively found that models of smaller scale produced fluent but illogical chains of thought, leading to lower performance than standard prompting."
โ 100B ์ด์์ ๋ชจ๋ธ ํ๋ผ๋ฏธํฐ ํฌ๊ธฐ๋ฅผ ๊ฐ์ง๊ณ ์๋ ๊ฒฝ์ฐ์ ํ ํด์, CoT Prompting์ด Standard Prompting ๋ณด๋ค ํจ๊ณผ๊ฐ ์๋ค๋ ๊ฒ
โ CoT Prompting์ ํฐ LLM ๋ชจ๋ธ์ ์ ์ฉํ ๊ฒฝ์ฐ์ ์ฐ์ ์ถ๋ก ์ ํ๋๋ฐ ์ข์ ํผํฌ๋จผ์ค๋ฅผ ๋ณด์ธ๋ค๋ ์
"Second, chain-of-thought prompting has larger performance gains for more-complicated problems. For instance, for GSM8K (the dataset with the lowest baseline performance), performance more than doubled for the largest GPT and PaLM models. On the other hand, for SingleOp, the easiest subset of MAWPS which only requires a single step to solve, performance improvements were either negative or very small(see Appendix Table 3)."
โ CoT Prompting์ ๋ณต์กํ, ๋ ์ด๋ ค์ด ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๋ ๊ฒฝ์ฐ์ ๊ฐ์ ์ด ์์
"Third, chain-of-thought prompting via GPT-3
175B and PaLM 540B compares favorably to prior state of the art, which typically finetunes a task-specific model on a labeled training dataset. Figure 4 shows how PaLM 540B uses chain-ofthought prompting to achieve new state of the art on GSM8K, SVAMP, and MAWPS (though note that standard prompting already passed the prior best for SVAMP). On the other two datasets, AQuA and ASDiv, PaLM with chain-of-thought prompting reaches within 2% of the state of the art (Appendix Table 2)."โ CoT Prompting์ ์ ์ฉํ PaLM(540B), GPT3(175B)๋ Fine-tuning ๋ชจ๋ธ๋ณด๋ค ๋ ์ข์ ์ฑ๋ฅ์ ๋ด SoTA๋ฅผ ๋ฌ์ฑ
๋ํ ์ด๋ค ๊ฒฝ์ฐ์ ์ค๋ต์ ๋งํ๋์ง๋ ์ฒดํฌํ๊ณ ์ GSM8K ๋ฐ์ดํฐ์ ์คํ ๊ฒฐ๊ณผ๋ฅผ ๋ฝ์ ๋ณด์๋๋ฐ,
๋, ๋ ผ๋ฌธ์์๋ ์ค๋ช ํ์ง๋ง PaLM 62B์์ ํ๋ ธ๋ ๋ฌธ์ ๋ ๋ชจ๋ธ ์ฌ์ด์ฆ๋ฅผ ํค์์ PaLM 540B์์๋ ๋ง์ท๋ค๊ณ ํ๋ค. ํนํ one-step missing ์ด๋ semantic understanding error ๋ค์ ํฐ ๋ชจ๋ธ์ ํด๊ฒฐํ๋ค๊ณ ํ๋ค.
๋ค๋ฅธ ์ข ๋ฅ์ prompting ๋ ํด๋ณด๋ ์คํ์ ํ๋ค.
1) Equation only
2) Variable compute only
(.)
์ ์ถ๋ ฅํ๊ฒ ํ๋๋ฐ, ์๋ฅผ ๋ค์ด, ์ด๋ค ์์์ ํธ๋ ๋ฐ ํ์ํ ๋ฌธ์ ์๊ฐ 10์ด๋ผ๋ฉด, ๋ชจ๋ธ์ด ..........(10๊ฐ์ ์ )
์ ์ถ๋ ฅํ๊ฒ ํจ(.)
๋ง ์ถ๋ ฅํ๋๋ก ํ ๋ชจ๋ธ์ ์ฑ๋ฅ์ด ๊ธฐ์กด์ ๋ฒ ์ด์ค๋ผ์ธ ๋ชจ๋ธ๊ณผ ๊ฑฐ์ ๋์ผํ๊ฒ ๋์๊ณ , ์ด ๊ฒฐ๊ณผ๋ ๋จ์ํ ๊ณ์ฐ ๋ฆฌ์์ค(์ ์ถ๋ ฅ = ํ ํฐ ์)๊ฐ ๋ง์์ง๋ค๊ณ ํด์ ์ฑ๋ฅ์ด ํฅ์๋๋ ๊ฒ์ ์๋๋ผ๋ ์ ์ ๋ณด์ฌ์ค3) Chain of thought after answer
์ฌ์ ํ์ต๋ ๋ชจ๋ธ์ ์ง์์ ๋ฐํ์ผ๋ก, ์ผ์ ์ํ์์ ๊ฒฝํํ ์ ์๋ ๊ฐ๋จํ ๋ฌธ๋ต์ ์ด๋์ ๋๋ก ๋ต๋ณํ ์ ์๋์ง๋ฅผ ๋ณด๋ ๊ฑฐ๋ค.
์๋์ ๊ฐ์ Benchmark ๋ฐ์ดํฐ์ ์ ์ฌ์ฉํ๋ค.
CSQA
StrategyQA
Date understanding and sports understanding from BIG-Bench
SayCan
math๋ exampler๋ฅผ 8๊ฐ+4๊ฐ ๋ง๋ค์ด์ 1shot ์์ ๋ก ๋ฃ์๋ค๋ฉด, ์ฌ๊ธฐ์ ๋ฒค์น๋งํฌ๋ณ๋ก 6~10๊ฐ๋ฅผ ๋ง๋ค์๊ณ , ์๋์ ๊ฐ๋ค.
๊ฒฐ๋ก ์ ์ผ๋ก, Commonsense Reasoning ์์๋ CoT Prompt๊ฐ ํจ๊ณผ๊ฐ ์์์ ํ์ธํ ์ ์์๋ค. ๋ํ, ๋ชจ๋ธ ์ค์ผ์ผ์ด ํด ๋ ํผํฌ๋จผ์ค๊ฐ ๋์จ๋ค๋ ๊ฒ๋ ๋์ผํ๋ค.
Symbolic Reasoning ์ธ๊ฐ์๊ฒ๋ ๋น๊ต์ ์ฌ์ด ๋ฌธ์ (์: ์์ ๊ณ์ฐ, ๋ ผ๋ฆฌ ์ฐ์ฐ ๋ฑ)์ง๋ง, ์ธ์ด ๋ชจ๋ธ์๊ฒ๋ ๊น๋ค๋ก์ธ ์ ์๋ ์์ ์ ๋งํ๋ค. ๊ธฐ์กด์ Standard Prompting ๋ฐฉ์์์๋ ์ด๋ฌํ ์ฌ๋ณผ๋ฆญ ์ถ๋ก ์์ ์์ ์ธ์ด ๋ชจ๋ธ์ด ์ข ์ข ํ๊ณ๋ฅผ ๋ณด์ด๋๋ฐ, ๋จ์ํ ์ ๋ต์ ๋งํ๊ธฐ๋ณด๋ค ๋จ๊ณ๋ณ ์ฌ๊ณ ๊ฐ ํ์ํ ๋ฌธ์ ๋ค์ด ๋ง๊ธฐ ๋๋ฌธ์ด๋ค. ํ์ง๋ง CoT๋ ์ด๋ฅผ ํด๊ฒฐํ๋ค.
์๋์ ๋๊ฐ์ง Task๋ก Symbolic Reasoning ์คํ์ ์ํํจ
(1) Last Letter Concatenation
"Amy Brown"
โ "yn"
)"Amy Brown"
โ "AB"
๋ ์ฒด์ธ ์ค๋ธ ์๊ฐ(CoT) ์์ด๋ ์ธ์ด ๋ชจ๋ธ์ด ์ฝ๊ฒ ์ํ ๊ฐ๋ฅ)(2) Coin Flip
์
๋ ฅ
: "A coin is heads up. Phoebe flips the coin. Osvaldo does not flip the coin. Is the coin still heads up?" -> ์ถ๋ ฅ
: "no")in-out domain ์ผ๋ก ๋๋์ด์ ์คํ์ ์งํํจ
์ค์ ๋ก ์์ฑํ CoT Prompt๋ ํ์คํฌ ๋ณ๋ก ์๋์ ๊ฐ๋ค.
๊ฒฐ๋ก ์ ์ผ๋ก, Symbolic Reasoning ์์๋ CoT Prompt๊ฐ ํจ๊ณผ๊ฐ ์์์ ํ์ธํ ์ ์์๋ค.
In-Domain ํ๊ฐ:
OOD ํ๊ฐ:
๊ฒฐ๋ก :
CoT์ ์ฑ๋ฅ ๊ฐ์ :
์ ์ฉ ๊ฐ๋ฅ์ฑ:
๊ฐ๋จํ ๊ตฌํ:
๋ชจ๋ธ ์ค์ผ์ผ์ ์ค์์ฑ:
์ง์ ํ '์ถ๋ก ' ์ฌ๋ถ:
์ฃผ์ ๋น์ฉ:
์ ํํ์ง ์์ ์ถ๋ก ๊ฒฝ๋ก:
๋ชจ๋ธ ํฌ๊ธฐ์ ํ๊ณ:
๋ชจ๋ธ ์ค์ผ์ผ ์ฆ๊ฐ์ ์ถ๋ก ๋ฅ๋ ฅ:
๋ค๋ฅธ ํ๋กฌํํธ ๋ฐฉ์:
ํฉ๋ฆฌ์ ์ธ ์ถ๋ก ๊ณผ์ ๋ณด์ฅ:
์๊ท๋ชจ ๋ชจ๋ธ์์์ ์ ์ฉ ๊ฐ๋ฅ์ฑ: