์ต๊ทผ์ Prompting, Chain-of-Thought๋ฅผ ํ์ฉํ Few-shot reasoning์ ํตํ ๋ ผ๋ฌธ์ ๋ด๋ ค๊ณ ์์ ํ๊ณ ์๋ค. ๊ทธ๋ฌ๋ฉด์ ์ ๋๋ก ๊ผผ๊ผผํ ์ฝ์ผ๋ ค๊ณ ๋ณด๊ณ ์๊ณ , ์ ๋ฆฌํด ๋ณด์๋ค.
๋ณธ ๋ ผ๋ฌธ์ NeurIPS 2022 Main Conference Track์ publish ๋ ๋ ผ๋ฌธ์ผ๋ก ์๋ง ๋ง์ ๋ถ๋ค์ด CoT๋ผ๊ณ ์๊ณ ์๋ ๋ ผ๋ฌธ์ด๋ค.
โ๏ธChain-of-Thought Prompting Elicits Reasoning in Large Language Models(โญNeurIPS-2022-Main)
43ํ์ด์ง๊ฐ ๋๋ Appendix๊น์ง ๋งค์ฐ ์์ธํ๊ฒ ์ ๋ฆฌ๋ ๋ ผ๋ฌธ์ผ๋ก์ ๊ณต๋ถํ๋ ๋ถ๋ค์ ํ๋ํ๋ ๋ฒ์ญํ๋ฉด์ ๋๊น์ง ์ฝ์ด๋ณด๊ธธ ์ถ์ฒํ๋ค. ํนํ Appendix์ ์ค์ ๋ก ์ด๋ป๊ฒ few-shot exampler text(์์ ๊ทธ๋ฆผ์์ ํ๋์ ๋ถ๋ถ)์ ๊ตฌ์ฑํ๋์ง ๋ค ๊ณต๊ฐํด์ ์ ๋ง ์ข์๋ค.
์์ ํ์ด๋ผ์ดํธ๋ ๋ถ๋ถ์ด chain of thought
์ ํด๋น๋๋ prompt text์ด๋ค. ์์ ๊ฐ์ ํ
์คํธ๋ค์ ๋ชจ๋ธ์ด ์ถ๋ก ํ๋ ๊ณผ์ ์์ ๊ทธ ์ถ๋ก ๊ณผ์ ์ ์ ๋ํ๋๋ก ํ๋ ์ญํ ์ ํ๊ณ ์๋ค.
Chain-of-Thought ํ๋กฌํํธ์ ์ฃผ์ ํน์ง ๋ฐ ์ฅ์
1. ๋ณต์กํ ๋ฌธ์ ๋ฅผ ์ค๊ฐ ๋จ๊ณ๋ก ๋ถํด ๊ฐ๋ฅ
์ฒด์ธ ์ค๋ธ ์ํธ๋ ๋ค๋จ๊ณ ๋ฌธ์ ๋ฅผ ์ค๊ฐ ๋จ๊ณ๋ก ๋ถํดํ๋๋ก ๋ชจ๋ธ์ ์ ๋ํฉ๋๋ค. ์ด๋ฅผ ํตํด ์ถ๊ฐ์ ์ธ ๊ณ์ฐ ๋ฆฌ์์ค๋ฅผ ํ ๋นํ์ฌ ๋ ๋ณต์กํ ์ถ๋ก ์ด ํ์ํ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ ์ ์์ต๋๋ค.
2. ๋ชจ๋ธ์ ํ๋์ ํด์ํ ์ ์๋ ์ฐฝ ์ ๊ณต
์ฒด์ธ ์ค๋ธ ์ํธ๋ ๋ชจ๋ธ์ด ํน์ ๋ต์ ๋๋ฌํ ๊ฒฝ๋ก๋ฅผ ํด์ํ ์ ์๊ฒ ํด์ค๋๋ค. ์ด๋ฅผ ํตํด ์ถ๋ก ๊ณผ์ ์์ ์ด๋์ ์ค๋ฅ๊ฐ ๋ฐ์ํ๋์ง ๋๋ฒ๊น ํ ์ ์๋ ๊ธฐํ๋ฅผ ์ ๊ณตํฉ๋๋ค. (๋ค๋ง, ๋ชจ๋ธ์ ๊ณ์ฐ ๊ณผ์ ์ ์์ ํ ํน์ฑํํ๋ ๊ฒ์ ์ฌ์ ํ ํด๊ฒฐ๋์ง ์์ ๊ณผ์ ์ ๋๋ค.)
3. ๋ค์ํ ์์ ์ ์ ์ฉ ๊ฐ๋ฅ
์ฒด์ธ ์ค๋ธ ์ํธ ์ถ๋ก ์ ์ํ ๋ฌธ์ , ์์์ ์ถ๋ก , ์ฌ๋ณผ๋ฆญ ์กฐ์๊ณผ ๊ฐ์ ์์ ์ ์ฌ์ฉํ ์ ์์ผ๋ฉฐ, ์์น์ ์ผ๋ก ์ธ๊ฐ์ด ์ธ์ด๋ก ํด๊ฒฐํ ์ ์๋ ๋ชจ๋ ์์ ์ ์ ์ฉํ ์ ์์ต๋๋ค.
4. ๋ํ ์ธ์ด ๋ชจ๋ธ์์ ๊ฐ๋จํ ํ์ฉ ๊ฐ๋ฅ
์ถฉ๋ถํ ํฐ ํฌ๊ธฐ์ ๊ธฐ์กด ์ธ์ด ๋ชจ๋ธ์ ์ฒด์ธ ์ค๋ธ ์ํธ ์์ ๋ฅผ ํฌํจ์ํค๋ ๊ฒ๋ง์ผ๋ก ์ด๋ฌํ ์ถ๋ก ๋ฅ๋ ฅ์ ์ฝ๊ฒ ์ ๋ํ ์ ์์ต๋๋ค.
๋ค ๊ธฐ๋ณธ์ ์ด ์ถ๋ก ์ ํ์๋กํ๋ ์ฐ์ ๋ฌธ์ ๋ํ ๋ต์ด ์๋ ๋ฐ์ดํฐ์ ์ด๋ค.
1) GSM8K
2) SVAMP
3) ASDiv
4) MAWPS
5) AQuA
์ฐ์ ์ถ๋ก Task์ CoT๋ฅผ ์ ์ฉํด ์คํํ์๊ณ , SoTA ๋ฌ์ฑ์ ํ ์ ์์๋ค.๋
ผ๋ฌธ์์๋ Few-Shot Prompt๋ฅผ Standard Prompting
์ด๋ผ๊ณ ๋ถ๋ฅด๋ฉด์ Base Prompt๋ก ํ์๋ค. ๊ทธ๋ฆฌ๊ณ CoT Prompt๋ฅผ ์ถ๊ฐํ ๊ฒฝ์ฐ๋ฅผ Chain-of-thought Prompting
์ด๋ผ๊ณ ํ์ฌ ์คํ์ ํ์๋ค.
์์ ๊ฒฝ์ฐ๊ฐ 1shot์ ์์, ์ฆ input-output ์์๊ฐ 1๊ฐ ๋ค์ด๊ฐ ๊ฒฝ์ฐ์ด๋ค. ์ด๋ ๊ฒ ๊ตฌ์ฑํ ๊ฒฝ์ฐ๊ฐ ๊ฐ์ฅ Base Prompt์ด๋ค.
์์ ๊ฒฝ์ฐ๊ฐ ๊ฐ์ 1shot ์ด์ง๋ง, chain-of-thought text๊ฐ ๋ค์ด๊ฐ ๊ฑฐ๋ก Chain-of-thought Prompting์ด๋ค.
๐ค Chain-of-thought Prompt์ ํด๋น๋๋ ์ถ๋ก ๊ณผ์ ์ ๋ด์ ์์, text๋ ์ด๋ป๊ฒ ๋ง๋ ๊ฑฐ์ง? ์ด๋์ ์์๊น?
์ ๋ ๊ฒ ์ถ๋ก ์ ์ ๋ํ๊ธฐ ์ํด chain-of-thought text๋ฅผ ๋ฃ์ด์ฃผ๋ ๊ฑด ์๊ฒ ๋๋ฐ, ๋ฌธ์ ๋ "์ด๋์ ์ CoT Text๋ฅผ ๊ฐ์ ธ์์๊น?"๋ผ๋ ๊ฑฐ๋ค. ์ค์ ๋ก CoT ๋ฐฉ๋ฒ๋ก ์ ์ฌ์ฉํ ๊ฒฝ์ฐ๋ฅผ ์๊ฐํ๋๋ผ๋ ์ CoT Text๋ฅผ ๊ตฌํ๋๊ฒ ๋ฌธ์ ์ด๊ธฐ ๋๋ฌธ์ด๋ค.
์ ๋ต์ ๋ ผ๋ฌธ์ ์ ํ ์๋๋ฐ, ๊ทธ๋ฅ ์ฌ๋์ด ์ง์ ๋ง๋ค์๋ค(manually composed)๋ผ๊ณ ์ ํ์๋ค. ์ค์ ๋ก 8๊ฐ์ ์์์ ๋ํ CoT Text๋ฅผ ๋ง๋ค์๋๋ฐ Appendix์ ์๋์ ๊ฐ์ด ๊ธฐ์ฌ๋์ด ์์๋ค.์์ 8๊ฐ์ example์ ์๋ CoT ์์๊ธ์ ๋ง๋ค์ด์ 1shot์ ํด๋น๋๋๋ก ํ ๊ฒ์ด๋ค. ์ฐ์ ์ถ๋ก ์ ํด๋น๋๋ benchmark๋