CoVe(Chain-of-Verification)์ ๋ํ ์ธ์ด ๋ชจ๋ธ(LLM)์์ ๋ฐ์ํ๋ ํ๊ฐ์ ์ค์ด๊ธฐ ์ํ ๊ฒ์ฆ ์ฒด์ธ ๋ฐฉ๋ฒ์ด๋ค.
CoVe๋ ๋ชจ๋ธ์ด ์๋ต์ ์์ฑํ ํ, ์ค์ค๋ก ๊ทธ ์๋ต์ ์ ํ์ฑ์ ๊ฒ์ฆํ๋ ์ผ๋ จ์ ์ง๋ฌธ์ ๊ณํํ๊ณ , ๊ทธ ์ง๋ฌธ์ ๋ ๋ฆฝ์ ์ผ๋ก ๋ตํ ํ ์ต์ข ์ ์ผ๋ก ๊ฒ์ฆ๋ ์๋ต์ ์์ฑํ๋ ๊ณผ์ ์ด๋ค. LLM์์ ์์ฑ๋ ์๋ต์ ์ฌ์ฉํด์ ์์ฒด์ ์ผ๋ก ๊ฒ์ฆํ ์ ์๋ค๋ ๊ฐ๋ ์ ๊ทผ๊ฑฐํ๊ณ ์๋ค.

CoVe๋ CoT ๋ฐฉ์์์ ํ ๋จ๊ณ ๋ ๋์๊ฐ, LLM์ด ์ค์ค๋ก ์์ฑํ ๋ต๋ณ์ ๊ทผ๊ฑฐ๋ฅผ ๋จ๊ณ๋ณ๋ก ๊ฒ์ฆํ๊ณ ์ ๋นํํ๋ ๋ฉ์ปค๋์ฆ์ ๋์ ํ ํ๋กฌํํธ ์ ๋ต์ด๋ค. CoT๊ฐ "๋ต์ ๋์ถํ๋ ๊ณผ์ "์ ์ง์คํ๋ค๋ฉด, CoVe๋ "๋ต์ด ์ ์ ํ์ง ๊ฒํ ํ๋ ๊ณผ์ "์ ํฌํจํ๋ ์งํ๋ ํ๋กฌํํธ ๊ธฐ๋ฒ์ด๋ค.
| ํญ๋ชฉ | CoVe Prompting | CoT Prompting | ์ผ๋ฐ Prompting |
|---|---|---|---|
| ๊ตฌ์กฐ | ์ถ๋ก + ๊ฒ์ฆ + ์ ๋นํ ๋จ๊ณ ํฌํจ | ์ถ๋ก ๊ณผ์ ๊ฐ์กฐ | ๋จ์ผ ์๋ต ์ถ๋ ฅ |
| ์ค๋ฅ ๊ฐ์ง | LLM ์์ฒด ํ์ธ ๊ฐ๋ฅ | ์์ | ์์ |
| ์ ๋ขฐ๋ | ๋์ | ์ค๊ฐ | ๋ฎ์ |
| ํ๋กฌํํธ ๊ธธ์ด | ๊น (๋ฉํฐ ์คํ ์ด์ง) | ์ค๊ฐ | ์งง์ |
CoVe๋ ๋ค์๊ณผ ๊ฐ์ ๊ตฌ์ฑ ์์๋ก ์ด๋ฃจ์ด์ ธ ์๋ค.
CoVe๋ LLM์ ์๋ต ์ ๋ขฐ์ฑ์ ๋์ด๊ธฐ ์ํ ๊ณ ๊ธ ํ๋กฌํํธ ์ค๊ณ ์ ๋ต์ผ๋ก ๊ฐ๊ด๋ฐ๊ณ ์๊ณ , ๋ชจ๋ธ ์ธ๋ถ์ ํ๊ฐ ์์ด๋ ํ์ง ํฅ์์ด ๊ฐ๋ฅํ๋ค๋ ์ ์์ ํฐ ์ฃผ๋ชฉ์ ๋ฐ๊ณ ์๋ค.
์ธ๊ฐ์ด ์์ ์ ์ด ๊ธ์ ๊ฐ์ ํ๋ ๋ฐฉ์๊ณผ ์ ์ฌํ๊ฒ, LLM์ด ๋ฐ๋ณต์ ์ผ๋ก ํผ๋๋ฐฑํ๊ณ ์์ ํ๋ ๊ณผ์ ์ ํตํด ๊ฒฐ๊ณผ๋ฌผ์ ๊ฐ์ ํ๋ ๋ฐฉ์์ Self-Refine ๋ฐฉ์์ด๋ผ ํ๋ค.
LLM์ ์ฑ๋ฅ์ ๋ฐ์ด๋์ง๋ง, ๋ณต์กํ ์๊ตฌ์ฌํญ์ด๋ ์ ์ํ๊ธฐ ์ด๋ ค์ด ๋ชฉํ๊ฐ ์ฃผ์ด์ก์ ๋๋ ์ฑ๋ฅ์ด ๋จ์ด์ง๋ ๊ฒฝ์ฐ๊ฐ ์กด์ฌํ๋ค. ๊ธฐ์กด์ ๋ฐฉ์๋ค์ ์ถ๊ฐ์ ์ธ ์์ ์ด ํ์ํ ๋ ๋ณ๋์ refinement model์ ์ค๊ณํ๊ฑฐ๋, ๋ ํฐ training data ๋๋ expensiveํ ๋ผ๋ฒจ๋ง์ ํ์๋ก ํ๋ค.

๋ฐ๋ผ์ Self-Refine์ด๋ผ๋ ์๋ก์ด ์๊ณ ๋ฆฌ์ฆ์ ๋ง๋ค์ด Feedback๊ณผ Refine ๋จ๊ณ๋ฅผ ๋ฐ๋ณต์ ์ผ๋ก ๊ฑฐ์น๋ฉด์ high-quality output์ ์์ฑํ ์ ์๋๋ก ํ๋ค. ๋ชจ๋ธ์ด initial output์ ๋ง๋ค๋ฉด, ๋์ผํ ๋ชจ๋ธ์ด ๋ ์ด์์ ๊ฐ์ ์ด ํ์์๋ค๊ณ ํ๋จํ ๋๊น์ง ํด๋น ๋ฐฉ์์ ๋ฐ๋ณตํ๋ค.
Self-Refine์ 3๋จ๊ณ ์๋ ๋ฉ์ปค๋์ฆ์ ๋ค์๊ณผ ๊ฐ๋ค.
์ค๋ ์์๋ณผ ๋ ผ๋ฌธ์์๋ CoVe๋ Self-Refine๊ณผ ๊ฐ์ ๋ด์ฌ์ ์๊ธฐ ๊ต์ ๋ฐฉ์์ ๊ทผ๋ณธ์ ์ธ ํ๊ณ๋ฅผ ์ง์ ํ์๋ค. LLM์ด ์ธ๋ถ ํผ๋๋ฐฑ ์์ด๋ ์์ ์ ์ถ๋ก ์ค๋ฅ๋ฅผ ์์ ์ ์ผ๋ก ๊ฐ์งํ๊ณ ์์ ํ๋ ๋ฐ ํ๊ณ๊ฐ ์์์ ์คํ์ ์ผ๋ก ๋ณด์ธ ์ฐ๊ตฌ์ด๋ค.
๋๊ท๋ชจ ์ธ์ด๋ชจ๋ธ(LLM)์ ๋ค์ํ ์์ฉ ๋ถ์ผ์์ ํ์ํ ํ ์คํธ ์์ฑ ๋ฅ๋ ฅ์ ๋ณด์ฌ์ฃผ๋ฉฐ ์ธ๊ณต์ง๋ฅ(AI)์ ์๋ก์ด ์ ํ์ ์ ์ด๋๊ณ ์๋ค. ๊ทธ๋ผ์๋ ๋ถ๊ตฌํ๊ณ , LLM์ด ์์ฑํ๋ ๋ด์ฉ์ ์ ํ์ฑ๊ณผ ์ ์ ์ฑ์ ๋ํ ์ฐ๋ ค๋ ์ฌ์ ํ ์กด์ฌํ๋ค.
์ด๋ฌํ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํ ํ๋์ ์ ๊ทผ๋ฒ ์ค ํ๋๋ก ์๊ธฐ ๊ต์ (self-correction)์ด ์ ์๋์ด ์๋ค.
์ด ์ฐ๊ตฌ๋ ์ด๋ฌํ ์ ๊ทผ๋ฒ์ ๋ฐํ์ผ๋ก, LLM ๋ด๋ถ์์ ์ด๋ฃจ์ด์ง๋ ์๊ธฐ ๊ต์ ์ด ์ค์ ๋ก ์ด๋ค ์ญํ ๊ณผ ํ๊ณ๋ฅผ ๊ฐ์ง๋์ง๋ฅผ ๋นํ์ ์ผ๋ก ๋ถ์ํ๊ณ ์ ํ๋ค.
์ด ๋
ผ๋ฌธ์ ํต์ฌ์ ๋ด์ฌ์ ์๊ธฐ ๊ต์ (intrinsic self-correction)์ด๋ค.
์ด๋ ์ธ๋ถ์ ํผ๋๋ฐฑ์ด๋ ๋ณด์กฐ ์๋จ ์์ด, LLM์ด ์ค์ง ์์ ์ ๋ด์ ๋ฅ๋ ฅ๋ง์ ๋ฐํ์ผ๋ก ์์ ์ ์ด๊ธฐ ์๋ต์ ์ค์ค๋ก ์์ ํ๋ ค๋ ๊ณผ์ ์ ์๋ฏธํ๋ค.
<๋ณธ ์ฐ๊ตฌ์ ์ฃผ์ ๊ฒฐ๊ณผ>
์ด๋ฌํ ๋ถ์ ๊ฒฐ๊ณผ๋ฅผ ๋ฐํ์ผ๋ก, ๋ณธ ๋ ผ๋ฌธ์ ์๊ธฐ ๊ต์ ์ฐ๊ตฌ์ ์ค์ ์ ๊ฐ๋ฅ์ฑ๊ณผ ํ๊ณ๋ฅผ ํจ๊ป ์กฐ๋ช ํ๋ฉฐ, ํฅํ ์ฐ๊ตฌ ๋ฐ ์ค์ฉ์ ์์ฉ์์ ๊ณ ๋ คํด์ผ ํ ๋ฐฉํฅ์ฑ์ ์ ์ํ๋ค.
์ธ๊ณต์ง๋ฅ(AI) ๋ถ์ผ์ ๊ธ๊ฒฉํ ๋ฐ์ ์ ์ค๋๋ ๋๊ท๋ชจ ์ธ์ด๋ชจ๋ธ(Large Language Models, LLMs)์ ์๋๋ฅผ ์ด์๋ค. ์ด๋ค ๋ชจ๋ธ์ ๋ฐฉ๋ํ ์์ ํ๋ผ๋ฏธํฐ๋ฅผ ๋ฐํ์ผ๋ก ์ ๋ก์๋ ์์ค์ ํ ์คํธ ์์ฑ ๋ฅ๋ ฅ์ ๋ณด์ด๋ฉฐ, ์๋ง์ ์์ฉ ๋ถ์ผ์์ ๋ฐ์ด๋ ์ฑ๊ณผ๋ฅผ ๋ณด์ฌ์๋ค.
๊ทธ๋ฌ๋ ๋์์, ์ด๋ฌํ LLM์ ์ ํ์ฑ(accuracy), ์ถ๋ก (reasoning) ๋ฅ๋ ฅ, ๊ทธ๋ฆฌ๊ณ ์์ฑ๋ ์ฝํ ์ธ ์ ์์ ์ฑ(safety)์ ๋ํ ์ฐ๋ ค ๋ํ ์ง์์ ์ผ๋ก ์ ๊ธฐ๋๊ณ ์๋ค.
์ด๋ฌํ ๋ฐฐ๊ฒฝ ์์์, ์๊ธฐ ๊ต์ (Self-Correction)์ด๋ผ๋ ๊ฐ๋ ์ด LLM์ ํ๊ณ๋ฅผ ๋ณด์ํ ์ ์๋ ์ ๋งํ ํด๊ฒฐ์ฑ ์ผ๋ก ์ฃผ๋ชฉ๋ฐ๊ธฐ ์์ํ๋ค.
์๊ธฐ ๊ต์ ์ด๋ ๋ชจ๋ธ์ด ์์ ์ ์ด์ ์ถ๋ ฅ์ ๋ํด ํผ๋๋ฐฑ์ ์์ฑํ๊ณ , ๊ทธ ํผ๋๋ฐฑ์ ๋ฐํ์ผ๋ก ์๋ต์ ๊ฐ์ ํ๋ ๊ณผ์ ์ด๋ค. ํ์ง๋ง ์ด๋ฌํ ์ฐ๊ตฌ๋ค์ด ์ ์ํ๋ ์๊ธฐ ๊ต์ ์ ๊ธฐ์ ๋ฉ์ปค๋์ฆ๊ณผ ์ค์ง์ ํจ๊ณผ๋ ์ฌ์ ํ ์ถฉ๋ถํ ๋ฐํ์ง์ง ์์๋ค.
์ด์ ๋ฐ๋ผ ํ๋์ ๊ทผ๋ณธ์ ์ธ ์๋ฌธ์ด ์ ๊ธฐ๋๋ค.
"๋ง์ฝ LLM์ด ์ค์ค๋ก๋ฅผ ๊ต์ ํ ์ ์๋ค๋ฉด, ์ ์ฒ์๋ถํฐ ์ฌ๋ฐ๋ฅธ ๋ต์ ๋ด์ง ์๋๊ฐ?"
๋ณธ ๋ ผ๋ฌธ์ ์ด ์ง๋ฌธ์ ์ค์ฌ์ ๋๊ณ , LLM์ ์๊ธฐ ๊ต์ ๋ฅ๋ ฅ์ ๋นํ์ ์ด๊ณ ์ค์ฆ์ ์ผ๋ก ๋ถ์ํ๋ค. ํนํ ๋ณธ ์ฐ๊ตฌ๋ ๊ทธ์ค์์๋ ์ถ๋ก (reasoning) ๋ฅ๋ ฅ์ ์ด์ ์ ๋ง์ถ๋ค.
์ด๋ฅผ ์ฐ๊ตฌํ๊ธฐ ์ํด, ์ ์๋ ๋จผ์ "๋ด์ฌ์ ์๊ธฐ ๊ต์ (intrinsic self-correction)"์ด๋ผ๋ ๊ฐ๋ ์ ์ ์ํ๋ค. ์ด๊ฒ์ LLM์ด ์ธ๋ถ ํผ๋๋ฐฑ์ด๋ ์ถ๊ฐ ๋๊ตฌ์ ๋์ ์์ด, ์ค์ง ์์ ์ด ๊ฐ์ง ๋ด์ฌ๋ ๋ฅ๋ ฅ๋ง์ผ๋ก ์์ ์ ์๋ต์ ๊ฒํ ํ๊ณ ์์ ํ๋ ค๋ ์ํฉ์ ์๋ฏธํ๋ค.
์ด๋ฌํ ์ค์ ์ ์ฌ๋ฌ ๋ฉด์์ ์ค์ํ๋ค.
๊ทธ๋ฌ๋ ์ต๊ทผ ์๊ธฐ ๊ต์ ์ฐ๊ตฌ๋ค์ด ๋ณด์ฌ์ฃผ๋ ๋๊ด์ ์ธ ๊ฒฐ๊ณผ์ ๋ฌ๋ฆฌ, ๋ณธ ์ฐ๊ตฌ์ ๋ฐ๊ฒฌ์ LLM์ด ์ด๋ฌํ ๋ด์ฌ์ ์ค์ ์์ ์ถ๋ก ์ค๋ฅ๋ฅผ ๊ต์ ํ๋ ๋ฐ ์คํจํ๋ฉฐ, ๋๋ถ๋ถ์ ๊ฒฝ์ฐ ์๊ธฐ ๊ต์ ์ดํ ์ฑ๋ฅ์ด ์คํ๋ ค ์ ํ๋จ์ ๋ณด์ฌ์ค๋ค.
๋ณธ ์ฐ๊ตฌ๋ ๊ธฐ์กด ์๊ธฐ ๊ต์ ๊ณผ๋ จ ๋ฌธํ์ด ๊ฐ์ง ์ธ ๊ฐ์ง ์ฃผ์ ํ๊ณ๋ฅผ ์ง์ ํ๋ค.
- Oracle Label(์ ๋ต ๋ ์ด๋ธ) ์์กด์ฑ
Kim et al. (2023) ๋ฐ Shinn et al. (2023) ๋ฑ์ ์ฐ๊ตฌ์์ ๋ณด๊ณ ๋ ์ฑ๋ฅ ํฅ์์, ์ค์ ๋ก๋ ์ ๋ต ๋ผ๋ฒจ(oracle label)์ ์ด์ฉํด โ์ ๋ต์ผ ๋๋ง ์์ ์ข ๋ฃโํ๋๋ก ์ ์ดํ๊ธฐ ๋๋ฌธ์ด์๋ค.
โ ๊ทธ๋ฌ๋ ์ค์ ํ๊ฒฝ์์๋ ์ ๋ต์ด ์ฃผ์ด์ง์ง ์์ผ๋ฏ๋ก, ์ด๋ฌํ ํฅ์์ "์ง์ ํ ์๊ธฐ ๊ต์ ๋ฅ๋ ฅ"์ด๋ผ ๋ณด๊ธฐ ์ด๋ ต๋ค.
- ๋น๊ต ๊ธฐ์ค์ ๋ถ๊ณต์ ์ฑ (Inference Cost ๋ถ๊ท ํ)
์๊ธฐ ๊ต์ ์ ์ค๊ณ์ ์ฌ๋ฌ ๋ฒ์ ๋ชจ๋ธ ํธ์ถ์ ํ์๋ก ํ๋ค. ๊ทธ๋ผ์๋ ๋ถ๊ตฌํ๊ณ , ๋๋ถ๋ถ์ ์ฐ๊ตฌ์์๋ ๋์ผํ ๋น์ฉ์ ๊ฐ์ง ๊ณต์ ํ ๋น๊ต๊ตฐ๊ณผ์ ์ฑ๋ฅ ๋น๊ต๊ฐ ์ด๋ฃจ์ด์ง์ง ์์๋ค.
์ด์ ๋ณธ ์ฐ๊ตฌ๋ multi-agent debate (Du et al., 2023; Liang et al., 2023) ์ ๊ทผ์ ๊ฒํ ํ๋ฉฐ, ๋์ผํ ๋ชจ๋ธ ํธ์ถ ์๋ฅผ ๊ธฐ์ค์ผ๋ก self-consistency (Wang et al., 2022)์ ๋น๊ตํ์๋ค.
โ ๊ทธ ๊ฒฐ๊ณผ, multi-agent debate๋ self-consistency๋ณด๋ค ๋ซ์ง ์๋ค๋ ์ฌ์ค์ ํ์ธํ๋ค.
- ํ๋กฌํํธ ์ค๊ณ(prompt design)์ ์๊ณก
๊ธฐ์กด ์ผ๋ถ ์ฐ๊ตฌ์์ ๋ณด๊ณ ๋ ์๊ธฐ ๊ต์ ์ "์ฑ๋ฅ ํฅ์"์ ์ค์ ๋ก๋ ์ด๊ธฐ ํ๋กฌํํธ๊ฐ ๋ถ์ ์ ํ๊ฒ ์ค๊ณ๋์ด ์์๊ธฐ ๋๋ฌธ์ด์๋ค. ์ฆ, ์๊ธฐ ๊ต์ ๊ณผ์ ์ ํผ๋๋ฐฑ ํ๋กฌํํธ์ ๋ ๊ตฌ์ฒด์ ์ด๊ณ ์ ์ตํ ์ ๋ณด๊ฐ ๋ค์ด๊ฐ ๊ฒฐ๊ณผ์ ์ผ๋ก ์ด๊ธฐ ์ง์๋ณด๋ค ๋ ์ ์๋ํ ๊ฒ์ด๋ค.
โ ์ด ๊ฒฝ์ฐ, ๋จ์ํ ๊ทธ ํผ๋๋ฐฑ ๋ด์ฉ์ ์ด๊ธฐ ํ๋กฌํํธ์ ํฌํจ์ํค๊ธฐ๋ง ํด๋ ๋ ๋์ ์ฑ๋ฅ์ ์ป์ ์ ์์๋ค. ์ฆ, ์๊ธฐ ๊ต์ ์ด ์๋ ํ๋กฌํํธ ๊ฐ์ ํจ๊ณผ์ ๋ถ๊ณผํ๋ค.
์ด๋ฌํ ๋ฌธ์ ์์์ ๋ฐ๋ผ, ๋ณธ ๋ ผ๋ฌธ์ ๋ค์์ ๋ชฉํ๋ฅผ ๊ฐ์ง๋ค.
์ด๋ฅผ ์ํด, ์ ์๋ค์ ์ฌ๋ฌ ๋ฐ์ดํฐ์ (GSM8K, CommonSenseQA, HotpotQA)๊ณผ ์ฌ๋ฌ ๋ชจ๋ธ(GPT-3.5, GPT-4 Turbo, Llama-2)์ ๋์์ผ๋ก ์คํ์ ์ํํ์๋ค.
๊ทธ ๊ฒฐ๊ณผ, LLM์ ์ ๋ต ๋ ์ด๋ธ ์์ด ์ค์ค๋ก์ ์ค๋ฅ๋ฅผ ๊ต์ ํ ์ ์์ผ๋ฉฐ, ๋๋ถ๋ถ์ ๊ฒฝ์ฐ ๊ต์ ์ดํ ์ ํ๋๊ฐ ๊ฐ์ํจ์ ๋ณด์๋ค.
๋๊ท๋ชจ ์ธ์ด๋ชจ๋ธ(LLM)์ ๋ฐ์ ๊ณผ ํจ๊ป, ์๊ธฐ๊ต์ (Self-Correction)์ ์ ์ฐจ ์ค์ํ๊ฒ ๋ถ๊ฐ๋๊ณ ์๋ค.
์ด ์ฃผ์ ์ ๋ํ ๋ ผ์์ ํต์ฌ์, ์ด๋ฌํ ๊ณ ๋ํ๋ ๋ชจ๋ธ๋ค์ด ์ค์ค๋ก ์์ ์ ์ถ๋ ฅ์ ์ ํ์ฑ์ ์ธ์ํ๊ณ , ๊ทธ ๊ฒฐ๊ณผ๋ฅผ ๋ ๋์ ํํ๋ก ์์ (refine) ํ ์ ์๋์ง์ ์๋ค.
์๋ฅผ ๋ค์ด, ์ํ์ ์ถ๋ก (mathemetical reasoning) ๊ณผ์ ๋ฅผ ์ํํ๋ ๊ฒฝ์ฐ๋ฅผ ์๊ฐํด๋ณด์. LLM์ ๋ณต์กํ ๋ฌธ์ ๋ฅผ ๋จ๊ณ๋ณ๋ก ํ์ด๋๊ฐ์ง๋ง, ๊ณ์ฐ ๊ณผ์ ์ค ์ผ๋ถ์์ ์ค๋ฅ๋ฅผ ๋ฒํ ์ ์๋ค. ์ด๋ ์ด์์ ์ธ ์๊ธฐ๊ต์ ๊ณผ์ ์ด๋ผ๋ฉด, ๋ชจ๋ธ์ด ์์ ์ ์ค์๋ฅผ ์ธ์งํ๊ณ , ๋ฌธ์ ๋ฅผ ๋ค์ ๊ฒํ ํ์ฌ, ์ค๋ฅ๋ฅผ ์์ ํ ๋ค ๋ ์ ํํ ๋ต๋ณ์ ์ฐ์ถํ๋ ๊ฒ์ ์๋ฏธํ๋ค.
๊ทธ๋ฌ๋ ๋ฌธํ์ ์ดํด๋ณด๋ฉด, ์๊ธฐ๊ต์ (Self-Correction)์ด๋ผ๋ ๊ฐ๋
์ ์ฐ๊ตฌ๋ง๋ค ์ ์๊ฐ ๋ค์ ๋ฌ๋ผ ๋ชจํธ์ฑ์ด ์กด์ฌํ๋ค.
ํนํ ์ค์ํ ์ฐจ์ด๋ ํผ๋๋ฐฑ์ ์ถ์ฒ(source of feedback)์ ์๋ค. ์ฆ, ํผ๋๋ฐฑ์ด ๋ด๋ถ์ ์ผ๋ก(LLM ์์ฒด์์) ์์ฑ๋๋๊ฐ, ํน์ ์ธ๋ถ ์
๋ ฅ(External Input)์ผ๋ก๋ถํฐ ์ ๊ณต๋๋๊ฐ์ ๋ฐ๋ผ ์๊ธฐ ๊ต์ ์ ์ฑ๊ฒฉ์ด ์์ ํ ๋ฌ๋ผ์ง๋ค.
๋ณธ ๋ ผ๋ฌธ์ LLM์ ์ถ๋ก (reasoning) ๋ฅ๋ ฅ์์์ ์๊ธฐ๊ต์ ๊ฐ๋ฅ์ฑ์ ์ด์ ์ ๋ง์ถ๋ค. ์ถ๋ก ์ ์ธ๊ฐ ์ธ์ง์ ํต์ฌ ๊ณผ์ ์ผ๋ก, ์ธ์์ ์ดํดํ๊ณ ๊ฒฐ๋ก ์ ๋์ถํ๋ฉฐ ์์ฌ๊ฒฐ์ ์ ๋ด๋ฆฌ๊ณ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๋ ๊ธฐ๋ฐ์ด ๋๋ค.
๋ณธ ์ฐ๊ตฌ๋ ์ธ๋ถ ํผ๋๋ฐฑ์ด๋ ์ธ๊ฐ์ ๊ฐ์
์ด ์ ํ ์๋ ์ํฉ์์ LLM์ด ์๊ธฐ๊ต์ ์ ์ํํ ์ ์๋์ง๋ฅผ ํ๊ฐํ๋ค. ์ด๋ฌํ ์ค์ ์ ๋ด์ฌ์ ์๊ธฐ๊ต์ (Instrinsic Self-Correction)์ด๋ผ๊ณ ๋ถ๋ฅธ๋ค.
์ ์๋ค์ ๊ธฐ์กด์ ์ ์๋ ๋ค์ํ ์๊ธฐ ๊ต์ ๊ธฐ๋ฒ๋ค์ ์คํ์ ์ผ๋ก ํ๊ฐํ์ฌ ๋ค์ ์ธ ๊ฐ์ง ์ฌ์ค์ ๋ณด์ฌ์ฃผ์๋ค.

์ ์๋ ์ด์ LLM ์๊ธฐ-์์ (Self-Correction) ์ฐ๊ตฌ๋ค์ ํ๊ฐ ์ค์ ์์ ๋ฐ๊ฒฌ๋๋ ๋ฌธ์ ๋ค์ Table 1์ ์์ฝํ์์ผ๋ฉฐ, ์ด์ ๋ํ ์์ธํ ๋ ผ์๋ ๊ฐ ๋์๋๋ ์น์ ์์ ์ ์ํ๋ค.
์ด ์ฅ์์๋ ๊ธฐ์กด์ ์ ์๋ ๋ค์ํ ์๊ธฐ๊ต์ (self-correction) ๋ฐฉ๋ฒ๋ค์ ํ๊ฐํ๊ณ , ์ ๋ต ๋ ์ด๋ธ(oracle label)์ ์ฌ์ฉํ ๋์ ์ฌ์ฉํ์ง ์์ ๋์ ์ฑ๋ฅ์ ๋น๊ตํ๋ค.
ํต์ฌ์ ์ผ๋ก, ์ธ๋ถ ํผ๋๋ฐฑ ์์ด LLM์ด ์ค์ค๋ก reasoing ์ค๋ฅ๋ฅผ ๊ต์ ํ ์ ์๋๊ฐ๋ฅผ ๊ฒ์ฆํ๋ค.
์ ์๋ค์ ๊ธฐ์กด ์ฐ๊ตฌ์์ ์๊ธฐ๊ต์ ์ด ์๋ฏธ ์๋ ์ฑ๋ฅ ํฅ์์ ๋ณด์๋ ๋ํ์ ์ธ ์ธ ๊ฐ์ ๋ฒค์น๋งํฌ๋ฅผ ์ ํํ๋ค.
- GSM8K (Cobbe et al., 2021)
์ด๋ฑํ์ ์์ค์ ์ํ ๋จ์ด ๋ฌธ์ 1,319๊ฐ๋ก ๊ตฌ์ฑ๋ ํ ์คํธ ์ธํธ.
Kim et al. (2023)์ ์๊ธฐ๊ต์ ์ดํ ์ฝ 7% ์ฑ๋ฅ ํฅ์์ ๋ณด๊ณ ํ ๋ฐ ์๋ค.- CommonSenseQA (Talmor et al., 2019)
์ผ์์ ์์ ์ถ๋ก ์ ํ๊ฐํ๋ 5์ง์ ๋คํ ์ง๋ฌธ 1,221๊ฐ(๊ฐ๋ฐ ์ธํธ).
Kim et al. (2023)์ ์๊ธฐ๊ต์ ์ ํตํด ์ฝ 15% ํฅ์์ ๋ณด์๋ค๊ณ ๋ณด๊ณ ํ๋ค.- HotpotQA (Yang et al., 2018)
๋ค์ค ์ฆ๊ฑฐ(multi-hop) ์ถ๋ก ์ด ํ์ํ ๊ฐ๋ฐฉํ ์ง์์๋ต ๋ฐ์ดํฐ์ .
Shinn et al. (2023)์ ์๊ธฐ๊ต์ ์ ํตํด ์๋นํ ํฅ์์ ๋ณด์๋ค๊ณ ๋ณด๊ณ ํ์๋ค.
์ ์๋ค์ ๋์ผํ 100๋ฌธํญ ์ธํธ๋ฅผ ์ฌ์ฉํ๊ณ , ์ ํ ์ผ์น์จ(Exact Match)์ ํ๊ฐ ์งํ๋ก ์ผ์๋ค.
ํ ์คํธ ๋ชจ๋ธ ๋ฐ ์ธ๋ถ ๊ตฌ์ฑ์ ๋ค์๊ณผ ๊ฐ๋ค.
- ๋ชจ๋ธ
GPT-3.5-Turbo (gpt-3.5-turbo-0613),
GPT-4 (2023/08/29 ๋ฒ์ ),
GPT-4-Turbo (gpt-4-1106-preview),
Llama-2-70B-Chat (Touvron et al., 2023).- ๋ฐ์ดํฐ ์
GPT-3.5๋ ์ ์ฒด ํ๊ฐ ์ธํธ๋ฅผ ์ฌ์ฉํ์ผ๋ฉฐ,GPT-4, GPT-4-Turbo, Llama-2๋ ๋น์ฉ ์ ๊ฐ์ ์ํด ๊ฐ ๋ฐ์ดํฐ์ ์์ ๋ฌด์์๋ก 200๋ฌธํญ(HotpotQA๋ 100๋ฌธํญ)์ ์ํ๋งํ๋ค.- ๊ต์ ๋จ๊ณ
๋ชจ๋ธ์ด ์ต๋ 2๋ผ์ด๋(self-correction rounds) ๊น์ง ์ํํ๋๋ก ์ค์ ํ๋ค.- ๋์ฝ๋ฉ ์ค์
GPT-3.5์ GPT-4๋ temperature = 1, GPT-4-Turbo์ Llama-2๋ temperature = 0์ผ๋ก ํ๊ฐํ๋ค.
(์ฆ, ๋ชจ๋ธ๋ณ๋ก ์๋ก ๋ค๋ฅธ ๋์ฝ๋ฉ ์๊ณ ๋ฆฌ์ฆ์ ํฌ๊ด์ ์ผ๋ก ํ ์คํธํ ์ ์ด๋ค.)
์ ์๋ค์ Kim et al. (2013)๊ณผ Shinn et al. (2023)์ ๋ฐฉ์์ ๋ฐ๋ผ ์๊ธฐ๊ต์ ์ 3๋จ๊ณ prompting ์ ์ฐจ๋ก ๊ตฌํํ๋ค.
- ์ด๊ธฐ ์๋ต ์์ฑ
โ ๋ชจ๋ธ์ด ํ์ค ํ๋กฌํํธ(standard prompt)์ ๋ฐ๋ผ ์ฒ์ ๋ต๋ณ์ ์์ฑํ๋ค.- ํผ๋๋ฐฑ ์์ฑ(review)
โ ๋ชจ๋ธ์ด ์์ ์ด ์์ฑํ ๋ต๋ณ์ ๊ฒํ ํ๋ฉฐ ์ค๋ฅ๋ ์์ฌ์ ์ ์ค๋ช ํ๋ค.- ์ฌ์๋ต (๊ต์ ๋จ๊ณ)
โ 2๋จ๊ณ์์ ์์ฑ๋ ํผ๋๋ฐฑ์ ์ฐธ๊ณ ํด ๋ค์ ๋ต๋ณ์ ์์ฑํ๋ค.
์ด ๊ณผ์ ์ "standard prompting" ๊ฒฐ๊ณผ์ ๋น๊ต ํ๊ฐ๋๋ค.
์ถ๊ฐ๋ก, ๋ด์ฌ์ ์๊ธฐ ๊ต์ ์ ํ๊ฐํ๊ธฐ ์ํด ๋ค์ํ ํผ๋๋ฐฑ ํ๋กฌํํธ๋ฅผ ์คํ์ ์ผ๋ก ์ค๊ณํ๋ค.
[๊ธฐ๋ณธ ํผ๋๋ฐฑ ํ๋กฌํํธ]
โAssume that this answer could be either correct or incorrect.
Review the answer carefully and report any serious problems you find.โ

์ด ํ๋ ์ค๋ผํด ๋ผ๋ฒจ์ ์ฌ์ฉํ ๋ ์๊ธฐ ๊ต์ ์ด ํ์คํ ์ฑ๋ฅ ํฅ์์ ๋ณด์ธ๋ค๋ ๊ฒ์ ํ์ธ์์ผ์ค๋ค. ๊ธฐ์กด ์ฐ๊ตฌ์ ์ผ์นํ๋ ๊ฒฐ๊ณผ์ด์ง๋ง, ์ ์๋ค์ ์ด ๊ฒฐ๊ณผ์ ๋ํด ๋ค์๊ณผ ๊ฐ์ด ์ง์ ํ๋ค.
"์ ๋ต์ ์ด๋ฏธ ์๊ณ ์๋ค๋ฉด, ๋ฌธ์ ๋ฅผ ํ๊ธฐ ์ํด LLM์ ์ฌ์ฉํ ์ด์ ๊ฐ ์๋ค."
์ฆ, ์ด๋ฌํ ๊ฒฐ๊ณผ๋ '์ง์ง ์๊ธฐ๊ต์ ๋ฅ๋ ฅ'์ด ์๋๋ผ ์ ๋ต์ ์๊ณ ์๋ ์ค๋ผํด ํ๊ฒฝ์ ํจ๊ณผ์ ๋ถ๊ณผํ๋ค๋ ๊ฒ์ด๋ค.


๊ฒฐ๊ณผ๋ ๋ช
ํํ๊ฒ ๋ชจ๋ ๋ชจ๋ธ์์ ์ ํ๋๊ฐ ์ ๋ฐ์ ์ผ๋ก ๊ฐ์ํ๋ค. ์ฆ, ๋ชจ๋ธ์ด ์ ๋ต์ ๋ชจ๋ฅธ ์ฑ ์ค์ค๋ก ๊ต์ ํ๋ ค ํ๋ฉด, ์คํ๋ ค ์ฒ์๋ณด๋ค ์ฑ๋ฅ์ด ๋๋น ์ก๋ค.
Llama-2๋ ์๊ธฐ๊ต์ ์ดํ ์ฑ๋ฅ์ด ๊ธ๊ฒฉํ ํ๋ฝํ๊ณ , ์ฌ์ง์ด ์ ๋ฐ ์ดํ๋ก ๋จ์ด์ก๋ค. GPT-4-Turbo ์ญ์ ๋ฏธ์ธํ ์ฑ๋ฅ ๊ฐ์๊ฐ ๊ด์ฐฐ๋์๋ค. ๋ชจ๋ธ ํฌ๊ธฐ๋ ์ํคํ
์ฒ์ ๋ฌด๊ดํ๊ฒ ์๊ธฐ๊ต์ ์ ๋ด์ฌ์ ์ถ๋ก ์ฑ๋ฅ์ ํฅ์์ํค์ง ๋ชปํ๋ค.
์ ์๋ค์ ํน์ ํ๋กฌํํธ์ ๋ฌธ์ฅ ๊ตฌ์กฐ๊ฐ ์ํฅ์ ์ค ์ ์์์ง ๊ฒ์ฆํ๊ธฐ ์ํด ์ธ ๊ฐ์ง ์ ํ์ ํ๋กฌํํธ๋ฅผ ์ถ๊ฐ๋ก ํ ์คํธ ํ๋ค.
Empirical Analysis

ํด๋น ๊ทธ๋ฆผ์ ๋ ๋ฒ์ ์๊ธฐ๊ต์ ์ดํ ๋ต๋ณ์ด ์ด๋ป๊ฒ ๋ณํํ๋์ง๋ฅผ ์์ฝํ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ฌ์ค๋ค.

์ด์ ์ ์ฌํ๊ฒ, Llama-2 ๋ชจ๋ธ๋ ์ ๋ต์ ์ค๋ต์ผ๋ก ๋ฐ๊พธ๋ ์ฌ๋ก๊ฐ ์์ฃผ ๊ด์ฐฐ๋์๋ค.
๋ฐ๋ฉด, GPT-4์ GPT-Turbo๋ GPT-3.5๋ Llama-2๋ณด๋ค ์ด๊ธฐ ๋ต๋ณ์ ์ ์งํ๋ ๊ฒฝํฅ์ด ๊ฐํ๋ค.
์๊ธฐ ๊ต์ ํ๋กฌํํธ์ ์ํด ํธํฅ๋๊ธฐ ์ด๋ ค์ด ํน์ฑ์ ๊ฐ์ง๊ณ ์๊ธฐ ๋๋ฌธ์ผ๋ก ๋ณด์ธ๋ค.

ํ 2์ ๊ฒฐ๊ณผ๋ฅผ ๋ค์ ์ดํด๋ณด๋ฉด, ํด๋น ํ๋ ์ ๋ต ๋ผ๋ฒจ(ground-truth label)์ ์ฌ์ฉํ์ฌ ๋ชจ๋ธ์ด "์ ๋ต์ ์ค๋ต์ผ๋ก ๋ฐ๊พธ๋ ํ์"์ ๋ฐฉ์งํ ์คํ ์ค์ ์ ๋ณด์ฌ์ค๋ค. ๊ทธ๋ฌ๋ ๋ฐ๋ก ์ด๋ฌํ "์ค๋ต ์ ํ์ ๋ง๋ ๋ฐฉ๋ฒ"์ ์ฐพ๋ ๊ฒ์ด์ผ๋ง๋ก ์๊ธฐ๊ต์ ์ด ์ฑ๊ณตํ๊ธฐ ์ํ ํต์ฌ ๊ณผ์ ๋ผ๊ณ ์ ์๋ค์ ์ง์ ํ๋ค.
Intuitive Explanation
๋ง์ฝ ๋ชจ๋ธ์ด ์ถฉ๋ถํ ์ ๋ ฌ(aligned)๋์ด ์๊ณ , ์ด๊ธฐ ํ๋กฌํํธ๊ฐ ์ ์คํ๊ฒ ์ค๊ณ๋์ด ์๋ค๋ฉด ๊ทธ ๋ชจ๋ธ์ ์ฒซ ๋ฒ์งธ ์๋ต(initial response)์ ์ด๋ฏธ ํด๋น ํ๋กฌํํธ์ ๋์ฝ๋ฉ ์๊ณ ๋ฆฌ์ฆ์ ๋ํด ์ต์ ํ๋ ๊ฒฐ๊ณผ์ผ ๊ฐ๋ฅ์ฑ์ด ๋๋ค.
๊ทธ๋ฐ๋ฐ ์ฌ๊ธฐ์ โํผ๋๋ฐฑ(feedback)โ์ ์ถ๊ฐํ๋ ํ์๋, ๊ฒฐ๊ตญ ๋ชจ๋ธ์๊ฒ ์ถ๊ฐ์ ์ธ ํ๋กฌํํธ๋ฅผ ๋ง๋ถ์ด๋ ๊ฒ์ผ๋ก ๋ณผ ์ ์๋ค.
์ด๋ก ์ธํด ๋ชจ๋ธ์ ์๋์ ์ง๋ฌธ์ ์ง์คํ๊ธฐ๋ณด๋ค, โ๊ธฐ์กด ๋ต๋ณ + ํผ๋๋ฐฑโ์ด๋ผ๋ ๋ณตํฉ ์ ๋ ฅ(combined input)์ ๋ง์ถฐ ์๋ก์ด ์๋ต์ ์์ฑํ๋ ค ํ๊ฒ ๋๋ค. ์ด๋ฌํ ๋ด์ฌ์ ์๊ธฐ๊ต์ (intrinsic self-correction) ์ค์ ์์๋, ํนํ ์ถ๋ก (reasoning)๊ณผ ๊ฐ์ ๊ณผ์ ์์ ์ด ์ถ๊ฐ ํ๋กฌํํธ๊ฐ ์ค์ ๋ก ๋ฌธ์ ํด๊ฒฐ์ ์ถ๊ฐ์ ์ธ ์ด์ ์ ์ ๊ณตํ์ง ์๋๋ค. ์คํ๋ ค, ๋ชจ๋ธ์ ์๋์ ์ต์ ์๋ต ๋ถํฌ์์ ๋ฒ์ด๋๊ฒ ํ์ฌ ์ฑ๋ฅ ์ ํ(performance drop)๋ฅผ ์ด๋ํ ์๋ ์๋ค.
LLM์ด ์ค์ค๋ก ์ถ๋ก (reasoning)์ ๊ต์ ํ ์ ์๋ ๋ ๋ค๋ฅธ ๊ฐ๋ฅ์ฑ์ผ๋ก, ์ฌ๋ฌ ๊ฐ์ ๋ชจ๋ธ ์ธ์คํด์ค๊ฐ ์๋ก์ ์๋ต์ ๋นํํ๊ณ ํ ๋ก ํ๋๋ก ํ๋ ๋ฉํฐ์์ด์ ํธ ํ ๋ก (Multi-Agent Debate) ๋ฐฉ์์ด ์ ์๋ ๋ฐ ์๋ค. (Du et al., 2023; Liang et al., 2023; Chen et al., 2023a).
Du et al. (2023)์ ํ๋์ ChatGPT ๋ชจ๋ธ์ ์ฌ๋ฌ ์ธ์คํด์ค๋ฅผ ํ์ฉํด ์๋ก์ ๋ต๋ณ์ ๋
ผ์ํ๊ณ ๊ฒ์ฆํ๋ โMulti-Agent Debateโ ๊ธฐ๋ฒ์ ๊ตฌํํ๋ค.
๊ทธ๋ค์ ์ด๋ฌํ ์ ๊ทผ์ด ์ถ๋ก ์ ํ๋์ ์ฌ์ค์ฑ (factuality)์ ๋์ธ๋ค๊ณ ๋ณด๊ณ ํ๋ค.
์ ์๋ค์ Du et al. (2023)์ ๋ฐฉ๋ฒ์ ๊ทธ๋๋ก ์ฌํํ์ฌ GSM8K ๋ฐ์ดํฐ์ ์์ ๋์ผํ ์คํ์ ์ํํ๋ค.
์ฆ, Multi-Agent Debate๋ "๋ชจ๋ธ ๊ฐ์ ํ ๋ก ๊ธฐ๋ฐ ํ๊ฐ"์ด๊ณ , Self-Consistency๋ "๋จ์ ๋ค์๊ฒฐ ๊ธฐ๋ฐ ํ๊ฐ"๋ผ๊ณ ๋ณผ ์ ์๋ค. ๋ ๋ฐฉ๋ฒ ๋ชจ๋ ์ฌ๋ฌ ๋ฒ์ ๋ชจ๋ธ ํธ์ถ์ ํ์๋ก ํ๋ฏ๋ก, ๋์ผํ ๋ชจ๋ธ ์๋ต ์๋ฅผ ๊ธฐ์ค์ผ๋ก ์ฑ๋ฅ์ ๋น๊ตํ๋ค.

๊ฒฐ๊ณผ๋ ๋ค์๊ณผ ๊ฐ์ด ์์ฝ๋๋ค.
์ฆ, ์์ด์ ํธ ๊ฐ์ "ํ ๋ก (debate)" ๊ณผ์ ์ด ์ถ๋ก ๋ฅ๋ ฅ์ ์ค์ง์ ์ผ๋ก ๊ฐ์ ํ ๊ฒ์ ์๋๋ฉฐ, ๋ค์ง ์ฌ๋ฌ ์๋ต์ ์์ฑํด ๊ทธ ์ค ์ฌ๋ฐ๋ฅธ ๊ฒ์ ๊ณ ๋ฅด๋ ํจ๊ณผ์ ๋ถ๊ณผํ๋ค๋ ๊ฒ์ด๋ค.
์ฌ์ค์ ๋ฉํฐ์์ด์ ํธ ํ ๋ก ์ "ํ ๋ก (debate)" ํน์ "๋นํ(critique)"์ผ๋ก ๋ณด๊ธฐ๋ณด๋ค, ์๊ธฐ์ผ๊ด์ฑ(self-consistency)์ ๋ฌ์ฑํ๊ธฐ ์ํ ๋ ๋ค๋ฅธ ํํ์ ์ ๊ทผ์ผ๋ก ๋ณด๋ ๊ฒ์ด ๋ ํ๋นํ๋ค.
๋ ๋ฐฉ๋ฒ ๋ชจ๋ ์ฌ๋ฌ ๋ฒ์ ๋ชจ๋ธ ํธ์ถ์ ์ํํ์ฌ ๋ค์ํ ์๋ต์ ์์ฑํ๊ณ , ๊ทธ ์ค์์ ์ผ๊ด๋ ๊ฒฐ๊ณผ๋ฅผ ์ฐพ๋๋ค๋ ์ ์์ ๋ณธ์ง์ ์ผ๋ก ๋์ผํ๋ค. ๋ค๋ง, ๋ ๋ฐฉ๋ฒ์ ์ฐจ์ด๋ ๋จ์ง "์ต์ข ์๋ต์ ์ ํํ๋ ๋ฐฉ์(selection mechanism)"์ ์๋ค.
ํ์ง๋ง ์คํ ๊ฒฐ๊ณผ์์ ๋ํ๋ ์ฑ๋ฅ ํฅ์์ ์ค์ง์ ์ธ ์๊ธฐ๊ต์ ์ ๊ฒฐ๊ณผ๋ผ๊ธฐ๋ณด๋ค, ๋จ์ํ ์ฌ๋ฌ ๋ฒ ์๋ํด๋ณธ ๊ฒ ์ค ์ต์ ์ ๊ฒฐ๊ณผ๋ฅผ ๊ณ ๋ฅธ ํจ๊ณผ์์ ๋น๋กฏ๋ ๊ฒ์ด๋ค.
๋ฐ๋ผ์, ๋ฉํฐ์์ด์ ํธ ํ ๋ก ์ด ์๊ธฐ๊ต์ ์ ํตํ ์ถ๋ก ๋ฅ๋ ฅ ํฅ์์ ์ฆ๊ฑฐ๋ก ๊ฐ์ฃผ๋์ด์๋ ์๋๋ค. ๊ทธ๋ณด๋ค๋, ์๊ธฐ์ผ๊ด์ฑ์ ํ๋ณดํ๋ ๋ค๋ฅธ ํํ์ ์ํ๋ง ๋ฐ ๋ค์๊ฒฐ ์ ๋ต์ผ๋ก ์ดํดํด์ผ ํ๋ค.
๋ฉํฐ ์์ด์ ํธ ํ ๋ก ์ ๋ณธ์ง์ ์ผ๋ก ์๊ธฐ์ผ๊ด์ฑ๊ณผ ๋์ผํ ๊ฐ๋ ์ ๋ค๋ฅธ ๋ฐฉ์์ผ๋ก ๊ตฌํํ ๊ฒ์ด๋ฉฐ, ์ค์ ๋ก๋ Self-Consistency๋ณด๋ค ์ฑ๋ฅ์ด ๋ฎ๋ค. ์ฆ, LLM์ด ์ค์ค๋ก ์ถ๋ก ์ ๊ต์ ํ ์ ์๋ค๋ ์ฃผ์ฅ์ ๋ฉํฐ์์ด์ ํธ ๊ตฌ์กฐ์์๋ ์ ์ฆ๋์ง ์์๋ค.
์์ 3์ฅ์์ ์ ์๋ ๋ชจ๋ ์ข ๋ฅ์ ํผ๋๋ฐฑ ํ๋กฌํํธ๋ฅผ ์คํํ์์๋ ๋ถ๊ตฌํ๊ณ ์๊ธฐ๊ต์ ์ด ์คํ๋ ค ์ถ๋ก ์ฑ๋ฅ์ ๋จ์ด๋จ๋ฆฐ๋ค๋ ์ฌ์ค์ ํ์ธํ๋ค.
์ด๋ฒ ์ฅ์์๋ ๊ทธ ์์ธ ์ค ํ๋๋ก ํ๋กฌํํธ ์ค๊ณ(prompt design)์ ์ง์ ํ๋ค. ํนํ, ์ด๊ธฐ ํ๋กฌํํธ(initial prompt)๊ฐ ์ถฉ๋ถํ ์ ๋ณด๋์ด ๋ง์ง ์์ ๊ฒฝ์ฐ, ์๊ธฐ๊ต์ ๋จ๊ณ๊ฐ ๋ง์น ํจ๊ณผ์ ์ธ ๊ฐ์ ์ฒ๋ผ ์ฐฉ์ ํจ๊ณผ๋ฅผ ๋ง๋ค์ด๋ผ ์ ์๋ค๋ ์ ์ ์คํ์ ์ผ๋ก ๋ณด์ฌ์ค๋ค.
์๊ธฐ๊ต์ ์คํ์์ ๋ชจ๋ธ์ ๋ ๋จ๊ณ์ ํ๋กฌํํธ๋ฅผ ์ฌ์ฉํ๋ค.
- ์ด๊ธฐ ์๋ต ์์ฑ ํ๋กฌํํธ(Initial Prompt)
๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ฑฐ๋ ๋ฌธ์ฅ์ ์์ฑํ๋๋ก ํ๋ ๊ธฐ๋ณธ ์ง์๋ฌธ
- ํผ๋๋ฐฑ ํ๋กฌํํธ(Feedback Prompt)
๋ชจ๋ธ์ด ์์ ์ด ๋ง๋ ๊ฒฐ๊ณผ๋ฅผ ๊ฒํ ํ๊ณ , ๋ถ์กฑํ ๋ถ๋ถ์ ์์ ํ๋๋ก ์ ๋ํ๋ ์ง์๋ฌธ
์๊ธฐ๊ต์ ์คํ์ ์ค๊ณํ ๋ ์ค์ํ ๊ฒ์, ์ด ๋ ํ๋กฌํํธ๊ฐ ๋์ผํ ์ ๋ณด ์์ค๊ณผ ์๊ตฌ ์กฐ๊ฑด์ ๋ฐ์ํด์ผ ํ๋ค๋ ์ ์ด๋ค.
๊ทธ๋ฌ๋ ๊ธฐ์กด์ ๋ง์ ์ฐ๊ตฌ์์๋ ์ด๊ธฐ ํ๋กฌํํธ๊ฐ ๋ถ์ถฉ๋ถํ๊ฑฐ๋ ๋ชจํธํ๊ฒ ์์ฑ๋์ด ์์๊ณ , ์๊ธฐ๊ต์ ๋จ๊ณ์ ํผ๋๋ฐฑ ํ๋กฌํํธ์๋ง ์ถ๊ฐ์ ์ธ ์กฐ๊ฑด์ ๋ช ์ํ๋ค. ์ด ๊ฒฝ์ฐ, ๋ชจ๋ธ์ ์๊ธฐ๊ต์ ๋๋ถ์ ์ข์์ง ๊ฒ์ด ์๋ ๋จ์ํ ๋ ๋ช ํํ ํ๋กฌํํธ๋ฅผ ๋ ๋ฒ์งธ์ ๋ฐ์๊ธฐ ๋๋ฌธ์ ์ฑ๋ฅ์ด ํฅ์๋ ๊ฒ์ด๋ค.
์ด ์ ์ ๋ณด์ฌ์ฃผ๊ธฐ ์ํด, ์ ์๋ค์ Madaan et al. (2023)์ โConstrained Generationโ ๊ณผ์ ๋ฅผ ์ฌ๋ถ์ํ๋ค. ์ด ๊ณผ์ ์ ๋ชฉํ๋ ๋ชจ๋ธ์ด ์ฃผ์ด์ง 20~30๊ฐ์ ๊ฐ๋ (concepts)์ ๋ชจ๋ ํฌํจํ๋ ์ผ๊ด๋ ๋ฌธ์ฅ์ ์์ฑํ๋ ๊ฒ์ด๋ค.
โ ๏ธ ๊ธฐ์กด ์ฐ๊ตฌ์ ๋ฌธ์
Madaan et al.์ ์๋ ํ๋กฌํํธ๋ โ๋ชจ๋ ๊ฐ๋ ์ ๋ฐ๋์ ํฌํจํด์ผ ํ๋คโ๋ ๋ช ์์ ์๊ตฌ์ฌํญ์ด ์์๋ค. ๋ฐ๋ผ์ ์ด๊ธฐ ์ถ๋ ฅ์์๋ ์ผ๋ถ ๊ฐ๋ ์ด ๋๋ฝ๋์๊ณ , ์ดํ ์๊ธฐ๊ต์ ๋จ๊ณ์์ โ๋๋ฝ๋ ๊ฐ๋ ์ ์ฐพ์ ์ถ๊ฐํ๋ผโ๋ ํผ๋๋ฐฑ์ด ์ฃผ์ด์ง๋ฉด์ ์ฑ๋ฅ์ด ์ข์์ง๋ ๊ฒ์ฒ๋ผ ๋ณด์๋ค.
โ ์ฆ, ์ฑ๋ฅ ํฅ์์ ์์ธ์ ์๊ธฐ๊ต์ ๊ณผ์ ์ด ์๋๋ผ, ํผ๋๋ฐฑ ํ๋กฌํํธ๊ฐ ์ด๊ธฐ ํ๋กฌํํธ๋ณด๋ค ๋ ๊ตฌ์ฒด์ ์ด์๊ธฐ ๋๋ฌธ์ด๋ค.
๐ง ๊ฐ์ ๋ ์คํ ์ค๊ณ
์ด๋ฌํ ๋ฌธ์ ๋ฅผ ๋ฐ๋ก์ก๊ธฐ ์ํด, ์ ์๋ค์ ์ด๊ธฐ ํ๋กฌํํธ๋ฅผ ๋ค์๊ณผ ๊ฐ์ด ์์ ํ๋ค.
โWrite a reasonable paragraph that includes ALL of the above concepts.โ
์ฆ, ํผ๋๋ฐฑ ํ๋กฌํํธ์ ์๊ตฌ์ฌํญ์ ์ด๊ธฐ ํ๋กฌํํธ์ ๋ฏธ๋ฆฌ ํตํฉํ ๊ฒ์ด๋ค.
์ดํ, ๋์ผํ ๋ชจ๋ธ(gpt-3.5-turbo-0613)์ ์ฌ์ฉํด Madaan et al. (2023)์ ๊ฒฐ๊ณผ๋ฅผ ๊ทธ๋๋ก ์ฌํํ๋, ์ด๊ธฐ ํ๋กฌํํธ๋ง ๋ฐ๊พผ ๋ฒ์ ๊ณผ ๋น๊ตํ์๋ค.

๊ฒฐ๊ณผ ํด์
์ฆ, ์ด์ ์ฐ๊ตฌ์์ โ์๊ธฐ๊ต์ ์ผ๋ก ์ธํ ํฅ์โ์ด๋ผ ์ฌ๊ฒจ์ก๋ ๊ฒ์, ์ฌ์ค์ โํ๋กฌํํธ ์ต์ ํ ํจ๊ณผ(prompt improvement)โ์๋ ๊ฒ์ด๋ค.
์ด ์คํ์ ํตํด ์ ์๋ค์ ๋ค์์ ์ค์ํ ๊ตํ์ ์ ์ํ๋ค. ๋ง์ฝ ๋ชจ๋ธ์ด ํน์ ํ์์ด๋ ๊ธฐ์ค์ ์ถฉ์กฑํด์ผ ํ๋ค๋ฉด (์: ๋ฌธ์ฅ์ ํน์ ๋จ์ด๋ฅผ ํฌํจ, ์ฝ๋์ ํจ์จ์ฑ, ๊ฐ์ ์ ๋ฐฉํฅ ๋ฑ), ๊ทธ๋ฌํ ์๊ตฌ์ฌํญ์ ํผ๋๋ฐฑ ํ๋กฌํํธ๊ฐ ์๋๋ผ ์ด๊ธฐ ํ๋กฌํํธ์ ๋ช ์์ ์ผ๋ก ํฌํจ์์ผ์ผ ํ๋ค. ๊ทธ๋ ์ง ์์ผ๋ฉด, ์๊ธฐ๊ต์ ์ ์ฑ๋ฅ ํฅ์์ ์ค์ ๋ก๋ โ๋ ๋ช ํํ ์ง์๋ฅผ ๋์ค์ ์ค ๊ฒฐ๊ณผโ์ ๋ถ๊ณผํ๊ฒ ๋๋ค.
๋ฐ๋ผ์, ์ด๊ธฐ ํ๋กฌํํธ๊ฐ ๋ถ์์ ํ๋ฉด ์๊ธฐ๊ต์ ์ด ๋ง์น ์ ํจํ ๊ฒ์ฒ๋ผ ๋ณด์ด์ง๋ง, ๋์ผํ ์์ค์ ์ง์๋ฅผ ์ฒ์๋ถํฐ ์ ๊ณตํ๋ค๋ฉด ์๊ธฐ๊ต์ ์ ๋๋ถ๋ถ ์ฑ๋ฅ์ ์ ํ์ํค๊ฑฐ๋ ๋ฌด์๋ฏธํ๋ค.
์ด ์ฐ๊ตฌ๋ ํ์ฌ์ ๋๊ท๋ชจ ์ธ์ด๋ชจ๋ธ(LLMs)์ด ์ธ๋ถ ํผ๋๋ฐฑ ์์ด ์ค์ค๋ก ์ถ๋ก (reasoning)์ ๊ต์ ํ ์ ์๋ค๋ ์ ์ ๋ช ํํ ๋ณด์ฌ์ค๋ค.์ฆ, ๋ชจ๋ธ์ด ์์ ์ ์ถ๋ ฅ์ด ์ณ์์ง ์ค์ค๋ก ํ๋จํ๊ณ ์์ ํ๋ ๋ฅ๋ ฅ์ธ ๋ด์ฌ์ ์๊ธฐ๊ต์ (intrinsic self-correction)์ ํ ์์ ์ LLM์๊ฒ๋ ์กด์ฌํ์ง ์๋๋ค.
์ด๋ โLLM์ด ์ค์ค๋ก ์ค๋ฅ๋ฅผ ์ธ์ํ๊ณ ์์ ํ ์ ์๋คโ๋ ๋๊ด์ ์ธ ๊ธฐ๋๊ฐ ํ์ค์ ์ผ๋ก ์ง๋์น๊ฒ ๊ณผ๋ํ๊ฐ๋์ด ์์์ ์๋ฏธํ๋ค.
๋ฐ๋ผ์ ์ฐ๊ตฌ ๊ณต๋์ฒด๋ ์๊ธฐ๊ต์ ๊ฐ๋ ์ ๋ฌด์กฐ๊ฑด์ ์ธ ๋ฐ์ ๋ฐฉํฅ์ผ๋ก ๋ฐ์๋ค์ด๊ธฐ๋ณด๋ค๋, ๊ทธ ๊ฐ๋ฅ์ฑ๊ณผ ํ๊ณ๋ฅผ ๋ช ํํ ์ธ์ํ๋ ๊ท ํ ์กํ ์๊ฐ์ ๊ฐ์ ธ์ผ ํ๋ค. ์ด๋ฌํ ๋นํ์ ๊ด์ ์ LLM์ ํ๊ณ๋ฅผ ์ง์ ์ผ๋ก ๊ทน๋ณตํ ์ ์๋ ์ฐจ์ธ๋ ์๊ธฐ๊ต์ ๊ธฐ๋ฒ์ ๊ฐ๋ฐํ๋ ๋ฐ ํ์์ ์ด๋ค.
์ ์๋ค์ LLM์ด ์๊ธฐ๊ต์ ๋ฅ๋ ฅ์ ์ ๋๋ก ๋ฐํํ ์ ์๋ ํ์ค์ ์กฐ๊ฑด๋ค์ ์ธ ๊ฐ์ง๋ก ์ ์ํ๋ค.
โ ์ธ๋ถ ํผ๋๋ฐฑ์ ์ ์ ํ ํ์ฉ
์ด๋ฒ ์ฐ๊ตฌ ๊ฒฐ๊ณผ๋ LLM์ด ์ธ๋ถ ํผ๋๋ฐฑ ์์ด๋ ์ถ๋ก ์ฑ๋ฅ์ ๊ฐ์ ํ์ง ๋ชปํจ์ ๋ณด์ฌ์ค๋ค. ๋ฐ๋ผ์ ์ธ๋ถ ํผ๋๋ฐฑ์ด ์ฃผ์ด์ง ์ ์๋ ์ํฉ์์๋ ์ด๋ฅผ ์ ๊ทน์ ์ผ๋ก ํ์ฉํ๋ ๊ฒ์ด ๋ฐ๋์งํ๋ค.
- ์ฝ๋ ์์ฑ(Code Generation)
Chen et al. (2023b)๋ ์ฝ๋ ์คํ ๊ฒฐ๊ณผ(execution result)๋ฅผ ํผ๋๋ฐฑ ํ๋กฌํํธ์ ํฌํจ์์ผ LLM์ด ์๋ชป๋ ์ฝ๋๋ฅผ ์ค์ค๋ก ์์ ํ๋๋ก ์ ๋ํ๋ค.
์ด ๊ฒฝ์ฐ ์ฝ๋ ์คํ๊ธฐ(code executor)๊ฐ ์๋ฒฝํ ๊ฒ์ฆ์(verifier) ์ญํ ์ ํ๋ฉฐ, ์๋ฌ ๋ฉ์์ง๋ ๋งค์ฐ ์ ์ฉํ ๊ต์ ์ ํธ๋ฅผ ์ ๊ณตํ๋ค.- ๋๊ตฌ ํ์ฉ(External Tools)
Gou et al. (2023)์ ๊ฒ์์์ง, ๊ณ์ฐ๊ธฐ ๋ฑ ์ธ๋ถ ๋๊ตฌ์ ์ํธ์์ฉํ ์ ์์ ๋ LLM์ ์๊ธฐ๊ฒ์ฆ ๋ฐ ๊ต์ ๋ฅ๋ ฅ์ด ์ ์๋ฏธํ๊ฒ ํฅ์๋๋ค๊ณ ๋ณด๊ณ ํ๋ค.- ๋ชจ๋ธ ๊ฐ ์ํธ๊ฒ์ฆ(Verifier Models)
Cobbe et al. (2021), Lightman et al. (2023), Wang et al. (2023b)๋ ๊ณ ํ์ง ๋ฐ์ดํฐ๋ก ํ๋ จ๋ ๊ฒ์ฆ ๋ชจ๋ธ(verifier or critique model)์ ํตํด LLM์ ์ถ๋ ฅ์ ํ๊ฐํ๊ณ ํผ๋๋ฐฑ์ ์ ๊ณตํ๋ ๋ฐฉ๋ฒ์ ์ ์ํ๋ค.- ์ธ๊ฐ ํผ๋๋ฐฑ(Human Feedback)
์ธ๊ฐ์ด ์ง์ ๊ต์ ๋ฐฉํฅ์ ์ ์ํ๊ฑฐ๋ ์ํ๋ ๊ฒฐ๊ณผ๋ฅผ ๋ช ํํ ์ค๋ช ํ๋ ๊ณผ์ ๋ ๊ฐ๋ ฅํ ์ธ๋ถ ํผ๋๋ฐฑ์ ํ ํํ๋ค.
โ ๊ฒฐ๊ตญ, LLM์ด ์ธ๋ถ ํ๊ฒฝ๊ณผ ์ํธ์์ฉํ๊ณ ํ์ตํ ์ ์๋ ๊ตฌ์กฐ๋ฅผ ๋ง๋๋ ๊ฒ์ด ํฅํ ์๊ธฐ๊ต์ ์ฐ๊ตฌ์ ํต์ฌ ๋ฐฉํฅ์ผ๋ก ์ ์ํ๋ค.
โก ๋์ผํ ์ฐ์ฐ๋น์ฉ(Inference Cost)์ ๊ณ ๋ คํ ๊ณต์ ํ ๋น๊ต
์๊ธฐ๊ต์ ์ ๋ณธ์ง์ ์ผ๋ก ์ฌ๋ฌ ๋ฒ์ ๋ชจ๋ธ ํธ์ถ์ ์๊ตฌํ๋ค.
์ฆ, ๊ณ์ฐ ๋น์ฉ๊ณผ ํ ํฐ ์ฌ์ฉ๋์ด ์ฆ๊ฐํ๋ฏ๋ก ์๊ธฐ๊ต์ ๊ธฐ๋ฒ์ ์ฑ๋ฅ์ ํ๊ฐํ ๋๋ ๋จ์ํ โ์ ํ๋๊ฐ ํฅ์๋์๋คโ๋ ๊ฒฐ๊ณผ๋ง์ผ๋ก๋ ์ถฉ๋ถํ์ง ์๋ค.
- ๋์ผํ ๋ชจ๋ธ ํธ์ถ ์, ๋์ผํ ํ ํฐ ์, ๋์ผํ ์๊ฐ ๋น์ฉ์ ๊ณ ๋ คํด์ผ ํ๋ค.
- ํฅํ ์ฐ๊ตฌ์์๋ ๋ฐ๋์ ์ถ๊ฐ ์ฐ์ฐ ๋น์ฉ์ ํฌํจํ ์ฑ๋ฅ ๋ถ์์ด ๋ณํ๋์ด์ผ ํ๋ค.
- ๊ฐ๋ฅํ๋ค๋ฉด ์ ์ ํธ์ถ ํ์๋ก๋ ์ต์ ํด๋ต์ ์์ฑํ ์ ์๋ ์ ๋ ฌ ๊ธฐ๋ฒ(alignment techniques) ๊ฐ๋ฐ์ด ํ์ํ๋ค.
โข ํ๋กฌํํธ ์ค๊ณ(Prompt Design)์ ๊ณต์ ์ฑ ํ๋ณด
์๊ธฐ๊ต์ ์ ์ฑ๋ฅ ํฅ์์ ์ข ์ข โํผ๋๋ฐฑ ํ๋กฌํํธ๊ฐ ์ด๊ธฐ ํ๋กฌํํธ๋ณด๋ค ๋ ์ ์ค๊ณ๋์ด ์์๊ธฐ ๋๋ฌธโ์ด์๋ค.
ํฅํ ์ฐ๊ตฌ์์๋ ๋ค์์ ์์น์ ๋ฐ๋ผ์ผ ํ๋ค.
- ์ด๊ธฐ ํ๋กฌํํธ์ ํผ๋๋ฐฑ ํ๋กฌํํธ์ ๋๋ฑํ ์์ค์ ์ ๋ณด์ ๋ช ์์ฑ์ ํฌํจํด์ผ ํ๋ค.
- ์๊ธฐ๊ต์ ์ ํจ๊ณผ๋ฅผ ํ๊ฐํ ๋๋ โํ๋กฌํํธ์ ์์ฑ๋ ์ฐจ์ดโ๊ฐ ์๋๋ผ ์ค์ง์ ์ธ ๊ต์ ๋ฅ๋ ฅ์ ์ฐจ์ด๋ฅผ ์ธก์ ํด์ผ ํ๋ค.
- โ๊ฐ์ ์กฐ๊ฑด์์ ๊ฐ์ ๋์ด๋์ ํ๋กฌํํธ๋ฅผ ์ฃผ์์ ๋, ์๊ธฐ๊ต์ ์ด ์ง์ง๋ก ๋์์ด ๋๋๊ฐ?โ๊ฐ ์ด ์ง๋ฌธ์ด ํต์ฌ์ด๋ค.
์ ์๋ค์ ์์ ์ธ ๊ฐ์ง ๋ ผ์ ์ ์ข ํฉํด, ์๊ธฐ๊ต์ ์ฐ๊ตฌ์ ์ฌ๋ฐ๋ฅธ ๋ฐ์ ๋ฐฉํฅ์ ๋ค์๊ณผ ๊ฐ์ด ์ ๋ฆฌํ๋ค.
ํ์ฌ์ LLM์ ์๊ธฐ ์ธ์(Self-awareness), ์ถ๋ก ๊ฒ์ฆ(Reasoning verification), ์๊ธฐ ๋นํ(Self-evaluation) ๊ณผ ๊ฐ์ ๊ณ ์ฐจ์ ์ธ์ง ๊ณผ์ ์ ์ํํ ๋ฅ๋ ฅ์ด ๋ถ์กฑํ๋ค. ๊ทธ ๊ฒฐ๊ณผ, ์๊ธฐ๊ต์ ์ ์ธ๋ถ ํผ๋๋ฐฑ์ด ์์ ๊ฒฝ์ฐ ์ฑ๋ฅ ํฅ์๋ณด๋ค ์๊ณก(bias)๊ณผ ์ฑ๋ฅ ์ ํ(performance degradation)๋ฅผ ์ด๋ํ๋ค.
๋ฐ๋ผ์ ํฅํ ์ฐ๊ตฌ์๋ค์ ์๊ธฐ๊ต์ (Self-Correction)์ โ์๋์ ์๊ธฐ์ฑ์ฐฐ ๋ฅ๋ ฅโ์ผ๋ก ๊ณผ๋ํ๊ฐํ์ง ๋ง๊ณ , ๊ทธ ํ๊ณ๋ฅผ ์ธ์ํ ์ฑ ์ธ๋ถ ํผ๋๋ฐฑ๊ณผ์ ํตํฉ์ ์ ๊ทผ์ผ๋ก ๋ฐ์ ์์ผ์ผ ํ๋ค.
- ์ด๋ฒ ๊ธ์์๋ LLM์ ์๊ธฐ๊ต์ (Self-Correction) ๊ฐ๋ ์ ๋ํด ๊น์ด ์๊ฒ ์ดํด๋ณด์๋๋ฐ, CoVe๋ Self-Refine ๊ฐ์ ๋ด์ฌ์ ์๊ธฐ๊ต์ ๋ฐฉ์๋ค์ด ๋จ์ํ โํ ๋ฒ ๋ ์๊ฐํ๋คโ๋ ์ด์ ๋ง์ผ๋ก ์ฑ๋ฅ์ด ํฅ์๋๋ ๊ฒ์ด ์๋๋ผ, ์คํ๋ ค ์๋ชป๋ ๋ฐฉํฅ์ผ๋ก ์ค์ค๋ก๋ฅผ ํ์ ํ๋ ์ํ์ฑ์ด ์๋ค๋ ์ ์ด ์ธ์ ๊น์๋ค.
- ํนํ ๊ธฐ์กด ์ฐ๊ตฌ๋ค์ด ์๊ธฐ๊ต์ ์ ์ฑ๋ฅ ํฅ์์ ๋ณด์๋ ์ด์ ๊ฐ, ์๊ณ ๋ณด๋ ํ๋กฌํํธ ์ค๊ณ์ ๋ถ๊ท ํ๊ณผ ์ค๋ผํด ๋ ์ด๋ธ ์์กด์ฑ ๋๋ฌธ์ด์๋ค๋ ๋ถ๋ถ์ด ์ ๊ธฐํ๋ค. โ๋ชจ๋ธ์ด ์ ๊ณ ์ณค๋คโ๋ผ๊ณ ์๊ฐํ๋ ๊ฒฐ๊ณผ๊ฐ ์ค์ ๋ก๋ ๋จ์ง ๋ ๋ช ํํ ์ง์๋ฅผ ๋์ค์ ์ค ํจ๊ณผ์๋ค๋ ์ ์ด, AI ์ฐ๊ตฌ์์ ํ๋กฌํํธ ์ค๊ณ์ ํ๊ฐ ๊ธฐ์ค์ ์ค์์ฑ์ ๋ค์๊ธ ๋๋ผ๊ฒ ํ๋ค.
- ๋ํ, ํด๋น ๋ ผ๋ฌธ์ด ์๋นํ ๋นํ์ ์ธ ์ฐ๊ตฌ ํ๋๊ฐ ์ธ์๊น์๋ค. ๋๋ถ๋ถ์ ๋ ผ๋ฌธ์์๋ ๊ธฐ์กด ๋ชจ๋ธ์ ํ๊ณ๋ฅผ ์ธ๊ธํ์ง๋ง, ์๋ก์ด ์ฑ๋ฅ ํฅ์์ด๋ ๋ชจ๋ธ ์ ์์ด ์ฃผ ๋ด์ฉ์ด๋ค. ํ์ง๋ง ํด๋น ๋ ผ๋ฌธ์ ๊ธฐ์กด ๋ชจ๋ธ์ ๋ํ ๋นํ์ด ์ฃผ๋ ๋ด์ฉ์ด์ด์ ์ ๊ธฐํ๊ณ ์ฌ๋ฐ๊ฒ ์ฝ์ ๊ฒ ๊ฐ๋ค.