[๋…ผ๋ฌธ ๋ฆฌ๋ทฐ]Large Language Models Cannot Self-Correcting Reasoning Yet

gyoonยท2025๋…„ 10์›” 27์ผ

NLP

๋ชฉ๋ก ๋ณด๊ธฐ
10/12

๐Ÿ’ก CoVe๋ž€?


CoVe(Chain-of-Verification)์€ ๋Œ€ํ˜• ์–ธ์–ด ๋ชจ๋ธ(LLM)์—์„œ ๋ฐœ์ƒํ•˜๋Š” ํ™˜๊ฐ์„ ์ค„์ด๊ธฐ ์œ„ํ•œ ๊ฒ€์ฆ ์ฒด์ธ ๋ฐฉ๋ฒ•์ด๋‹ค.

CoVe๋Š” ๋ชจ๋ธ์ด ์‘๋‹ต์„ ์ƒ์„ฑํ•œ ํ›„, ์Šค์Šค๋กœ ๊ทธ ์‘๋‹ต์˜ ์ •ํ™•์„ฑ์„ ๊ฒ€์ฆํ•˜๋Š” ์ผ๋ จ์˜ ์งˆ๋ฌธ์„ ๊ณ„ํšํ•˜๊ณ , ๊ทธ ์งˆ๋ฌธ์— ๋…๋ฆฝ์ ์œผ๋กœ ๋‹ตํ•œ ํ›„ ์ตœ์ข…์ ์œผ๋กœ ๊ฒ€์ฆ๋œ ์‘๋‹ต์„ ์ƒ์„ฑํ•˜๋Š” ๊ณผ์ •์ด๋‹ค. LLM์—์„œ ์ƒ์„ฑ๋œ ์‘๋‹ต์„ ์‚ฌ์šฉํ•ด์„œ ์ž์ฒด์ ์œผ๋กœ ๊ฒ€์ฆํ•  ์ˆ˜ ์žˆ๋‹ค๋Š” ๊ฐœ๋…์— ๊ทผ๊ฑฐํ•˜๊ณ  ์žˆ๋‹ค.

CoVe๋Š” CoT ๋ฐฉ์‹์—์„œ ํ•œ ๋‹จ๊ณ„ ๋” ๋‚˜์•„๊ฐ€, LLM์ด ์Šค์Šค๋กœ ์ƒ์„ฑํ•œ ๋‹ต๋ณ€์˜ ๊ทผ๊ฑฐ๋ฅผ ๋‹จ๊ณ„๋ณ„๋กœ ๊ฒ€์ฆํ•˜๊ณ  ์ •๋‹นํ™”ํ•˜๋Š” ๋ฉ”์ปค๋‹ˆ์ฆ˜์„ ๋„์ž…ํ•œ ํ”„๋กฌํ”„ํŠธ ์ „๋žต์ด๋‹ค. CoT๊ฐ€ "๋‹ต์„ ๋„์ถœํ•˜๋Š” ๊ณผ์ •"์— ์ง‘์ค‘ํ–ˆ๋‹ค๋ฉด, CoVe๋Š” "๋‹ต์ด ์ ์ ˆํ•œ์ง€ ๊ฒ€ํ† ํ•˜๋Š” ๊ณผ์ •"์„ ํฌํ•จํ•˜๋Š” ์ง„ํ™”๋œ ํ”„๋กฌํ”„ํŠธ ๊ธฐ๋ฒ•์ด๋‹ค.

ํ•ญ๋ชฉCoVe PromptingCoT Prompting์ผ๋ฐ˜ Prompting
๊ตฌ์กฐ์ถ”๋ก  + ๊ฒ€์ฆ + ์ •๋‹นํ™” ๋‹จ๊ณ„ ํฌํ•จ์ถ”๋ก  ๊ณผ์ • ๊ฐ•์กฐ๋‹จ์ผ ์‘๋‹ต ์ถœ๋ ฅ
์˜ค๋ฅ˜ ๊ฐ์ง€LLM ์ž์ฒด ํ™•์ธ ๊ฐ€๋Šฅ์—†์Œ์—†์Œ
์‹ ๋ขฐ๋„๋†’์Œ์ค‘๊ฐ„๋‚ฎ์Œ
ํ”„๋กฌํ”„ํŠธ ๊ธธ์ด๊น€ (๋ฉ€ํ‹ฐ ์Šคํ…Œ์ด์ง€)์ค‘๊ฐ„์งง์Œ

CoVe๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™์€ ๊ตฌ์„ฑ ์š”์†Œ๋กœ ์ด๋ฃจ์–ด์ ธ ์žˆ๋‹ค.

  • ๋ฌธ์ œ ์ œ์‹œ (Task Prompt): ์‚ฌ์šฉ์ž ์งˆ๋ฌธ ๋˜๋Š” ๋ฌธ์ œ [LLM์˜ ์‘๋‹ต ์œ ๋„ ์‹œ์ž‘์ ]
  • Chain-of-Thought(CoT): ์ถ”๋ก  ๋‹จ๊ณ„ ์„œ์ˆ  ์œ ๋„ [๋ฌธ์ œ ํ•ด๊ฒฐ ๊ณผ์ • ๋„์ถœ]
  • Self-Verification: LLM์ด ์ถ”๋ก  ๋‹จ๊ณ„๋ณ„ ์˜ค๋ฅ˜๋ฅผ ์ ๊ฒ€ [์ •ํ™•์„ฑ ์žฌ๊ฒ€ํ†  ๋ฐ ์˜ค๋‹ต ๊ต์ •]
  • Justification: ๋‹ต๋ณ€ ๊ทผ๊ฑฐ๋ฅผ ๋ช…์‹œ์ ์œผ๋กœ ์ƒ์„ฑ [์„ค๋ช… ๊ฐ€๋Šฅ์„ฑ๊ณผ ์‹ ๋ขฐ์„ฑ ๊ฐ•ํ™”]
  • Final Answer: ๊ฒ€์ฆ๋œ ์ตœ์ข… ์‘๋‹ต ์ถœ๋ ฅ [์‚ฌ์šฉ์ž ์ตœ์ข… ์ธํ„ฐํŽ˜์ด์Šค๋กœ ์ œ๊ณต]

CoVe๋Š” LLM์˜ ์‘๋‹ต ์‹ ๋ขฐ์„ฑ์„ ๋†’์ด๊ธฐ ์œ„ํ•œ ๊ณ ๊ธ‰ ํ”„๋กฌํ”„ํŠธ ์„ค๊ณ„ ์ „๋žต์œผ๋กœ ๊ฐ๊ด‘๋ฐ›๊ณ  ์žˆ๊ณ , ๋ชจ๋ธ ์™ธ๋ถ€์˜ ํ‰๊ฐ€ ์—†์ด๋„ ํ’ˆ์งˆ ํ–ฅ์ƒ์ด ๊ฐ€๋Šฅํ•˜๋‹ค๋Š” ์ ์—์„œ ํฐ ์ฃผ๋ชฉ์„ ๋ฐ›๊ณ  ์žˆ๋‹ค.


๐Ÿ’กSelf-refine์ด๋ž€?


์ธ๊ฐ„์ด ์ž์‹ ์˜ ์“ด ๊ธ€์„ ๊ฐœ์„ ํ•˜๋Š” ๋ฐฉ์‹๊ณผ ์œ ์‚ฌํ•˜๊ฒŒ, LLM์ด ๋ฐ˜๋ณต์ ์œผ๋กœ ํ”ผ๋“œ๋ฐฑํ•˜๊ณ  ์ˆ˜์ •ํ•˜๋Š” ๊ณผ์ •์„ ํ†ตํ•ด ๊ฒฐ๊ณผ๋ฌผ์„ ๊ฐœ์„ ํ•˜๋Š” ๋ฐฉ์‹์„ Self-Refine ๋ฐฉ์‹์ด๋ผ ํ•œ๋‹ค.


LLM์˜ ์„ฑ๋Šฅ์€ ๋›ฐ์–ด๋‚˜์ง€๋งŒ, ๋ณต์žกํ•œ ์š”๊ตฌ์‚ฌํ•ญ์ด๋‚˜ ์ •์˜ํ•˜๊ธฐ ์–ด๋ ค์šด ๋ชฉํ‘œ๊ฐ€ ์ฃผ์–ด์กŒ์„ ๋•Œ๋Š” ์„ฑ๋Šฅ์ด ๋–จ์–ด์ง€๋Š” ๊ฒฝ์šฐ๊ฐ€ ์กด์žฌํ•œ๋‹ค. ๊ธฐ์กด์˜ ๋ฐฉ์‹๋“ค์€ ์ถ”๊ฐ€์ ์ธ ์ˆ˜์ •์ด ํ•„์š”ํ•  ๋•Œ ๋ณ„๋„์˜ refinement model์„ ์„ค๊ณ„ํ•˜๊ฑฐ๋‚˜, ๋” ํฐ training data ๋˜๋Š” expensiveํ•œ ๋ผ๋ฒจ๋ง์„ ํ•„์š”๋กœ ํ–ˆ๋‹ค.

๋”ฐ๋ผ์„œ Self-Refine์ด๋ผ๋Š” ์ƒˆ๋กœ์šด ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ ๋งŒ๋“ค์–ด Feedback๊ณผ Refine ๋‹จ๊ณ„๋ฅผ ๋ฐ˜๋ณต์ ์œผ๋กœ ๊ฑฐ์น˜๋ฉด์„œ high-quality output์„ ์ƒ์„ฑํ•  ์ˆ˜ ์žˆ๋„๋ก ํ•œ๋‹ค. ๋ชจ๋ธ์ด initial output์„ ๋งŒ๋“ค๋ฉด, ๋™์ผํ•œ ๋ชจ๋ธ์ด ๋” ์ด์ƒ์˜ ๊ฐœ์„ ์ด ํ•„์š”์—†๋‹ค๊ณ  ํŒ๋‹จํ•  ๋•Œ๊นŒ์ง€ ํ•ด๋‹น ๋ฐฉ์‹์„ ๋ฐ˜๋ณตํ•œ๋‹ค.

Self-Refine์˜ 3๋‹จ๊ณ„ ์ž‘๋™ ๋ฉ”์ปค๋‹ˆ์ฆ˜์€ ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค.

  • ์ƒ์„ฑ: ์ดˆ๊ธฐ ๊ฒฐ๊ณผ๋ฌผ์„ ์ƒ์„ฑํ•œ๋‹ค.
  • ์ž๊ฐ€ ์ง„๋‹จ: ์ƒ์„ฑ๋œ ๊ฒฐ๊ณผ๋ฌผ์„ ์Šค์Šค๋กœ ํ‰๊ฐ€ํ•˜๊ณ  ๋ฌธ์ œ์ ์„ ๋ถ„์„ํ•œ๋‹ค.
  • ์ˆ˜์ •: ๋ถ„์„๋œ ๋ฌธ์ œ์ ์„ ๋ฐ”ํƒ•์œผ๋กœ ๊ฒฐ๊ณผ๋ฌผ์„ ๊ฐœ์„ ํ•œ๋‹ค.

์˜ค๋Š˜ ์•Œ์•„๋ณผ ๋…ผ๋ฌธ์—์„œ๋Š” CoVe๋‚˜ Self-Refine๊ณผ ๊ฐ™์€ ๋‚ด์žฌ์  ์ž๊ธฐ ๊ต์ • ๋ฐฉ์‹์˜ ๊ทผ๋ณธ์ ์ธ ํ•œ๊ณ„๋ฅผ ์ง€์ ํ•˜์˜€๋‹ค. LLM์ด ์™ธ๋ถ€ ํ”ผ๋“œ๋ฐฑ ์—†์ด๋Š” ์ž์‹ ์˜ ์ถ”๋ก  ์˜ค๋ฅ˜๋ฅผ ์•ˆ์ •์ ์œผ๋กœ ๊ฐ์ง€ํ•˜๊ณ  ์ˆ˜์ •ํ•˜๋Š” ๋ฐ ํ•œ๊ณ„๊ฐ€ ์žˆ์Œ์„ ์‹คํ—˜์ ์œผ๋กœ ๋ณด์ธ ์—ฐ๊ตฌ์ด๋‹ค.


๐Ÿ”นAbstract


๋Œ€๊ทœ๋ชจ ์–ธ์–ด๋ชจ๋ธ(LLM)์€ ๋‹ค์–‘ํ•œ ์‘์šฉ ๋ถ„์•ผ์—์„œ ํƒ์›”ํ•œ ํ…์ŠคํŠธ ์ƒ์„ฑ ๋Šฅ๋ ฅ์„ ๋ณด์—ฌ์ฃผ๋ฉฐ ์ธ๊ณต์ง€๋Šฅ(AI)์˜ ์ƒˆ๋กœ์šด ์ „ํ™˜์ ์„ ์ด๋Œ๊ณ  ์žˆ๋‹ค. ๊ทธ๋Ÿผ์—๋„ ๋ถˆ๊ตฌํ•˜๊ณ , LLM์ด ์ƒ์„ฑํ•˜๋Š” ๋‚ด์šฉ์˜ ์ •ํ™•์„ฑ๊ณผ ์ ์ ˆ์„ฑ์— ๋Œ€ํ•œ ์šฐ๋ ค๋Š” ์—ฌ์ „ํžˆ ์กด์žฌํ•œ๋‹ค.

์ด๋Ÿฌํ•œ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•œ ํ˜„๋Œ€์  ์ ‘๊ทผ๋ฒ• ์ค‘ ํ•˜๋‚˜๋กœ ์ž๊ธฐ ๊ต์ •(self-correction)์ด ์ œ์•ˆ๋˜์–ด ์™”๋‹ค.
์ด ์—ฐ๊ตฌ๋Š” ์ด๋Ÿฌํ•œ ์ ‘๊ทผ๋ฒ•์„ ๋ฐ”ํƒ•์œผ๋กœ, LLM ๋‚ด๋ถ€์—์„œ ์ด๋ฃจ์–ด์ง€๋Š” ์ž๊ธฐ ๊ต์ •์ด ์‹ค์ œ๋กœ ์–ด๋–ค ์—ญํ• ๊ณผ ํ•œ๊ณ„๋ฅผ ๊ฐ€์ง€๋Š”์ง€๋ฅผ ๋น„ํŒ์ ์œผ๋กœ ๋ถ„์„ํ•˜๊ณ ์ž ํ•œ๋‹ค.

์ด ๋…ผ๋ฌธ์˜ ํ•ต์‹ฌ์€ ๋‚ด์žฌ์  ์ž๊ธฐ ๊ต์ •(intrinsic self-correction)์ด๋‹ค.
์ด๋Š” ์™ธ๋ถ€์˜ ํ”ผ๋“œ๋ฐฑ์ด๋‚˜ ๋ณด์กฐ ์ˆ˜๋‹จ ์—†์ด, LLM์ด ์˜ค์ง ์ž์‹ ์˜ ๋‚ด์  ๋Šฅ๋ ฅ๋งŒ์„ ๋ฐ”ํƒ•์œผ๋กœ ์ž์‹ ์˜ ์ดˆ๊ธฐ ์‘๋‹ต์„ ์Šค์Šค๋กœ ์ˆ˜์ •ํ•˜๋ ค๋Š” ๊ณผ์ •์„ ์˜๋ฏธํ•œ๋‹ค.

<๋ณธ ์—ฐ๊ตฌ์˜ ์ฃผ์š” ๊ฒฐ๊ณผ>

  • LLM์€ ์™ธ๋ถ€ ํ”ผ๋“œ๋ฐฑ์ด ์ฃผ์–ด์ง€์ง€ ์•Š์€ ์ƒํƒœ์—์„œ ์ž๊ธฐ ์Šค์Šค๋กœ์˜ ์ถ”๋ก  ์˜ค๋ฅ˜๋ฅผ ๊ต์ •ํ•˜๋Š” ๋ฐ ์–ด๋ ค์›€์„ ๊ฒช๋Š”๋‹ค.
  • ์ผ๋ถ€ ๊ฒฝ์šฐ์—๋Š” ์˜คํžˆ๋ ค ์ž๊ธฐ ๊ต์ • ์ดํ›„ ์„ฑ๋Šฅ์ด ๋” ์•…ํ™”๋˜๋Š” ํ˜„์ƒ์ด ๋‚˜ํƒ€๋‚œ๋‹ค๋Š” ๊ฒƒ์ด ๋ฐœ๊ฒฌ๋๋‹ค.

์ด๋Ÿฌํ•œ ๋ถ„์„ ๊ฒฐ๊ณผ๋ฅผ ๋ฐ”ํƒ•์œผ๋กœ, ๋ณธ ๋…ผ๋ฌธ์€ ์ž๊ธฐ ๊ต์ • ์—ฐ๊ตฌ์˜ ์‹ค์ œ์  ๊ฐ€๋Šฅ์„ฑ๊ณผ ํ•œ๊ณ„๋ฅผ ํ•จ๊ป˜ ์กฐ๋ช…ํ•˜๋ฉฐ, ํ–ฅํ›„ ์—ฐ๊ตฌ ๋ฐ ์‹ค์šฉ์  ์‘์šฉ์—์„œ ๊ณ ๋ คํ•ด์•ผ ํ•  ๋ฐฉํ–ฅ์„ฑ์„ ์ œ์‹œํ•œ๋‹ค.


๐Ÿ”นIntroduction


์ธ๊ณต์ง€๋Šฅ(AI) ๋ถ„์•ผ์˜ ๊ธ‰๊ฒฉํ•œ ๋ฐœ์ „์€ ์˜ค๋Š˜๋‚  ๋Œ€๊ทœ๋ชจ ์–ธ์–ด๋ชจ๋ธ(Large Language Models, LLMs)์˜ ์‹œ๋Œ€๋ฅผ ์—ด์—ˆ๋‹ค. ์ด๋“ค ๋ชจ๋ธ์€ ๋ฐฉ๋Œ€ํ•œ ์ˆ˜์˜ ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ๋ฐ”ํƒ•์œผ๋กœ ์ „๋ก€์—†๋Š” ์ˆ˜์ค€์˜ ํ…์ŠคํŠธ ์ƒ์„ฑ ๋Šฅ๋ ฅ์„ ๋ณด์ด๋ฉฐ, ์ˆ˜๋งŽ์€ ์‘์šฉ ๋ถ„์•ผ์—์„œ ๋›ฐ์–ด๋‚œ ์„ฑ๊ณผ๋ฅผ ๋ณด์—ฌ์™”๋‹ค.

๊ทธ๋Ÿฌ๋‚˜ ๋™์‹œ์—, ์ด๋Ÿฌํ•œ LLM์˜ ์ •ํ™•์„ฑ(accuracy), ์ถ”๋ก (reasoning) ๋Šฅ๋ ฅ, ๊ทธ๋ฆฌ๊ณ  ์ƒ์„ฑ๋œ ์ฝ˜ํ…์ธ ์˜ ์•ˆ์ „์„ฑ(safety)์— ๋Œ€ํ•œ ์šฐ๋ ค ๋˜ํ•œ ์ง€์†์ ์œผ๋กœ ์ œ๊ธฐ๋˜๊ณ  ์žˆ๋‹ค.


๐Ÿ”ป ์ž๊ธฐ ๊ต์ •(self-Correction)์˜ ๋“ฑ์žฅ

์ด๋Ÿฌํ•œ ๋ฐฐ๊ฒฝ ์†์—์„œ, ์ž๊ธฐ ๊ต์ •(Self-Correction)์ด๋ผ๋Š” ๊ฐœ๋…์ด LLM์˜ ํ•œ๊ณ„๋ฅผ ๋ณด์™„ํ•  ์ˆ˜ ์žˆ๋Š” ์œ ๋งํ•œ ํ•ด๊ฒฐ์ฑ…์œผ๋กœ ์ฃผ๋ชฉ๋ฐ›๊ธฐ ์‹œ์ž‘ํ–ˆ๋‹ค.

์ž๊ธฐ ๊ต์ •์ด๋ž€ ๋ชจ๋ธ์ด ์ž์‹ ์˜ ์ด์ „ ์ถœ๋ ฅ์— ๋Œ€ํ•ด ํ”ผ๋“œ๋ฐฑ์„ ์ƒ์„ฑํ•˜๊ณ , ๊ทธ ํ”ผ๋“œ๋ฐฑ์„ ๋ฐ”ํƒ•์œผ๋กœ ์‘๋‹ต์„ ๊ฐœ์„ ํ•˜๋Š” ๊ณผ์ •์ด๋‹ค. ํ•˜์ง€๋งŒ ์ด๋Ÿฌํ•œ ์—ฐ๊ตฌ๋“ค์ด ์ œ์•ˆํ•˜๋Š” ์ž๊ธฐ ๊ต์ •์˜ ๊ธฐ์ € ๋ฉ”์ปค๋‹ˆ์ฆ˜๊ณผ ์‹ค์งˆ์  ํšจ๊ณผ๋Š” ์—ฌ์ „ํžˆ ์ถฉ๋ถ„ํžˆ ๋ฐํ˜€์ง€์ง€ ์•Š์•˜๋‹ค.

์ด์— ๋”ฐ๋ผ ํ•˜๋‚˜์˜ ๊ทผ๋ณธ์ ์ธ ์˜๋ฌธ์ด ์ œ๊ธฐ๋œ๋‹ค.

"๋งŒ์•ฝ LLM์ด ์Šค์Šค๋กœ๋ฅผ ๊ต์ •ํ•  ์ˆ˜ ์žˆ๋‹ค๋ฉด, ์™œ ์ฒ˜์Œ๋ถ€ํ„ฐ ์˜ฌ๋ฐ”๋ฅธ ๋‹ต์„ ๋‚ด์ง€ ์•Š๋Š”๊ฐ€?"

๋ณธ ๋…ผ๋ฌธ์€ ์ด ์งˆ๋ฌธ์„ ์ค‘์‹ฌ์— ๋‘๊ณ , LLM์˜ ์ž๊ธฐ ๊ต์ • ๋Šฅ๋ ฅ์„ ๋น„ํŒ์ ์ด๊ณ  ์‹ค์ฆ์ ์œผ๋กœ ๋ถ„์„ํ•œ๋‹ค. ํŠนํžˆ ๋ณธ ์—ฐ๊ตฌ๋Š” ๊ทธ์ค‘์—์„œ๋„ ์ถ”๋ก (reasoning) ๋Šฅ๋ ฅ์— ์ดˆ์ ์„ ๋งž์ถ˜๋‹ค.


๐Ÿ”ป๋‚ด์žฌ์  ์ž๊ธฐ ๊ต์ •(Instrinsic Self-Correction)

์ด๋ฅผ ์—ฐ๊ตฌํ•˜๊ธฐ ์œ„ํ•ด, ์ €์ž๋Š” ๋จผ์ € "๋‚ด์žฌ์  ์ž๊ธฐ ๊ต์ •(intrinsic self-correction)"์ด๋ผ๋Š” ๊ฐœ๋…์„ ์ •์˜ํ•œ๋‹ค. ์ด๊ฒƒ์€ LLM์ด ์™ธ๋ถ€ ํ”ผ๋“œ๋ฐฑ์ด๋‚˜ ์ถ”๊ฐ€ ๋„๊ตฌ์˜ ๋„์›€ ์—†์ด, ์˜ค์ง ์ž์‹ ์ด ๊ฐ€์ง„ ๋‚ด์žฌ๋œ ๋Šฅ๋ ฅ๋งŒ์œผ๋กœ ์ž์‹ ์˜ ์‘๋‹ต์„ ๊ฒ€ํ† ํ•˜๊ณ  ์ˆ˜์ •ํ•˜๋ ค๋Š” ์ƒํ™ฉ์„ ์˜๋ฏธํ•œ๋‹ค.

์ด๋Ÿฌํ•œ ์„ค์ •์€ ์—ฌ๋Ÿฌ ๋ฉด์—์„œ ์ค‘์š”ํ•˜๋‹ค.

  • ์‹ค์ œ ์‘์šฉ ํ™˜๊ฒฝ์—์„œ๋Š” ๊ณ ํ’ˆ์งˆ์˜ ์™ธ๋ถ€ ํ”ผ๋“œ๋ฐฑ์„ ์–ป๊ธฐ ์–ด๋ ค์šด ๊ฒฝ์šฐ๊ฐ€ ๋งŽ๋‹ค.
  • LLM์˜ ์ง„์ •ํ•œ ์ž ์žฌ ๋Šฅ๋ ฅ์„ ์ดํ•ดํ•˜๊ธฐ ์œ„ํ•ด์„œ๋Š” ์™ธ๋ถ€ ์‹ ํ˜ธ ์—†์ด ์ž๊ธฐ ์Šค์Šค๋กœ ์–ผ๋งˆ๋‚˜ ํŒ๋‹จํ•˜๊ณ  ์ˆ˜์ •ํ•  ์ˆ˜ ์žˆ๋Š”์ง€๋ฅผ ํŒŒ์•…ํ•ด์•ผ ํ•œ๋‹ค.

๊ทธ๋Ÿฌ๋‚˜ ์ตœ๊ทผ ์ž๊ธฐ ๊ต์ • ์—ฐ๊ตฌ๋“ค์ด ๋ณด์—ฌ์ฃผ๋Š” ๋‚™๊ด€์ ์ธ ๊ฒฐ๊ณผ์™€ ๋‹ฌ๋ฆฌ, ๋ณธ ์—ฐ๊ตฌ์˜ ๋ฐœ๊ฒฌ์€ LLM์ด ์ด๋Ÿฌํ•œ ๋‚ด์žฌ์  ์„ค์ •์—์„œ ์ถ”๋ก  ์˜ค๋ฅ˜๋ฅผ ๊ต์ •ํ•˜๋Š” ๋ฐ ์‹คํŒจํ•˜๋ฉฐ, ๋Œ€๋ถ€๋ถ„์˜ ๊ฒฝ์šฐ ์ž๊ธฐ ๊ต์ • ์ดํ›„ ์„ฑ๋Šฅ์ด ์˜คํžˆ๋ ค ์ €ํ•˜๋จ์„ ๋ณด์—ฌ์ค€๋‹ค.


๐Ÿ”ป ๊ธฐ์กด ์—ฐ๊ตฌ์˜ ๋ฌธ์ œ์ 

๋ณธ ์—ฐ๊ตฌ๋Š” ๊ธฐ์กด ์ž๊ธฐ ๊ต์ • ๊ณผ๋ จ ๋ฌธํ—Œ์ด ๊ฐ€์ง„ ์„ธ ๊ฐ€์ง€ ์ฃผ์š” ํ•œ๊ณ„๋ฅผ ์ง€์ ํ•œ๋‹ค.

  1. Oracle Label(์ •๋‹ต ๋ ˆ์ด๋ธ”) ์˜์กด์„ฑ
    Kim et al. (2023) ๋ฐ Shinn et al. (2023) ๋“ฑ์˜ ์—ฐ๊ตฌ์—์„œ ๋ณด๊ณ ๋œ ์„ฑ๋Šฅ ํ–ฅ์ƒ์€, ์‹ค์ œ๋กœ๋Š” ์ •๋‹ต ๋ผ๋ฒจ(oracle label)์„ ์ด์šฉํ•ด โ€œ์ •๋‹ต์ผ ๋•Œ๋งŒ ์ˆ˜์ • ์ข…๋ฃŒโ€ํ•˜๋„๋ก ์ œ์–ดํ–ˆ๊ธฐ ๋•Œ๋ฌธ์ด์—ˆ๋‹ค.
    โ†’ ๊ทธ๋Ÿฌ๋‚˜ ์‹ค์ œ ํ™˜๊ฒฝ์—์„œ๋Š” ์ •๋‹ต์ด ์ฃผ์–ด์ง€์ง€ ์•Š์œผ๋ฏ€๋กœ, ์ด๋Ÿฌํ•œ ํ–ฅ์ƒ์€ "์ง„์ •ํ•œ ์ž๊ธฐ ๊ต์ • ๋Šฅ๋ ฅ"์ด๋ผ ๋ณด๊ธฐ ์–ด๋ ต๋‹ค.

  1. ๋น„๊ต ๊ธฐ์ค€์˜ ๋ถˆ๊ณต์ •์„ฑ (Inference Cost ๋ถˆ๊ท ํ˜•)
    ์ž๊ธฐ ๊ต์ •์€ ์„ค๊ณ„์ƒ ์—ฌ๋Ÿฌ ๋ฒˆ์˜ ๋ชจ๋ธ ํ˜ธ์ถœ์„ ํ•„์š”๋กœ ํ•œ๋‹ค. ๊ทธ๋Ÿผ์—๋„ ๋ถˆ๊ตฌํ•˜๊ณ , ๋Œ€๋ถ€๋ถ„์˜ ์—ฐ๊ตฌ์—์„œ๋Š” ๋™์ผํ•œ ๋น„์šฉ์„ ๊ฐ€์ง„ ๊ณต์ •ํ•œ ๋น„๊ต๊ตฐ๊ณผ์˜ ์„ฑ๋Šฅ ๋น„๊ต๊ฐ€ ์ด๋ฃจ์–ด์ง€์ง€ ์•Š์•˜๋‹ค.
    ์ด์— ๋ณธ ์—ฐ๊ตฌ๋Š” multi-agent debate (Du et al., 2023; Liang et al., 2023) ์ ‘๊ทผ์„ ๊ฒ€ํ† ํ•˜๋ฉฐ, ๋™์ผํ•œ ๋ชจ๋ธ ํ˜ธ์ถœ ์ˆ˜๋ฅผ ๊ธฐ์ค€์œผ๋กœ self-consistency (Wang et al., 2022)์™€ ๋น„๊ตํ•˜์˜€๋‹ค.
    โ†’ ๊ทธ ๊ฒฐ๊ณผ, multi-agent debate๋Š” self-consistency๋ณด๋‹ค ๋‚ซ์ง€ ์•Š๋‹ค๋Š” ์‚ฌ์‹ค์„ ํ™•์ธํ–ˆ๋‹ค.

  1. ํ”„๋กฌํ”„ํŠธ ์„ค๊ณ„(prompt design)์˜ ์™œ๊ณก
    ๊ธฐ์กด ์ผ๋ถ€ ์—ฐ๊ตฌ์—์„œ ๋ณด๊ณ ๋œ ์ž๊ธฐ ๊ต์ •์˜ "์„ฑ๋Šฅ ํ–ฅ์ƒ"์€ ์‹ค์ œ๋กœ๋Š” ์ดˆ๊ธฐ ํ”„๋กฌํ”„ํŠธ๊ฐ€ ๋ถ€์ ์ ˆํ•˜๊ฒŒ ์„ค๊ณ„๋˜์–ด ์žˆ์—ˆ๊ธฐ ๋•Œ๋ฌธ์ด์—ˆ๋‹ค. ์ฆ‰, ์ž๊ธฐ ๊ต์ • ๊ณผ์ •์˜ ํ”ผ๋“œ๋ฐฑ ํ”„๋กฌํ”„ํŠธ์— ๋” ๊ตฌ์ฒด์ ์ด๊ณ  ์œ ์ตํ•œ ์ •๋ณด๊ฐ€ ๋“ค์–ด๊ฐ€ ๊ฒฐ๊ณผ์ ์œผ๋กœ ์ดˆ๊ธฐ ์ง€์‹œ๋ณด๋‹ค ๋” ์ž˜ ์ž‘๋™ํ•œ ๊ฒƒ์ด๋‹ค.
    โ†’ ์ด ๊ฒฝ์šฐ, ๋‹จ์ˆœํžˆ ๊ทธ ํ”ผ๋“œ๋ฐฑ ๋‚ด์šฉ์„ ์ดˆ๊ธฐ ํ”„๋กฌํ”„ํŠธ์— ํฌํ•จ์‹œํ‚ค๊ธฐ๋งŒ ํ•ด๋„ ๋” ๋‚˜์€ ์„ฑ๋Šฅ์„ ์–ป์„ ์ˆ˜ ์žˆ์—ˆ๋‹ค. ์ฆ‰, ์ž๊ธฐ ๊ต์ •์ด ์•„๋‹Œ ํ”„๋กฌํ”„ํŠธ ๊ฐœ์„  ํšจ๊ณผ์— ๋ถˆ๊ณผํ•˜๋‹ค.

์ด๋Ÿฌํ•œ ๋ฌธ์ œ์˜์‹์— ๋”ฐ๋ผ, ๋ณธ ๋…ผ๋ฌธ์€ ๋‹ค์Œ์˜ ๋ชฉํ‘œ๋ฅผ ๊ฐ€์ง„๋‹ค.

  • LLM์ด ์ง„์ •์œผ๋กœ ์ž๊ธฐ ๊ต์ •์„ ์ˆ˜ํ–‰ํ•  ์ˆ˜ ์žˆ๋Š”๊ฐ€?
  • ๊ทธ ์„ฑ๋Šฅ ํ–ฅ์ƒ์€ ์ง„์งœ ๊ต์ • ํšจ๊ณผ์ธ๊ฐ€, ์•„๋‹ˆ๋ฉด ์™ธ๋ถ€ ์ •๋ณด๋‚˜ ์„ค๊ณ„ ์š”์ธ์˜ ๊ฒฐ๊ณผ์ธ๊ฐ€?

์ด๋ฅผ ์œ„ํ•ด, ์ €์ž๋“ค์€ ์—ฌ๋Ÿฌ ๋ฐ์ดํ„ฐ์…‹(GSM8K, CommonSenseQA, HotpotQA)๊ณผ ์—ฌ๋Ÿฌ ๋ชจ๋ธ(GPT-3.5, GPT-4 Turbo, Llama-2)์„ ๋Œ€์ƒ์œผ๋กœ ์‹คํ—˜์„ ์ˆ˜ํ–‰ํ•˜์˜€๋‹ค.

๊ทธ ๊ฒฐ๊ณผ, LLM์€ ์ •๋‹ต ๋ ˆ์ด๋ธ” ์—†์ด ์Šค์Šค๋กœ์˜ ์˜ค๋ฅ˜๋ฅผ ๊ต์ •ํ•  ์ˆ˜ ์—†์œผ๋ฉฐ, ๋Œ€๋ถ€๋ถ„์˜ ๊ฒฝ์šฐ ๊ต์ • ์ดํ›„ ์ •ํ™•๋„๊ฐ€ ๊ฐ์†Œํ•จ์„ ๋ณด์˜€๋‹ค.


๐Ÿ”นBackground and Related Work


๋Œ€๊ทœ๋ชจ ์–ธ์–ด๋ชจ๋ธ(LLM)์˜ ๋ฐœ์ „๊ณผ ํ•จ๊ป˜, ์ž๊ธฐ๊ต์ •(Self-Correction)์€ ์ ์ฐจ ์ค‘์š”ํ•˜๊ฒŒ ๋ถ€๊ฐ๋˜๊ณ  ์žˆ๋‹ค.

์ด ์ฃผ์ œ์— ๋Œ€ํ•œ ๋…ผ์˜์˜ ํ•ต์‹ฌ์€, ์ด๋Ÿฌํ•œ ๊ณ ๋„ํ™”๋œ ๋ชจ๋ธ๋“ค์ด ์Šค์Šค๋กœ ์ž์‹ ์˜ ์ถœ๋ ฅ์˜ ์ •ํ™•์„ฑ์„ ์ธ์‹ํ•˜๊ณ , ๊ทธ ๊ฒฐ๊ณผ๋ฅผ ๋” ๋‚˜์€ ํ˜•ํƒœ๋กœ ์ˆ˜์ •(refine) ํ•  ์ˆ˜ ์žˆ๋Š”์ง€์— ์žˆ๋‹ค.

์˜ˆ๋ฅผ ๋“ค์–ด, ์ˆ˜ํ•™์  ์ถ”๋ก (mathemetical reasoning) ๊ณผ์ œ๋ฅผ ์ˆ˜ํ–‰ํ•˜๋Š” ๊ฒฝ์šฐ๋ฅผ ์ƒ๊ฐํ•ด๋ณด์ž. LLM์€ ๋ณต์žกํ•œ ๋ฌธ์ œ๋ฅผ ๋‹จ๊ณ„๋ณ„๋กœ ํ’€์–ด๋‚˜๊ฐ€์ง€๋งŒ, ๊ณ„์‚ฐ ๊ณผ์ • ์ค‘ ์ผ๋ถ€์—์„œ ์˜ค๋ฅ˜๋ฅผ ๋ฒ”ํ•  ์ˆ˜ ์žˆ๋‹ค. ์ด๋•Œ ์ด์ƒ์ ์ธ ์ž๊ธฐ๊ต์ • ๊ณผ์ •์ด๋ผ๋ฉด, ๋ชจ๋ธ์ด ์ž์‹ ์˜ ์‹ค์ˆ˜๋ฅผ ์ธ์ง€ํ•˜๊ณ , ๋ฌธ์ œ๋ฅผ ๋‹ค์‹œ ๊ฒ€ํ† ํ•˜์—ฌ, ์˜ค๋ฅ˜๋ฅผ ์ˆ˜์ •ํ•œ ๋’ค ๋” ์ •ํ™•ํ•œ ๋‹ต๋ณ€์„ ์‚ฐ์ถœํ•˜๋Š” ๊ฒƒ์„ ์˜๋ฏธํ•œ๋‹ค.


๊ทธ๋Ÿฌ๋‚˜ ๋ฌธํ—Œ์„ ์‚ดํŽด๋ณด๋ฉด, ์ž๊ธฐ๊ต์ •(Self-Correction)์ด๋ผ๋Š” ๊ฐœ๋…์€ ์—ฐ๊ตฌ๋งˆ๋‹ค ์ •์˜๊ฐ€ ๋‹ค์†Œ ๋‹ฌ๋ผ ๋ชจํ˜ธ์„ฑ์ด ์กด์žฌํ•œ๋‹ค.
ํŠนํžˆ ์ค‘์š”ํ•œ ์ฐจ์ด๋Š” ํ”ผ๋“œ๋ฐฑ์˜ ์ถœ์ฒ˜(source of feedback)์— ์žˆ๋‹ค. ์ฆ‰, ํ”ผ๋“œ๋ฐฑ์ด ๋‚ด๋ถ€์ ์œผ๋กœ(LLM ์ž์ฒด์—์„œ) ์ƒ์„ฑ๋˜๋Š”๊ฐ€, ํ˜น์€ ์™ธ๋ถ€ ์ž…๋ ฅ(External Input)์œผ๋กœ๋ถ€ํ„ฐ ์ œ๊ณต๋˜๋Š”๊ฐ€์— ๋”ฐ๋ผ ์ž๊ธฐ ๊ต์ •์˜ ์„ฑ๊ฒฉ์ด ์™„์ „ํžˆ ๋‹ฌ๋ผ์ง„๋‹ค.

  • ๋‚ด๋ถ€ ํ”ผ๋“œ๋ฐฑ(Internal Feedback)
    ๋ชจ๋ธ์ด ์ž์‹ ์˜ ๋‚ด๋ถ€ ์ง€์‹๊ณผ ํŒŒ๋ผ๋ฏธํ„ฐ๋งŒ์„ ํ™œ์šฉํ•ด ์‘๋‹ต์˜ ํ’ˆ์งˆ์„ ์Šค์Šค๋กœ ์žฌํ‰๊ฐ€ํ•˜๋Š” ๊ฒฝ์šฐ
  • ์™ธ๋ถ€ ํ”ผ๋“œ๋ฐฑ(External Feedback)
    ์ธ๊ฐ„ ์‚ฌ์šฉ์ž, ๋‹ค๋ฅธ ๋ชจ๋ธ ํ˜น์€ ์™ธ๋ถ€ ๋„๊ตฌ ๋ฐ ์ง€์‹์›์œผ๋กœ๋ถ€ํ„ฐ ํ”ผ๋“œ๋ฐฑ์„ ๋ฐ›๋Š” ๊ฒฝ์šฐ

๋ณธ ๋…ผ๋ฌธ์€ LLM์˜ ์ถ”๋ก (reasoning) ๋Šฅ๋ ฅ์—์„œ์˜ ์ž๊ธฐ๊ต์ • ๊ฐ€๋Šฅ์„ฑ์— ์ดˆ์ ์„ ๋งž์ถ˜๋‹ค. ์ถ”๋ก ์€ ์ธ๊ฐ„ ์ธ์ง€์˜ ํ•ต์‹ฌ ๊ณผ์ •์œผ๋กœ, ์„ธ์ƒ์„ ์ดํ•ดํ•˜๊ณ  ๊ฒฐ๋ก ์„ ๋„์ถœํ•˜๋ฉฐ ์˜์‚ฌ๊ฒฐ์ •์„ ๋‚ด๋ฆฌ๊ณ  ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๋Š” ๊ธฐ๋ฐ˜์ด ๋œ๋‹ค.

๋ณธ ์—ฐ๊ตฌ๋Š” ์™ธ๋ถ€ ํ”ผ๋“œ๋ฐฑ์ด๋‚˜ ์ธ๊ฐ„์˜ ๊ฐœ์ž…์ด ์ „ํ˜€ ์—†๋Š” ์ƒํ™ฉ์—์„œ LLM์ด ์ž๊ธฐ๊ต์ •์„ ์ˆ˜ํ–‰ํ•  ์ˆ˜ ์žˆ๋Š”์ง€๋ฅผ ํ‰๊ฐ€ํ•œ๋‹ค. ์ด๋Ÿฌํ•œ ์„ค์ •์„ ๋‚ด์žฌ์  ์ž๊ธฐ๊ต์ •(Instrinsic Self-Correction)์ด๋ผ๊ณ  ๋ถ€๋ฅธ๋‹ค.
์ €์ž๋“ค์€ ๊ธฐ์กด์— ์ œ์•ˆ๋œ ๋‹ค์–‘ํ•œ ์ž๊ธฐ ๊ต์ • ๊ธฐ๋ฒ•๋“ค์„ ์‹คํ—˜์ ์œผ๋กœ ํ‰๊ฐ€ํ•˜์—ฌ ๋‹ค์Œ ์„ธ ๊ฐ€์ง€ ์‚ฌ์‹ค์„ ๋ณด์—ฌ์ฃผ์—ˆ๋‹ค.

  • ์ •๋‹ต(oracle label)์„ ์‚ฌ์šฉํ•˜์ง€ ์•Š์œผ๋ฉด ๊ธฐ์กด ์ž๊ธฐ๊ต์ • ๊ธฐ๋ฒ•๋“ค์€ ์˜คํžˆ๋ ค ์ถ”๋ก  ์„ฑ๋Šฅ์„ ์ €ํ•˜์‹œํ‚จ๋‹ค.
  • ๋™์ผํ•œ ์ˆ˜์˜ ๋ชจ๋ธ ์‘๋‹ต(inference call)์„ ์‚ฌ์šฉํ•  ๊ฒฝ์šฐ, ์ž๊ธฐ๊ต์ •์ด ์—†๋Š” ๊ธฐ๋ฒ•๋“ค๋ณด๋‹ค ์„ฑ๋Šฅ์ด ๋” ๋‚ฎ๋‹ค.
  • ์ดˆ๊ธฐ ์‘๋‹ต ์ƒ์„ฑ ๋‹จ๊ณ„์˜ ํ”„๋กฌํ”„ํŠธ๊ฐ€ ์ถฉ๋ถ„ํžˆ ๊ตฌ์ฒด์ ์ผ ๊ฒฝ์šฐ, ์ž๊ธฐ๊ต์ • ๊ณผ์ •์„ ์ถ”๊ฐ€ํ•˜๋ฉด ์„ฑ๋Šฅ์ด ์˜คํžˆ๋ ค ๋–จ์–ด์ง„๋‹ค.

์ €์ž๋Š” ์ด์ „ LLM ์ž๊ธฐ-์ˆ˜์ •(Self-Correction) ์—ฐ๊ตฌ๋“ค์˜ ํ‰๊ฐ€ ์„ค์ •์—์„œ ๋ฐœ๊ฒฌ๋˜๋Š” ๋ฌธ์ œ๋“ค์„ Table 1์— ์š”์•ฝํ•˜์˜€์œผ๋ฉฐ, ์ด์— ๋Œ€ํ•œ ์ž์„ธํ•œ ๋…ผ์˜๋Š” ๊ฐ ๋Œ€์‘๋˜๋Š” ์„น์…˜์—์„œ ์ œ์‹œํ•œ๋‹ค.


๐Ÿ”นLLMS CANNOT SELF-CORRECT REASONING INTRINSICALLY


์ด ์žฅ์—์„œ๋Š” ๊ธฐ์กด์— ์ œ์•ˆ๋œ ๋‹ค์–‘ํ•œ ์ž๊ธฐ๊ต์ •(self-correction) ๋ฐฉ๋ฒ•๋“ค์„ ํ‰๊ฐ€ํ•˜๊ณ , ์ •๋‹ต ๋ ˆ์ด๋ธ”(oracle label)์„ ์‚ฌ์šฉํ•  ๋•Œ์™€ ์‚ฌ์šฉํ•˜์ง€ ์•Š์„ ๋•Œ์˜ ์„ฑ๋Šฅ์„ ๋น„๊ตํ•œ๋‹ค.
ํ•ต์‹ฌ์ ์œผ๋กœ, ์™ธ๋ถ€ ํ”ผ๋“œ๋ฐฑ ์—†์ด LLM์ด ์Šค์Šค๋กœ reasoing ์˜ค๋ฅ˜๋ฅผ ๊ต์ •ํ•  ์ˆ˜ ์žˆ๋Š”๊ฐ€๋ฅผ ๊ฒ€์ฆํ•œ๋‹ค.


๐Ÿ”ป Experimental Setup

์ €์ž๋“ค์€ ๊ธฐ์กด ์—ฐ๊ตฌ์—์„œ ์ž๊ธฐ๊ต์ •์ด ์˜๋ฏธ ์žˆ๋Š” ์„ฑ๋Šฅ ํ–ฅ์ƒ์„ ๋ณด์˜€๋˜ ๋Œ€ํ‘œ์ ์ธ ์„ธ ๊ฐœ์˜ ๋ฒค์น˜๋งˆํฌ๋ฅผ ์„ ํƒํ–ˆ๋‹ค.

  • GSM8K (Cobbe et al., 2021)
    ์ดˆ๋“ฑํ•™์ƒ ์ˆ˜์ค€์˜ ์ˆ˜ํ•™ ๋‹จ์–ด ๋ฌธ์ œ 1,319๊ฐœ๋กœ ๊ตฌ์„ฑ๋œ ํ…Œ์ŠคํŠธ ์„ธํŠธ.
    Kim et al. (2023)์€ ์ž๊ธฐ๊ต์ • ์ดํ›„ ์•ฝ 7% ์„ฑ๋Šฅ ํ–ฅ์ƒ์„ ๋ณด๊ณ ํ•œ ๋ฐ” ์žˆ๋‹ค.
  • CommonSenseQA (Talmor et al., 2019)
    ์ผ์ƒ์  ์ƒ์‹ ์ถ”๋ก ์„ ํ‰๊ฐ€ํ•˜๋Š” 5์ง€์„ ๋‹คํ˜• ์งˆ๋ฌธ 1,221๊ฐœ(๊ฐœ๋ฐœ ์„ธํŠธ).
    Kim et al. (2023)์€ ์ž๊ธฐ๊ต์ •์„ ํ†ตํ•ด ์•ฝ 15% ํ–ฅ์ƒ์„ ๋ณด์˜€๋‹ค๊ณ  ๋ณด๊ณ ํ–ˆ๋‹ค.
  • HotpotQA (Yang et al., 2018)
    ๋‹ค์ค‘ ์ฆ๊ฑฐ(multi-hop) ์ถ”๋ก ์ด ํ•„์š”ํ•œ ๊ฐœ๋ฐฉํ˜• ์งˆ์˜์‘๋‹ต ๋ฐ์ดํ„ฐ์…‹.
    Shinn et al. (2023)์€ ์ž๊ธฐ๊ต์ •์„ ํ†ตํ•ด ์ƒ๋‹นํ•œ ํ–ฅ์ƒ์„ ๋ณด์˜€๋‹ค๊ณ  ๋ณด๊ณ ํ•˜์˜€๋‹ค.
    ์ €์ž๋“ค์€ ๋™์ผํ•œ 100๋ฌธํ•ญ ์„ธํŠธ๋ฅผ ์‚ฌ์šฉํ•˜๊ณ , ์ •ํ™• ์ผ์น˜์œจ(Exact Match)์„ ํ‰๊ฐ€ ์ง€ํ‘œ๋กœ ์‚ผ์•˜๋‹ค.

ํ…Œ์ŠคํŠธ ๋ชจ๋ธ ๋ฐ ์„ธ๋ถ€ ๊ตฌ์„ฑ์€ ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค.

  • ๋ชจ๋ธ
    GPT-3.5-Turbo (gpt-3.5-turbo-0613),
    GPT-4 (2023/08/29 ๋ฒ„์ „),
    GPT-4-Turbo (gpt-4-1106-preview),
    Llama-2-70B-Chat (Touvron et al., 2023).
  • ๋ฐ์ดํ„ฐ ์ˆ˜
    GPT-3.5๋Š” ์ „์ฒด ํ‰๊ฐ€ ์„ธํŠธ๋ฅผ ์‚ฌ์šฉํ–ˆ์œผ๋ฉฐ,GPT-4, GPT-4-Turbo, Llama-2๋Š” ๋น„์šฉ ์ ˆ๊ฐ์„ ์œ„ํ•ด ๊ฐ ๋ฐ์ดํ„ฐ์…‹์—์„œ ๋ฌด์ž‘์œ„๋กœ 200๋ฌธํ•ญ(HotpotQA๋Š” 100๋ฌธํ•ญ)์„ ์ƒ˜ํ”Œ๋งํ–ˆ๋‹ค.
  • ๊ต์ • ๋‹จ๊ณ„
    ๋ชจ๋ธ์ด ์ตœ๋Œ€ 2๋ผ์šด๋“œ(self-correction rounds) ๊นŒ์ง€ ์ˆ˜ํ–‰ํ•˜๋„๋ก ์„ค์ •ํ–ˆ๋‹ค.
  • ๋””์ฝ”๋”ฉ ์„ค์ •
    GPT-3.5์™€ GPT-4๋Š” temperature = 1, GPT-4-Turbo์™€ Llama-2๋Š” temperature = 0์œผ๋กœ ํ‰๊ฐ€ํ–ˆ๋‹ค.
    (์ฆ‰, ๋ชจ๋ธ๋ณ„๋กœ ์„œ๋กœ ๋‹ค๋ฅธ ๋””์ฝ”๋”ฉ ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ ํฌ๊ด„์ ์œผ๋กœ ํ…Œ์ŠคํŠธํ•œ ์…ˆ์ด๋‹ค.)

์ €์ž๋“ค์€ Kim et al. (2013)๊ณผ Shinn et al. (2023)์˜ ๋ฐฉ์‹์„ ๋”ฐ๋ผ ์ž๊ธฐ๊ต์ •์„ 3๋‹จ๊ณ„ prompting ์ ˆ์ฐจ๋กœ ๊ตฌํ˜„ํ–ˆ๋‹ค.

  1. ์ดˆ๊ธฐ ์‘๋‹ต ์ƒ์„ฑ
    โ†’ ๋ชจ๋ธ์ด ํ‘œ์ค€ ํ”„๋กฌํ”„ํŠธ(standard prompt)์— ๋”ฐ๋ผ ์ฒ˜์Œ ๋‹ต๋ณ€์„ ์ƒ์„ฑํ•œ๋‹ค.
  2. ํ”ผ๋“œ๋ฐฑ ์ƒ์„ฑ(review)
    โ†’ ๋ชจ๋ธ์ด ์ž์‹ ์ด ์ƒ์„ฑํ•œ ๋‹ต๋ณ€์„ ๊ฒ€ํ† ํ•˜๋ฉฐ ์˜ค๋ฅ˜๋‚˜ ์˜์‹ฌ์ ์„ ์„ค๋ช…ํ•œ๋‹ค.
  3. ์žฌ์‘๋‹ต (๊ต์ • ๋‹จ๊ณ„)
    โ†’ 2๋‹จ๊ณ„์—์„œ ์ƒ์„ฑ๋œ ํ”ผ๋“œ๋ฐฑ์„ ์ฐธ๊ณ ํ•ด ๋‹ค์‹œ ๋‹ต๋ณ€์„ ์ƒ์„ฑํ•œ๋‹ค.

์ด ๊ณผ์ •์€ "standard prompting" ๊ฒฐ๊ณผ์™€ ๋น„๊ต ํ‰๊ฐ€๋œ๋‹ค.
์ถ”๊ฐ€๋กœ, ๋‚ด์žฌ์  ์ž๊ธฐ ๊ต์ •์„ ํ‰๊ฐ€ํ•˜๊ธฐ ์œ„ํ•ด ๋‹ค์–‘ํ•œ ํ”ผ๋“œ๋ฐฑ ํ”„๋กฌํ”„ํŠธ๋ฅผ ์‹คํ—˜์ ์œผ๋กœ ์„ค๊ณ„ํ–ˆ๋‹ค.

[๊ธฐ๋ณธ ํ”ผ๋“œ๋ฐฑ ํ”„๋กฌํ”„ํŠธ]
โ€œAssume that this answer could be either correct or incorrect.
Review the answer carefully and report any serious problems you find.โ€


๐Ÿ”ป Results

  • Self-Correction with Oracle Labels
    ๊ธฐ์กด ์—ฐ๊ตฌ(Kim et al., 2023; Shinn et al., 2023)์™€ ๋™์ผํ•˜๊ฒŒ, ์ •๋‹ต ๋ผ๋ฒจ์„ ์‚ฌ์šฉํ•ด ๊ฐ ๋‹จ๊ณ„์˜ ์‘๋‹ต์ด ์ •ํ™•ํ•œ์ง€๋ฅผ ํ™•์ธํ•˜๊ณ , ์ •๋‹ต์ผ ๊ฒฝ์šฐ ๋‹ค์Œ ๊ต์ •์„ ์ˆ˜ํ–‰ํ•˜์ง€ ์•Š๋„๋ก ์„ค์ •ํ–ˆ๋‹ค.
    ์ฆ‰, โ€œ์ •๋‹ต์„ ์•Œ๊ณ  ์žˆ๋Š” ํ™˜๊ฒฝโ€์—์„œ ๋ชจ๋ธ์˜ ๊ต์ • ์„ฑ๋Šฅ์„ ํ‰๊ฐ€ํ•œ ๊ฒƒ์ด๋‹ค.

์ด ํ‘œ๋Š” ์˜ค๋ผํด ๋ผ๋ฒจ์„ ์‚ฌ์šฉํ•  ๋•Œ ์ž๊ธฐ ๊ต์ •์ด ํ™•์‹คํ•œ ์„ฑ๋Šฅ ํ–ฅ์ƒ์„ ๋ณด์ธ๋‹ค๋Š” ๊ฒƒ์„ ํ™•์ธ์‹œ์ผœ์ค€๋‹ค. ๊ธฐ์กด ์—ฐ๊ตฌ์™€ ์ผ์น˜ํ•˜๋Š” ๊ฒฐ๊ณผ์ด์ง€๋งŒ, ์ €์ž๋“ค์€ ์ด ๊ฒฐ๊ณผ์— ๋Œ€ํ•ด ๋‹ค์Œ๊ณผ ๊ฐ™์ด ์ง€์ ํ•œ๋‹ค.

"์ •๋‹ต์„ ์ด๋ฏธ ์•Œ๊ณ  ์žˆ๋‹ค๋ฉด, ๋ฌธ์ œ๋ฅผ ํ’€๊ธฐ ์œ„ํ•ด LLM์„ ์‚ฌ์šฉํ•  ์ด์œ ๊ฐ€ ์—†๋‹ค."

์ฆ‰, ์ด๋Ÿฌํ•œ ๊ฒฐ๊ณผ๋Š” '์ง„์งœ ์ž๊ธฐ๊ต์ • ๋Šฅ๋ ฅ'์ด ์•„๋‹ˆ๋ผ ์ •๋‹ต์„ ์•Œ๊ณ  ์žˆ๋Š” ์˜ค๋ผํด ํ™˜๊ฒฝ์˜ ํšจ๊ณผ์— ๋ถˆ๊ณผํ•˜๋‹ค๋Š” ๊ฒƒ์ด๋‹ค.


  • Intrinsic Self-Correction(์ •๋‹ต ์—†์ด ์Šค์Šค๋กœ ๊ต์ •)
    ์ด์ œ ์ •๋‹ต ๋ผ๋ฒจ์„ ์ œ๊ฑฐํ•˜๊ณ , ๋ชจ๋ธ์ด ์Šค์Šค๋กœ ํŒ๋‹จํ•˜์—ฌ ๊ต์ •์„ ๋จธ์ถœ ์‹œ์ ์„ ๊ฒฐ์ •ํ•˜๋„๋ก ํ–ˆ๋‹ค.
    ์ฆ‰, LLM์ด ์ž์ฒด ํŒ๋‹จ๋งŒ์œผ๋กœ "์ด์ „ ๋‹ต์ด ๋งž๋Š”๊ฐ€ ํ‹€๋ฆฐ๊ฐ€"๋ฅผ ํ‰๊ฐ€ํ•˜๊ฒŒ ํ•œ ๊ฒƒ์ด๋‹ค.

๊ฒฐ๊ณผ๋Š” ๋ช…ํ™•ํ•˜๊ฒŒ ๋ชจ๋“  ๋ชจ๋ธ์—์„œ ์ •ํ™•๋„๊ฐ€ ์ „๋ฐ˜์ ์œผ๋กœ ๊ฐ์†Œํ–ˆ๋‹ค. ์ฆ‰, ๋ชจ๋ธ์ด ์ •๋‹ต์„ ๋ชจ๋ฅธ ์ฑ„ ์Šค์Šค๋กœ ๊ต์ •ํ•˜๋ ค ํ•˜๋ฉด, ์˜คํžˆ๋ ค ์ฒ˜์Œ๋ณด๋‹ค ์„ฑ๋Šฅ์ด ๋‚˜๋น ์กŒ๋‹ค.
Llama-2๋Š” ์ž๊ธฐ๊ต์ • ์ดํ›„ ์„ฑ๋Šฅ์ด ๊ธ‰๊ฒฉํžˆ ํ•˜๋ฝํ•˜๊ณ , ์‹ฌ์ง€์–ด ์ ˆ๋ฐ˜ ์ดํ•˜๋กœ ๋–จ์–ด์กŒ๋‹ค. GPT-4-Turbo ์—ญ์‹œ ๋ฏธ์„ธํ•œ ์„ฑ๋Šฅ ๊ฐ์†Œ๊ฐ€ ๊ด€์ฐฐ๋˜์—ˆ๋‹ค. ๋ชจ๋ธ ํฌ๊ธฐ๋‚˜ ์•„ํ‚คํ…์ฒ˜์™€ ๋ฌด๊ด€ํ•˜๊ฒŒ ์ž๊ธฐ๊ต์ •์€ ๋‚ด์žฌ์  ์ถ”๋ก  ์„ฑ๋Šฅ์„ ํ–ฅ์ƒ์‹œํ‚ค์ง€ ๋ชปํ•œ๋‹ค.


๐Ÿ”ป WHY DOES THE PERFORMANCE NOT INCREASE, BUT INSTEAD DECREASE?

์ €์ž๋“ค์€ ํ˜น์‹œ ํ”„๋กฌํ”„ํŠธ์˜ ๋ฌธ์žฅ ๊ตฌ์กฐ๊ฐ€ ์˜ํ–ฅ์„ ์ค„ ์ˆ˜ ์žˆ์„์ง€ ๊ฒ€์ฆํ•˜๊ธฐ ์œ„ํ•ด ์„ธ ๊ฐ€์ง€ ์œ ํ˜•์˜ ํ”„๋กฌํ”„ํŠธ๋ฅผ ์ถ”๊ฐ€๋กœ ํ…Œ์ŠคํŠธ ํ–ˆ๋‹ค.

Empirical Analysis

ํ•ด๋‹น ๊ทธ๋ฆผ์€ ๋‘ ๋ฒˆ์˜ ์ž๊ธฐ๊ต์ • ์ดํ›„ ๋‹ต๋ณ€์ด ์–ด๋–ป๊ฒŒ ๋ณ€ํ™”ํ–ˆ๋Š”์ง€๋ฅผ ์š”์•ฝํ•œ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์—ฌ์ค€๋‹ค.

  • GSM8K ๋ฐ์ดํ„ฐ์…‹
    GPT-3.5๋Š” ์ „์ฒด ์‹œ๋„์˜ 74.7%์—์„œ ์ดˆ๊ธฐ ๋‹ต๋ณ€์„ ๊ทธ๋Œ€๋กœ ์œ ์ง€ํ•˜์˜€๋‹ค.
    ๋‚จ์€ ์‚ฌ๋ก€๋“ค ์ค‘์—์„œ๋Š”, ๋ชจ๋ธ์ด "์ •๋‹ต์„ ์˜ค๋‹ต์œผ๋กœ ๋ฐ”๊พธ๋Š” ๊ฒฝ์šฐ"๊ฐ€ "์˜ค๋‹ต์„ ์ •๋‹ต์œผ๋กœ ์ˆ˜์ •ํ•˜๋Š” ๊ฒฝ์šฐ"๋ณด๋‹ค ๋” ์ž์ฃผ ๋ฐœ์ƒํ–ˆ๋‹ค. ์ด๋Š” LLM์ด ์ž์‹ ์˜ ์ถ”๋ก ์ด ์˜ฌ๋ฐ”๋ฅธ์ง€๋ฅผ ์ •ํ™•ํžˆ ํŒ๋‹จํ•˜์ง€ ๋ชปํ•œ๋‹ค๋Š” ๊ทผ๋ณธ์ ์ธ ๋ฌธ์ œ๋ฅผ ์‹œ์‚ฌํ•œ๋‹ค.
  • CommonSenseQA
    GPT-3.5๊ฐ€ ๋‹ต๋ณ€์„ ๋ณ€๊ฒฝํ•  ํ™•๋ฅ ์ด ๋” ๋†’๊ฒŒ ๋‚˜ํƒ€๋‚ฌ๋‹ค. ๊ทธ ์ด์œ ๋Š” ์ด ๋ฐ์ดํ„ฐ์…‹์˜ ์˜ค๋‹ต ์„ ํƒ์ง€๋“ค์ด ์งˆ๋ฌธ๊ณผ ๊ทธ๋Ÿด๋“ฏํ•˜๊ฒŒ ๊ด€๋ จ๋˜์–ด ๋ณด์ด๋Š” ๊ฒฝ์šฐ๊ฐ€ ๋งŽ๊ธฐ ๋•Œ๋ฌธ์ด๋‹ค.
    ๋”ฐ๋ผ์„œ ์ž๊ธฐ๊ต์ • ํ”„๋กฌํ”„ํŠธ๋ฅผ ์‚ฌ์šฉํ•˜๋ฉด ๋ชจ๋ธ์ด "ํ˜น์‹œ ์ด์ „ ๋‹ต์ด ํ‹€๋ ธ์„์ง€๋„ ๋ชจ๋ฅธ๋‹ค"๋Š” ํŽธํ–ฅ์„ ๋ฐ›์•„๋“ค์—ฌ ๋‹ค๋ฅธ ์„ ํƒ์ง€๋ฅผ ์„ ํƒํ•˜๊ฒŒ ๋˜๊ณ , ๊ฒฐ๊ณผ์ ์œผ๋กœ '์ •๋‹ต โ†’ ์˜ค๋‹ตโ€™ ์ „ํ™˜(correct โ‡’ incorrect) ๋น„์œจ์ด ๋†’์•„์ง„๋‹ค.

์ด์™€ ์œ ์‚ฌํ•˜๊ฒŒ, Llama-2 ๋ชจ๋ธ๋„ ์ •๋‹ต์„ ์˜ค๋‹ต์œผ๋กœ ๋ฐ”๊พธ๋Š” ์‚ฌ๋ก€๊ฐ€ ์ž์ฃผ ๊ด€์ฐฐ๋˜์—ˆ๋‹ค.
๋ฐ˜๋ฉด, GPT-4์™€ GPT-Turbo๋Š” GPT-3.5๋‚˜ Llama-2๋ณด๋‹ค ์ดˆ๊ธฐ ๋‹ต๋ณ€์„ ์œ ์ง€ํ•˜๋Š” ๊ฒฝํ–ฅ์ด ๊ฐ•ํ–ˆ๋‹ค.

  • ์ดˆ๊ธฐ ๋‹ต๋ณ€์— ๋Œ€ํ•œ ์‹ ๋ขฐ๋„๊ฐ€ ๋” ๋†’๊ฑฐ๋‚˜
  • ๋ชจ๋ธ ์ž์ฒด๊ฐ€ ๋” ๊ฒฌ๊ณ (robust)ํ•˜์—ฌ

์ž๊ธฐ ๊ต์ • ํ”„๋กฌํ”„ํŠธ์— ์˜ํ•ด ํŽธํ–ฅ๋˜๊ธฐ ์–ด๋ ค์šด ํŠน์„ฑ์„ ๊ฐ€์ง€๊ณ  ์žˆ๊ธฐ ๋•Œ๋ฌธ์œผ๋กœ ๋ณด์ธ๋‹ค.


ํ‘œ 2์˜ ๊ฒฐ๊ณผ๋ฅผ ๋‹ค์‹œ ์‚ดํŽด๋ณด๋ฉด, ํ•ด๋‹น ํ‘œ๋Š” ์ •๋‹ต ๋ผ๋ฒจ(ground-truth label)์„ ์‚ฌ์šฉํ•˜์—ฌ ๋ชจ๋ธ์ด "์ •๋‹ต์„ ์˜ค๋‹ต์œผ๋กœ ๋ฐ”๊พธ๋Š” ํ˜„์ƒ"์„ ๋ฐฉ์ง€ํ•œ ์‹คํ—˜ ์„ค์ •์„ ๋ณด์—ฌ์ค€๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ๋ฐ”๋กœ ์ด๋Ÿฌํ•œ "์˜ค๋‹ต ์ „ํ™˜์„ ๋ง‰๋Š” ๋ฐฉ๋ฒ•"์„ ์ฐพ๋Š” ๊ฒƒ์ด์•ผ๋ง๋กœ ์ž๊ธฐ๊ต์ •์ด ์„ฑ๊ณตํ•˜๊ธฐ ์œ„ํ•œ ํ•ต์‹ฌ ๊ณผ์ œ๋ผ๊ณ  ์ €์ž๋“ค์„ ์ง€์ ํ•œ๋‹ค.


Intuitive Explanation
๋งŒ์•ฝ ๋ชจ๋ธ์ด ์ถฉ๋ถ„ํžˆ ์ •๋ ฌ(aligned)๋˜์–ด ์žˆ๊ณ , ์ดˆ๊ธฐ ํ”„๋กฌํ”„ํŠธ๊ฐ€ ์‹ ์ค‘ํ•˜๊ฒŒ ์„ค๊ณ„๋˜์–ด ์žˆ๋‹ค๋ฉด ๊ทธ ๋ชจ๋ธ์˜ ์ฒซ ๋ฒˆ์งธ ์‘๋‹ต(initial response)์€ ์ด๋ฏธ ํ•ด๋‹น ํ”„๋กฌํ”„ํŠธ์™€ ๋””์ฝ”๋”ฉ ์•Œ๊ณ ๋ฆฌ์ฆ˜์— ๋Œ€ํ•ด ์ตœ์ ํ™”๋œ ๊ฒฐ๊ณผ์ผ ๊ฐ€๋Šฅ์„ฑ์ด ๋†’๋‹ค.
๊ทธ๋Ÿฐ๋ฐ ์—ฌ๊ธฐ์— โ€œํ”ผ๋“œ๋ฐฑ(feedback)โ€์„ ์ถ”๊ฐ€ํ•˜๋Š” ํ–‰์œ„๋Š”, ๊ฒฐ๊ตญ ๋ชจ๋ธ์—๊ฒŒ ์ถ”๊ฐ€์ ์ธ ํ”„๋กฌํ”„ํŠธ๋ฅผ ๋ง๋ถ™์ด๋Š” ๊ฒƒ์œผ๋กœ ๋ณผ ์ˆ˜ ์žˆ๋‹ค.

์ด๋กœ ์ธํ•ด ๋ชจ๋ธ์€ ์›๋ž˜์˜ ์งˆ๋ฌธ์— ์ง‘์ค‘ํ•˜๊ธฐ๋ณด๋‹ค, โ€œ๊ธฐ์กด ๋‹ต๋ณ€ + ํ”ผ๋“œ๋ฐฑโ€์ด๋ผ๋Š” ๋ณตํ•ฉ ์ž…๋ ฅ(combined input)์— ๋งž์ถฐ ์ƒˆ๋กœ์šด ์‘๋‹ต์„ ์ƒ์„ฑํ•˜๋ ค ํ•˜๊ฒŒ ๋œ๋‹ค. ์ด๋Ÿฌํ•œ ๋‚ด์žฌ์  ์ž๊ธฐ๊ต์ •(intrinsic self-correction) ์„ค์ •์—์„œ๋Š”, ํŠนํžˆ ์ถ”๋ก (reasoning)๊ณผ ๊ฐ™์€ ๊ณผ์ œ์—์„œ ์ด ์ถ”๊ฐ€ ํ”„๋กฌํ”„ํŠธ๊ฐ€ ์‹ค์ œ๋กœ ๋ฌธ์ œ ํ•ด๊ฒฐ์— ์ถ”๊ฐ€์ ์ธ ์ด์ ์„ ์ œ๊ณตํ•˜์ง€ ์•Š๋Š”๋‹ค. ์˜คํžˆ๋ ค, ๋ชจ๋ธ์„ ์›๋ž˜์˜ ์ตœ์  ์‘๋‹ต ๋ถ„ํฌ์—์„œ ๋ฒ—์–ด๋‚˜๊ฒŒ ํ•˜์—ฌ ์„ฑ๋Šฅ ์ €ํ•˜(performance drop)๋ฅผ ์ดˆ๋ž˜ํ•  ์ˆ˜๋„ ์žˆ๋‹ค.


๐Ÿ”นMulti-Agent Debate Does Not Outperform Self-Consistency



๐Ÿ”ป ํ† ๋ก  ๊ธฐ๋ฐ˜ ์ž๊ธฐ ๊ต์ • ์ ‘๊ทผ

LLM์ด ์Šค์Šค๋กœ ์ถ”๋ก (reasoning)์„ ๊ต์ •ํ•  ์ˆ˜ ์žˆ๋Š” ๋˜ ๋‹ค๋ฅธ ๊ฐ€๋Šฅ์„ฑ์œผ๋กœ, ์—ฌ๋Ÿฌ ๊ฐœ์˜ ๋ชจ๋ธ ์ธ์Šคํ„ด์Šค๊ฐ€ ์„œ๋กœ์˜ ์‘๋‹ต์„ ๋น„ํŒํ•˜๊ณ  ํ† ๋ก ํ•˜๋„๋ก ํ•˜๋Š” ๋ฉ€ํ‹ฐ์—์ด์ „ํŠธ ํ† ๋ก (Multi-Agent Debate) ๋ฐฉ์‹์ด ์ œ์•ˆ๋œ ๋ฐ” ์žˆ๋‹ค. (Du et al., 2023; Liang et al., 2023; Chen et al., 2023a).

Du et al. (2023)์€ ํ•˜๋‚˜์˜ ChatGPT ๋ชจ๋ธ์˜ ์—ฌ๋Ÿฌ ์ธ์Šคํ„ด์Šค๋ฅผ ํ™œ์šฉํ•ด ์„œ๋กœ์˜ ๋‹ต๋ณ€์„ ๋…ผ์˜ํ•˜๊ณ  ๊ฒ€์ฆํ•˜๋Š” โ€œMulti-Agent Debateโ€ ๊ธฐ๋ฒ•์„ ๊ตฌํ˜„ํ–ˆ๋‹ค.
๊ทธ๋“ค์€ ์ด๋Ÿฌํ•œ ์ ‘๊ทผ์ด ์ถ”๋ก  ์ •ํ™•๋„์™€ ์‚ฌ์‹ค์„ฑ (factuality)์„ ๋†’์ธ๋‹ค๊ณ  ๋ณด๊ณ ํ–ˆ๋‹ค.


๐Ÿ”ป์‹คํ—˜ ์„ค์ •

์ €์ž๋“ค์€ Du et al. (2023)์˜ ๋ฐฉ๋ฒ•์„ ๊ทธ๋Œ€๋กœ ์žฌํ˜„ํ•˜์—ฌ GSM8K ๋ฐ์ดํ„ฐ์…‹์—์„œ ๋™์ผํ•œ ์‹คํ—˜์„ ์ˆ˜ํ–‰ํ–ˆ๋‹ค.

  • ์‚ฌ์šฉ ๋ชจ๋ธ: GPT-3.5-turbo-0301
  • ๊ตฌ์„ฑ: 3๋ช…์˜ ์—์ด์ „ํŠธ(agent)
  • ๊ฐ ์—์ด์ „ํŠธ๋Š” ๋‘ ๋ฒˆ์˜ ํ† ๋ก  ๋ผ์šด๋“œ๋ฅผ ์ˆ˜ํ–‰
  • ํ”„๋กฌํ”„ํŠธ: Du et al. (2023) ๋…ผ๋ฌธ์—์„œ ์ œ์‹œํ•œ ์›๋ฌธ ํ”„๋กฌํ”„ํŠธ ๊ทธ๋Œ€๋กœ ์‚ฌ์šฉ
  • ์ฐจ์ด์ 
    ๊ธฐ์กด ์—ฐ๊ตฌ๋Š” 100๋ฌธํ•ญ๋งŒ ์‚ฌ์šฉํ–ˆ์ง€๋งŒ, ๋ณธ ์—ฐ๊ตฌ๋Š” ์ „์ฒด GSM8K ํ…Œ์ŠคํŠธ ์„ธํŠธ๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ๊ฒฐ๊ณผ ๋ถ„์‚ฐ์„ ์ค„์˜€๋‹ค.
    ๋˜ํ•œ, ๋น„๊ต๋ฅผ ์œ„ํ•ด Self-Consistency(Wang et al., 2022) ๊ธฐ๋ฒ•๋„ ํ•จ๊ป˜ ํ‰๊ฐ€ํ–ˆ๋‹ค. ์ด๋Š” ๋ชจ๋ธ์ด ์—ฌ๋Ÿฌ ๊ฐœ์˜ ์‘๋‹ต์„ ์ƒ์„ฑํ•œ ๋’ค, ๋‹ค์ˆ˜๊ฒฐ์„ ํ†ตํ•ด ์ตœ์ข… ๋‹ต์„ ์„ ํƒํ•˜๋Š” ๋ฐฉ์‹์ด๋‹ค.

์ฆ‰, Multi-Agent Debate๋Š” "๋ชจ๋ธ ๊ฐ„์˜ ํ† ๋ก  ๊ธฐ๋ฐ˜ ํ‰๊ฐ€"์ด๊ณ , Self-Consistency๋Š” "๋‹จ์ˆœ ๋‹ค์ˆ˜๊ฒฐ ๊ธฐ๋ฐ˜ ํ‰๊ฐ€"๋ผ๊ณ  ๋ณผ ์ˆ˜ ์žˆ๋‹ค. ๋‘ ๋ฐฉ๋ฒ• ๋ชจ๋‘ ์—ฌ๋Ÿฌ ๋ฒˆ์˜ ๋ชจ๋ธ ํ˜ธ์ถœ์„ ํ•„์š”๋กœ ํ•˜๋ฏ€๋กœ, ๋™์ผํ•œ ๋ชจ๋ธ ์‘๋‹ต ์ˆ˜๋ฅผ ๊ธฐ์ค€์œผ๋กœ ์„ฑ๋Šฅ์„ ๋น„๊ตํ–ˆ๋‹ค.


๐Ÿ”ป๊ฒฐ๊ณผ ํ•ด์„

๊ฒฐ๊ณผ๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™์ด ์š”์•ฝ๋œ๋‹ค.

  • ๋ฉ€ํ‹ฐ์—์ด์ „ํŠธ ํ† ๋ก (Multi-Agent Debate)๊ณผ ์ž๊ธฐ ์ผ๊ด€์„ฑ(Self-Consistency) ๋ชจ๋‘ ํ‘œ์ค€ ํ”„๋กฌํ”„ํŠธ์— ๋น„ํ•ด ๋ช…ํ™•ํ•œ ์„ฑ๋Šฅ ํ–ฅ์ƒ์„ ๋ณด์˜€๋‹ค.
  • ๋™์ผํ•œ ์‘๋‹ต ์ˆ˜(์˜ˆ: 6๊ฐœ ์‘๋‹ต ๊ธฐ์ค€)๋กœ ๋น„๊ตํ–ˆ์„ ๋•Œ, ๋ฉ€ํ‹ฐ์—์ด์ „ํŠธ ํ† ๋ก ์€ ์ž๊ธฐ์ผ๊ด€์„ฑ๋ณด๋‹ค ์˜คํžˆ๋ ค ๋‚ฎ์€ ์„ฑ๋Šฅ์„ ๋ณด์˜€๋‹ค.

์ฆ‰, ์—์ด์ „ํŠธ ๊ฐ„์˜ "ํ† ๋ก (debate)" ๊ณผ์ •์ด ์ถ”๋ก  ๋Šฅ๋ ฅ์„ ์‹ค์งˆ์ ์œผ๋กœ ๊ฐœ์„ ํ•œ ๊ฒƒ์€ ์•„๋‹ˆ๋ฉฐ, ๋‹ค์ง€ ์—ฌ๋Ÿฌ ์‘๋‹ต์„ ์ƒ์„ฑํ•ด ๊ทธ ์ค‘ ์˜ฌ๋ฐ”๋ฅธ ๊ฒƒ์„ ๊ณ ๋ฅด๋Š” ํšจ๊ณผ์— ๋ถˆ๊ณผํ•˜๋‹ค๋Š” ๊ฒƒ์ด๋‹ค.

์‚ฌ์‹ค์ƒ ๋ฉ€ํ‹ฐ์—์ด์ „ํŠธ ํ† ๋ก ์„ "ํ† ๋ก (debate)" ํ˜น์€ "๋น„ํŒ(critique)"์œผ๋กœ ๋ณด๊ธฐ๋ณด๋‹ค, ์ž๊ธฐ์ผ๊ด€์„ฑ(self-consistency)์„ ๋‹ฌ์„ฑํ•˜๊ธฐ ์œ„ํ•œ ๋˜ ๋‹ค๋ฅธ ํ˜•ํƒœ์˜ ์ ‘๊ทผ์œผ๋กœ ๋ณด๋Š” ๊ฒƒ์ด ๋” ํƒ€๋‹นํ•˜๋‹ค.

๋‘ ๋ฐฉ๋ฒ• ๋ชจ๋‘ ์—ฌ๋Ÿฌ ๋ฒˆ์˜ ๋ชจ๋ธ ํ˜ธ์ถœ์„ ์ˆ˜ํ–‰ํ•˜์—ฌ ๋‹ค์–‘ํ•œ ์‘๋‹ต์„ ์ƒ์„ฑํ•˜๊ณ , ๊ทธ ์ค‘์—์„œ ์ผ๊ด€๋œ ๊ฒฐ๊ณผ๋ฅผ ์ฐพ๋Š”๋‹ค๋Š” ์ ์—์„œ ๋ณธ์งˆ์ ์œผ๋กœ ๋™์ผํ•˜๋‹ค. ๋‹ค๋งŒ, ๋‘ ๋ฐฉ๋ฒ•์˜ ์ฐจ์ด๋Š” ๋‹จ์ง€ "์ตœ์ข… ์‘๋‹ต์„ ์„ ํƒํ•˜๋Š” ๋ฐฉ์‹(selection mechanism)"์— ์žˆ๋‹ค.

  • Self-Consistency: ๋‹จ์ˆœํžˆ ์‘๋‹ต ๋นˆ๋„์— ๋”ฐ๋ฅธ ๋‹ค์ˆ˜๊ฒฐ ํˆฌํ‘œ
  • Multi-Agent Debate: ๋ชจ๋ธ๋“ค์ด ์„œ๋กœ์˜ ๋‹ต๋ณ€์„ ํ‰๊ฐ€ํ•˜๊ณ  ํ† ๋ก  ํ›„ ๊ฒฐ๋ก  ๋„์ถœ

ํ•˜์ง€๋งŒ ์‹คํ—˜ ๊ฒฐ๊ณผ์—์„œ ๋‚˜ํƒ€๋‚œ ์„ฑ๋Šฅ ํ–ฅ์ƒ์€ ์‹ค์งˆ์ ์ธ ์ž๊ธฐ๊ต์ •์˜ ๊ฒฐ๊ณผ๋ผ๊ธฐ๋ณด๋‹ค, ๋‹จ์ˆœํžˆ ์—ฌ๋Ÿฌ ๋ฒˆ ์‹œ๋„ํ•ด๋ณธ ๊ฒƒ ์ค‘ ์ตœ์ ์˜ ๊ฒฐ๊ณผ๋ฅผ ๊ณ ๋ฅธ ํšจ๊ณผ์—์„œ ๋น„๋กฏ๋œ ๊ฒƒ์ด๋‹ค.

๋”ฐ๋ผ์„œ, ๋ฉ€ํ‹ฐ์—์ด์ „ํŠธ ํ† ๋ก ์ด ์ž๊ธฐ๊ต์ •์„ ํ†ตํ•œ ์ถ”๋ก  ๋Šฅ๋ ฅ ํ–ฅ์ƒ์˜ ์ฆ๊ฑฐ๋กœ ๊ฐ„์ฃผ๋˜์–ด์„œ๋Š” ์•ˆ๋œ๋‹ค. ๊ทธ๋ณด๋‹ค๋Š”, ์ž๊ธฐ์ผ๊ด€์„ฑ์„ ํ™•๋ณดํ•˜๋Š” ๋‹ค๋ฅธ ํ˜•ํƒœ์˜ ์ƒ˜ํ”Œ๋ง ๋ฐ ๋‹ค์ˆ˜๊ฒฐ ์ „๋žต์œผ๋กœ ์ดํ•ดํ•ด์•ผ ํ•œ๋‹ค.

๋ฉ€ํ‹ฐ ์—์ด์ „ํŠธ ํ† ๋ก ์€ ๋ณธ์งˆ์ ์œผ๋กœ ์ž๊ธฐ์ผ๊ด€์„ฑ๊ณผ ๋™์ผํ•œ ๊ฐœ๋…์„ ๋‹ค๋ฅธ ๋ฐฉ์‹์œผ๋กœ ๊ตฌํ˜„ํ•œ ๊ฒƒ์ด๋ฉฐ, ์‹ค์ œ๋กœ๋Š” Self-Consistency๋ณด๋‹ค ์„ฑ๋Šฅ์ด ๋‚ฎ๋‹ค. ์ฆ‰, LLM์ด ์Šค์Šค๋กœ ์ถ”๋ก ์„ ๊ต์ •ํ•  ์ˆ˜ ์žˆ๋‹ค๋Š” ์ฃผ์žฅ์€ ๋ฉ€ํ‹ฐ์—์ด์ „ํŠธ ๊ตฌ์กฐ์—์„œ๋„ ์ž…์ฆ๋˜์ง€ ์•Š์•˜๋‹ค.


๐Ÿ”นPrompt Design Issues in Self-Correction Evaluation


์•ž์„  3์žฅ์—์„œ ์ €์ž๋Š” ๋ชจ๋“  ์ข…๋ฅ˜์˜ ํ”ผ๋“œ๋ฐฑ ํ”„๋กฌํ”„ํŠธ๋ฅผ ์‹คํ—˜ํ–ˆ์Œ์—๋„ ๋ถˆ๊ตฌํ•˜๊ณ  ์ž๊ธฐ๊ต์ •์ด ์˜คํžˆ๋ ค ์ถ”๋ก  ์„ฑ๋Šฅ์„ ๋–จ์–ด๋œจ๋ฆฐ๋‹ค๋Š” ์‚ฌ์‹ค์„ ํ™•์ธํ–ˆ๋‹ค.

์ด๋ฒˆ ์žฅ์—์„œ๋Š” ๊ทธ ์›์ธ ์ค‘ ํ•˜๋‚˜๋กœ ํ”„๋กฌํ”„ํŠธ ์„ค๊ณ„(prompt design)์„ ์ง€์ ํ•œ๋‹ค. ํŠนํžˆ, ์ดˆ๊ธฐ ํ”„๋กฌํ”„ํŠธ(initial prompt)๊ฐ€ ์ถฉ๋ถ„ํžˆ ์ •๋ณด๋Ÿ‰์ด ๋งŽ์ง€ ์•Š์€ ๊ฒฝ์šฐ, ์ž๊ธฐ๊ต์ • ๋‹จ๊ณ„๊ฐ€ ๋งˆ์น˜ ํšจ๊ณผ์ ์ธ ๊ฐœ์„ ์ฒ˜๋Ÿผ ์ฐฉ์‹œ ํšจ๊ณผ๋ฅผ ๋งŒ๋“ค์–ด๋‚ผ ์ˆ˜ ์žˆ๋‹ค๋Š” ์ ์„ ์‹คํ—˜์ ์œผ๋กœ ๋ณด์—ฌ์ค€๋‹ค.


๐Ÿ”ปํ”„๋กฌํ”„ํŠธ ์„ค๊ณ„๊ฐ€ ํ‰๊ฐ€ ๊ฒฐ๊ณผ์— ๋ฏธ์น˜๋Š” ์˜ํ–ฅ

์ž๊ธฐ๊ต์ • ์‹คํ—˜์—์„œ ๋ชจ๋ธ์€ ๋‘ ๋‹จ๊ณ„์˜ ํ”„๋กฌํ”„ํŠธ๋ฅผ ์‚ฌ์šฉํ•œ๋‹ค.

  1. ์ดˆ๊ธฐ ์‘๋‹ต ์ƒ์„ฑ ํ”„๋กฌํ”„ํŠธ(Initial Prompt)
    ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๊ฑฐ๋‚˜ ๋ฌธ์žฅ์„ ์ƒ์„ฑํ•˜๋„๋ก ํ•˜๋Š” ๊ธฐ๋ณธ ์ง€์‹œ๋ฌธ

  1. ํ”ผ๋“œ๋ฐฑ ํ”„๋กฌํ”„ํŠธ(Feedback Prompt)
    ๋ชจ๋ธ์ด ์ž์‹ ์ด ๋งŒ๋“  ๊ฒฐ๊ณผ๋ฅผ ๊ฒ€ํ† ํ•˜๊ณ , ๋ถ€์กฑํ•œ ๋ถ€๋ถ„์„ ์ˆ˜์ •ํ•˜๋„๋ก ์œ ๋„ํ•˜๋Š” ์ง€์‹œ๋ฌธ

์ž๊ธฐ๊ต์ • ์‹คํ—˜์„ ์„ค๊ณ„ํ•  ๋•Œ ์ค‘์š”ํ•œ ๊ฒƒ์€, ์ด ๋‘ ํ”„๋กฌํ”„ํŠธ๊ฐ€ ๋™์ผํ•œ ์ •๋ณด ์ˆ˜์ค€๊ณผ ์š”๊ตฌ ์กฐ๊ฑด์„ ๋ฐ˜์˜ํ•ด์•ผ ํ•œ๋‹ค๋Š” ์ ์ด๋‹ค.

๊ทธ๋Ÿฌ๋‚˜ ๊ธฐ์กด์˜ ๋งŽ์€ ์—ฐ๊ตฌ์—์„œ๋Š” ์ดˆ๊ธฐ ํ”„๋กฌํ”„ํŠธ๊ฐ€ ๋ถˆ์ถฉ๋ถ„ํ•˜๊ฑฐ๋‚˜ ๋ชจํ˜ธํ•˜๊ฒŒ ์ž‘์„ฑ๋˜์–ด ์žˆ์—ˆ๊ณ , ์ž๊ธฐ๊ต์ • ๋‹จ๊ณ„์˜ ํ”ผ๋“œ๋ฐฑ ํ”„๋กฌํ”„ํŠธ์—๋งŒ ์ถ”๊ฐ€์ ์ธ ์กฐ๊ฑด์„ ๋ช…์‹œํ–ˆ๋‹ค. ์ด ๊ฒฝ์šฐ, ๋ชจ๋ธ์€ ์ž๊ธฐ๊ต์ • ๋•๋ถ„์— ์ข‹์•„์ง„ ๊ฒƒ์ด ์•„๋‹Œ ๋‹จ์ˆœํžˆ ๋” ๋ช…ํ™•ํ•œ ํ”„๋กฌํ”„ํŠธ๋ฅผ ๋‘ ๋ฒˆ์งธ์— ๋ฐ›์•˜๊ธฐ ๋•Œ๋ฌธ์— ์„ฑ๋Šฅ์ด ํ–ฅ์ƒ๋œ ๊ฒƒ์ด๋‹ค.


๐Ÿ”ป Madaan et al. Constrained Generation ๊ณผ์ œ

์ด ์ ์„ ๋ณด์—ฌ์ฃผ๊ธฐ ์œ„ํ•ด, ์ €์ž๋“ค์€ Madaan et al. (2023)์˜ โ€œConstrained Generationโ€ ๊ณผ์ œ๋ฅผ ์žฌ๋ถ„์„ํ–ˆ๋‹ค. ์ด ๊ณผ์ œ์˜ ๋ชฉํ‘œ๋Š” ๋ชจ๋ธ์ด ์ฃผ์–ด์ง„ 20~30๊ฐœ์˜ ๊ฐœ๋…(concepts)์„ ๋ชจ๋‘ ํฌํ•จํ•˜๋Š” ์ผ๊ด€๋œ ๋ฌธ์žฅ์„ ์ƒ์„ฑํ•˜๋Š” ๊ฒƒ์ด๋‹ค.

โš ๏ธ ๊ธฐ์กด ์—ฐ๊ตฌ์˜ ๋ฌธ์ œ
Madaan et al.์˜ ์›๋ž˜ ํ”„๋กฌํ”„ํŠธ๋Š” โ€œ๋ชจ๋“  ๊ฐœ๋…์„ ๋ฐ˜๋“œ์‹œ ํฌํ•จํ•ด์•ผ ํ•œ๋‹คโ€๋Š” ๋ช…์‹œ์  ์š”๊ตฌ์‚ฌํ•ญ์ด ์—†์—ˆ๋‹ค. ๋”ฐ๋ผ์„œ ์ดˆ๊ธฐ ์ถœ๋ ฅ์—์„œ๋Š” ์ผ๋ถ€ ๊ฐœ๋…์ด ๋ˆ„๋ฝ๋˜์—ˆ๊ณ , ์ดํ›„ ์ž๊ธฐ๊ต์ • ๋‹จ๊ณ„์—์„œ โ€œ๋ˆ„๋ฝ๋œ ๊ฐœ๋…์„ ์ฐพ์•„ ์ถ”๊ฐ€ํ•˜๋ผโ€๋Š” ํ”ผ๋“œ๋ฐฑ์ด ์ฃผ์–ด์ง€๋ฉด์„œ ์„ฑ๋Šฅ์ด ์ข‹์•„์ง€๋Š” ๊ฒƒ์ฒ˜๋Ÿผ ๋ณด์˜€๋‹ค.
โ†’ ์ฆ‰, ์„ฑ๋Šฅ ํ–ฅ์ƒ์˜ ์›์ธ์€ ์ž๊ธฐ๊ต์ • ๊ณผ์ •์ด ์•„๋‹ˆ๋ผ, ํ”ผ๋“œ๋ฐฑ ํ”„๋กฌํ”„ํŠธ๊ฐ€ ์ดˆ๊ธฐ ํ”„๋กฌํ”„ํŠธ๋ณด๋‹ค ๋” ๊ตฌ์ฒด์ ์ด์—ˆ๊ธฐ ๋•Œ๋ฌธ์ด๋‹ค.
๐Ÿ”ง ๊ฐœ์„ ๋œ ์‹คํ—˜ ์„ค๊ณ„
์ด๋Ÿฌํ•œ ๋ฌธ์ œ๋ฅผ ๋ฐ”๋กœ์žก๊ธฐ ์œ„ํ•ด, ์ €์ž๋“ค์€ ์ดˆ๊ธฐ ํ”„๋กฌํ”„ํŠธ๋ฅผ ๋‹ค์Œ๊ณผ ๊ฐ™์ด ์ˆ˜์ •ํ–ˆ๋‹ค.
โ€œWrite a reasonable paragraph that includes ALL of the above concepts.โ€
์ฆ‰, ํ”ผ๋“œ๋ฐฑ ํ”„๋กฌํ”„ํŠธ์˜ ์š”๊ตฌ์‚ฌํ•ญ์„ ์ดˆ๊ธฐ ํ”„๋กฌํ”„ํŠธ์— ๋ฏธ๋ฆฌ ํ†ตํ•ฉํ•œ ๊ฒƒ์ด๋‹ค.

์ดํ›„, ๋™์ผํ•œ ๋ชจ๋ธ(gpt-3.5-turbo-0613)์„ ์‚ฌ์šฉํ•ด Madaan et al. (2023)์˜ ๊ฒฐ๊ณผ๋ฅผ ๊ทธ๋Œ€๋กœ ์žฌํ˜„ํ•˜๋˜, ์ดˆ๊ธฐ ํ”„๋กฌํ”„ํŠธ๋งŒ ๋ฐ”๊พผ ๋ฒ„์ „๊ณผ ๋น„๊ตํ•˜์˜€๋‹ค.

๊ฒฐ๊ณผ ํ•ด์„

  • ์ดˆ๊ธฐ ํ”„๋กฌํ”„ํŠธ๋ฅผ ๋‹จ์ˆœํžˆ ์กฐ๊ธˆ ๋” ๊ตฌ์ฒด์ ์œผ๋กœ ๋ฐ”๊พผ ๊ฒƒ๋งŒ์œผ๋กœ ์ž๊ธฐ๊ต์ • ์—†์ด๋„ 81.8%์˜ ์ •ํ™•๋„๋ฅผ ์–ป์„ ์ˆ˜ ์žˆ์—ˆ๋‹ค.
  • ๋ฐ˜๋ฉด, ๊ทธ ์ƒํƒœ์—์„œ ๋‹ค์‹œ ์ž๊ธฐ๊ต์ • ๋‹จ๊ณ„๋ฅผ ์ถ”๊ฐ€ํ•˜์ž
    ์˜คํžˆ๋ ค ์„ฑ๋Šฅ์ด 75.1%๋กœ ํ•˜๋ฝํ–ˆ๋‹ค.

์ฆ‰, ์ด์ „ ์—ฐ๊ตฌ์—์„œ โ€œ์ž๊ธฐ๊ต์ •์œผ๋กœ ์ธํ•œ ํ–ฅ์ƒโ€์ด๋ผ ์—ฌ๊ฒจ์กŒ๋˜ ๊ฒƒ์€, ์‚ฌ์‹ค์ƒ โ€œํ”„๋กฌํ”„ํŠธ ์ตœ์ ํ™” ํšจ๊ณผ(prompt improvement)โ€์˜€๋˜ ๊ฒƒ์ด๋‹ค.

์ด ์‹คํ—˜์„ ํ†ตํ•ด ์ €์ž๋“ค์€ ๋‹ค์Œ์˜ ์ค‘์š”ํ•œ ๊ตํ›ˆ์„ ์ œ์‹œํ•œ๋‹ค. ๋งŒ์•ฝ ๋ชจ๋ธ์ด ํŠน์ • ํ˜•์‹์ด๋‚˜ ๊ธฐ์ค€์„ ์ถฉ์กฑํ•ด์•ผ ํ•œ๋‹ค๋ฉด (์˜ˆ: ๋ฌธ์žฅ์— ํŠน์ • ๋‹จ์–ด๋ฅผ ํฌํ•จ, ์ฝ”๋“œ์˜ ํšจ์œจ์„ฑ, ๊ฐ์ •์˜ ๋ฐฉํ–ฅ ๋“ฑ), ๊ทธ๋Ÿฌํ•œ ์š”๊ตฌ์‚ฌํ•ญ์„ ํ”ผ๋“œ๋ฐฑ ํ”„๋กฌํ”„ํŠธ๊ฐ€ ์•„๋‹ˆ๋ผ ์ดˆ๊ธฐ ํ”„๋กฌํ”„ํŠธ์— ๋ช…์‹œ์ ์œผ๋กœ ํฌํ•จ์‹œ์ผœ์•ผ ํ•œ๋‹ค. ๊ทธ๋ ‡์ง€ ์•Š์œผ๋ฉด, ์ž๊ธฐ๊ต์ •์˜ ์„ฑ๋Šฅ ํ–ฅ์ƒ์€ ์‹ค์ œ๋กœ๋Š” โ€œ๋” ๋ช…ํ™•ํ•œ ์ง€์‹œ๋ฅผ ๋‚˜์ค‘์— ์ค€ ๊ฒฐ๊ณผโ€์— ๋ถˆ๊ณผํ•˜๊ฒŒ ๋œ๋‹ค.

๋”ฐ๋ผ์„œ, ์ดˆ๊ธฐ ํ”„๋กฌํ”„ํŠธ๊ฐ€ ๋ถˆ์™„์ „ํ•˜๋ฉด ์ž๊ธฐ๊ต์ •์ด ๋งˆ์น˜ ์œ ํšจํ•œ ๊ฒƒ์ฒ˜๋Ÿผ ๋ณด์ด์ง€๋งŒ, ๋™์ผํ•œ ์ˆ˜์ค€์˜ ์ง€์‹œ๋ฅผ ์ฒ˜์Œ๋ถ€ํ„ฐ ์ œ๊ณตํ•œ๋‹ค๋ฉด ์ž๊ธฐ๊ต์ •์€ ๋Œ€๋ถ€๋ถ„ ์„ฑ๋Šฅ์„ ์ €ํ•˜์‹œํ‚ค๊ฑฐ๋‚˜ ๋ฌด์˜๋ฏธํ•˜๋‹ค.


๐Ÿ”นConclusion and Discussion


๐Ÿ”ปํ•ต์‹ฌ ๊ฒฐ๋ก 

์ด ์—ฐ๊ตฌ๋Š” ํ˜„์žฌ์˜ ๋Œ€๊ทœ๋ชจ ์–ธ์–ด๋ชจ๋ธ(LLMs)์ด ์™ธ๋ถ€ ํ”ผ๋“œ๋ฐฑ ์—†์ด ์Šค์Šค๋กœ ์ถ”๋ก (reasoning)์„ ๊ต์ •ํ•  ์ˆ˜ ์—†๋‹ค๋Š” ์ ์„ ๋ช…ํ™•ํžˆ ๋ณด์—ฌ์ค€๋‹ค.์ฆ‰, ๋ชจ๋ธ์ด ์ž์‹ ์˜ ์ถœ๋ ฅ์ด ์˜ณ์€์ง€ ์Šค์Šค๋กœ ํŒ๋‹จํ•˜๊ณ  ์ˆ˜์ •ํ•˜๋Š” ๋Šฅ๋ ฅ์ธ ๋‚ด์žฌ์  ์ž๊ธฐ๊ต์ •(intrinsic self-correction)์€ ํ˜„ ์‹œ์ ์˜ LLM์—๊ฒŒ๋Š” ์กด์žฌํ•˜์ง€ ์•Š๋Š”๋‹ค.

์ด๋Š” โ€œLLM์ด ์Šค์Šค๋กœ ์˜ค๋ฅ˜๋ฅผ ์ธ์‹ํ•˜๊ณ  ์ˆ˜์ •ํ•  ์ˆ˜ ์žˆ๋‹คโ€๋Š” ๋‚™๊ด€์ ์ธ ๊ธฐ๋Œ€๊ฐ€ ํ˜„์‹ค์ ์œผ๋กœ ์ง€๋‚˜์น˜๊ฒŒ ๊ณผ๋Œ€ํ‰๊ฐ€๋˜์–ด ์žˆ์Œ์„ ์˜๋ฏธํ•œ๋‹ค.

๋”ฐ๋ผ์„œ ์—ฐ๊ตฌ ๊ณต๋™์ฒด๋Š” ์ž๊ธฐ๊ต์ • ๊ฐœ๋…์„ ๋ฌด์กฐ๊ฑด์ ์ธ ๋ฐœ์ „ ๋ฐฉํ–ฅ์œผ๋กœ ๋ฐ›์•„๋“ค์ด๊ธฐ๋ณด๋‹ค๋Š”, ๊ทธ ๊ฐ€๋Šฅ์„ฑ๊ณผ ํ•œ๊ณ„๋ฅผ ๋ช…ํ™•ํžˆ ์ธ์‹ํ•˜๋Š” ๊ท ํ˜• ์žกํžŒ ์‹œ๊ฐ์„ ๊ฐ€์ ธ์•ผ ํ•œ๋‹ค. ์ด๋Ÿฌํ•œ ๋น„ํŒ์  ๊ด€์ ์€ LLM์˜ ํ•œ๊ณ„๋ฅผ ์ง„์ •์œผ๋กœ ๊ทน๋ณตํ•  ์ˆ˜ ์žˆ๋Š” ์ฐจ์„ธ๋Œ€ ์ž๊ธฐ๊ต์ • ๊ธฐ๋ฒ•์„ ๊ฐœ๋ฐœํ•˜๋Š” ๋ฐ ํ•„์ˆ˜์ ์ด๋‹ค.


๐Ÿ”ป์ž๊ธฐ๊ต์ •์ด ์‹ค์ œ๋กœ ์œ ํšจํ•  ์ˆ˜ ์žˆ๋Š” ๋ฐฉํ–ฅ

์ €์ž๋“ค์€ LLM์ด ์ž๊ธฐ๊ต์ • ๋Šฅ๋ ฅ์„ ์ œ๋Œ€๋กœ ๋ฐœํœ˜ํ•  ์ˆ˜ ์žˆ๋Š” ํ˜„์‹ค์  ์กฐ๊ฑด๋“ค์„ ์„ธ ๊ฐ€์ง€๋กœ ์ œ์‹œํ•œ๋‹ค.

โ‘  ์™ธ๋ถ€ ํ”ผ๋“œ๋ฐฑ์˜ ์ ์ ˆํ•œ ํ™œ์šฉ
์ด๋ฒˆ ์—ฐ๊ตฌ ๊ฒฐ๊ณผ๋Š” LLM์ด ์™ธ๋ถ€ ํ”ผ๋“œ๋ฐฑ ์—†์ด๋Š” ์ถ”๋ก  ์„ฑ๋Šฅ์„ ๊ฐœ์„ ํ•˜์ง€ ๋ชปํ•จ์„ ๋ณด์—ฌ์ค€๋‹ค. ๋”ฐ๋ผ์„œ ์™ธ๋ถ€ ํ”ผ๋“œ๋ฐฑ์ด ์ฃผ์–ด์งˆ ์ˆ˜ ์žˆ๋Š” ์ƒํ™ฉ์—์„œ๋Š” ์ด๋ฅผ ์ ๊ทน์ ์œผ๋กœ ํ™œ์šฉํ•˜๋Š” ๊ฒƒ์ด ๋ฐ”๋žŒ์งํ•˜๋‹ค.

  • ์ฝ”๋“œ ์ƒ์„ฑ(Code Generation)
    Chen et al. (2023b)๋Š” ์ฝ”๋“œ ์‹คํ–‰ ๊ฒฐ๊ณผ(execution result)๋ฅผ ํ”ผ๋“œ๋ฐฑ ํ”„๋กฌํ”„ํŠธ์— ํฌํ•จ์‹œ์ผœ LLM์ด ์ž˜๋ชป๋œ ์ฝ”๋“œ๋ฅผ ์Šค์Šค๋กœ ์ˆ˜์ •ํ•˜๋„๋ก ์œ ๋„ํ–ˆ๋‹ค.
    ์ด ๊ฒฝ์šฐ ์ฝ”๋“œ ์‹คํ–‰๊ธฐ(code executor)๊ฐ€ ์™„๋ฒฝํ•œ ๊ฒ€์ฆ์ž(verifier) ์—ญํ• ์„ ํ•˜๋ฉฐ, ์—๋Ÿฌ ๋ฉ”์‹œ์ง€๋Š” ๋งค์šฐ ์œ ์šฉํ•œ ๊ต์ • ์‹ ํ˜ธ๋ฅผ ์ œ๊ณตํ•œ๋‹ค.
  • ๋„๊ตฌ ํ™œ์šฉ(External Tools)
    Gou et al. (2023)์€ ๊ฒ€์ƒ‰์—”์ง„, ๊ณ„์‚ฐ๊ธฐ ๋“ฑ ์™ธ๋ถ€ ๋„๊ตฌ์™€ ์ƒํ˜ธ์ž‘์šฉํ•  ์ˆ˜ ์žˆ์„ ๋•Œ LLM์˜ ์ž๊ธฐ๊ฒ€์ฆ ๋ฐ ๊ต์ • ๋Šฅ๋ ฅ์ด ์œ ์˜๋ฏธํ•˜๊ฒŒ ํ–ฅ์ƒ๋œ๋‹ค๊ณ  ๋ณด๊ณ ํ–ˆ๋‹ค.
  • ๋ชจ๋ธ ๊ฐ„ ์ƒํ˜ธ๊ฒ€์ฆ(Verifier Models)
    Cobbe et al. (2021), Lightman et al. (2023), Wang et al. (2023b)๋Š” ๊ณ ํ’ˆ์งˆ ๋ฐ์ดํ„ฐ๋กœ ํ›ˆ๋ จ๋œ ๊ฒ€์ฆ ๋ชจ๋ธ(verifier or critique model)์„ ํ†ตํ•ด LLM์˜ ์ถœ๋ ฅ์„ ํ‰๊ฐ€ํ•˜๊ณ  ํ”ผ๋“œ๋ฐฑ์„ ์ œ๊ณตํ•˜๋Š” ๋ฐฉ๋ฒ•์„ ์ œ์•ˆํ–ˆ๋‹ค.
  • ์ธ๊ฐ„ ํ”ผ๋“œ๋ฐฑ(Human Feedback)
    ์ธ๊ฐ„์ด ์ง์ ‘ ๊ต์ • ๋ฐฉํ–ฅ์„ ์ œ์‹œํ•˜๊ฑฐ๋‚˜ ์›ํ•˜๋Š” ๊ฒฐ๊ณผ๋ฅผ ๋ช…ํ™•ํžˆ ์„ค๋ช…ํ•˜๋Š” ๊ณผ์ •๋„ ๊ฐ•๋ ฅํ•œ ์™ธ๋ถ€ ํ”ผ๋“œ๋ฐฑ์˜ ํ•œ ํ˜•ํƒœ๋‹ค.
    โ†’ ๊ฒฐ๊ตญ, LLM์ด ์™ธ๋ถ€ ํ™˜๊ฒฝ๊ณผ ์ƒํ˜ธ์ž‘์šฉํ•˜๊ณ  ํ•™์Šตํ•  ์ˆ˜ ์žˆ๋Š” ๊ตฌ์กฐ๋ฅผ ๋งŒ๋“œ๋Š” ๊ฒƒ์ด ํ–ฅํ›„ ์ž๊ธฐ๊ต์ • ์—ฐ๊ตฌ์˜ ํ•ต์‹ฌ ๋ฐฉํ–ฅ์œผ๋กœ ์ œ์‹œํ•œ๋‹ค.

โ‘ก ๋™์ผํ•œ ์—ฐ์‚ฐ๋น„์šฉ(Inference Cost)์„ ๊ณ ๋ คํ•œ ๊ณต์ •ํ•œ ๋น„๊ต
์ž๊ธฐ๊ต์ •์€ ๋ณธ์งˆ์ ์œผ๋กœ ์—ฌ๋Ÿฌ ๋ฒˆ์˜ ๋ชจ๋ธ ํ˜ธ์ถœ์„ ์š”๊ตฌํ•œ๋‹ค.
์ฆ‰, ๊ณ„์‚ฐ ๋น„์šฉ๊ณผ ํ† ํฐ ์‚ฌ์šฉ๋Ÿ‰์ด ์ฆ๊ฐ€ํ•˜๋ฏ€๋กœ ์ž๊ธฐ๊ต์ • ๊ธฐ๋ฒ•์˜ ์„ฑ๋Šฅ์„ ํ‰๊ฐ€ํ•  ๋•Œ๋Š” ๋‹จ์ˆœํžˆ โ€œ์ •ํ™•๋„๊ฐ€ ํ–ฅ์ƒ๋˜์—ˆ๋‹คโ€๋Š” ๊ฒฐ๊ณผ๋งŒ์œผ๋กœ๋Š” ์ถฉ๋ถ„ํ•˜์ง€ ์•Š๋‹ค.

  • ๋™์ผํ•œ ๋ชจ๋ธ ํ˜ธ์ถœ ์ˆ˜, ๋™์ผํ•œ ํ† ํฐ ์ˆ˜, ๋™์ผํ•œ ์‹œ๊ฐ„ ๋น„์šฉ์„ ๊ณ ๋ คํ•ด์•ผ ํ•œ๋‹ค.
  • ํ–ฅํ›„ ์—ฐ๊ตฌ์—์„œ๋Š” ๋ฐ˜๋“œ์‹œ ์ถ”๊ฐ€ ์—ฐ์‚ฐ ๋น„์šฉ์„ ํฌํ•จํ•œ ์„ฑ๋Šฅ ๋ถ„์„์ด ๋ณ‘ํ–‰๋˜์–ด์•ผ ํ•œ๋‹ค.
  • ๊ฐ€๋Šฅํ•˜๋‹ค๋ฉด ์ ์€ ํ˜ธ์ถœ ํšŸ์ˆ˜๋กœ๋„ ์ตœ์  ํ•ด๋‹ต์„ ์ƒ์„ฑํ•  ์ˆ˜ ์žˆ๋Š” ์ •๋ ฌ ๊ธฐ๋ฒ•(alignment techniques) ๊ฐœ๋ฐœ์ด ํ•„์š”ํ•˜๋‹ค.

โ‘ข ํ”„๋กฌํ”„ํŠธ ์„ค๊ณ„(Prompt Design)์˜ ๊ณต์ •์„ฑ ํ™•๋ณด
์ž๊ธฐ๊ต์ •์˜ ์„ฑ๋Šฅ ํ–ฅ์ƒ์€ ์ข…์ข… โ€œํ”ผ๋“œ๋ฐฑ ํ”„๋กฌํ”„ํŠธ๊ฐ€ ์ดˆ๊ธฐ ํ”„๋กฌํ”„ํŠธ๋ณด๋‹ค ๋” ์ž˜ ์„ค๊ณ„๋˜์–ด ์žˆ์—ˆ๊ธฐ ๋•Œ๋ฌธโ€์ด์—ˆ๋‹ค.
ํ–ฅํ›„ ์—ฐ๊ตฌ์—์„œ๋Š” ๋‹ค์Œ์˜ ์›์น™์„ ๋”ฐ๋ผ์•ผ ํ•œ๋‹ค.

  • ์ดˆ๊ธฐ ํ”„๋กฌํ”„ํŠธ์™€ ํ”ผ๋“œ๋ฐฑ ํ”„๋กฌํ”„ํŠธ์— ๋™๋“ฑํ•œ ์ˆ˜์ค€์˜ ์ •๋ณด์™€ ๋ช…์‹œ์„ฑ์„ ํฌํ•จํ•ด์•ผ ํ•œ๋‹ค.
  • ์ž๊ธฐ๊ต์ •์˜ ํšจ๊ณผ๋ฅผ ํ‰๊ฐ€ํ•  ๋•Œ๋Š” โ€œํ”„๋กฌํ”„ํŠธ์˜ ์™„์„ฑ๋„ ์ฐจ์ดโ€๊ฐ€ ์•„๋‹ˆ๋ผ ์‹ค์งˆ์ ์ธ ๊ต์ • ๋Šฅ๋ ฅ์˜ ์ฐจ์ด๋ฅผ ์ธก์ •ํ•ด์•ผ ํ•œ๋‹ค.
  • โ€œ๊ฐ™์€ ์กฐ๊ฑด์—์„œ ๊ฐ™์€ ๋‚œ์ด๋„์˜ ํ”„๋กฌํ”„ํŠธ๋ฅผ ์ฃผ์—ˆ์„ ๋•Œ, ์ž๊ธฐ๊ต์ •์ด ์ง„์งœ๋กœ ๋„์›€์ด ๋˜๋Š”๊ฐ€?โ€๊ฐ€ ์ด ์งˆ๋ฌธ์ด ํ•ต์‹ฌ์ด๋‹ค.

๐Ÿ”ปํ–ฅํ›„ ์—ฐ๊ตฌ ๋ฐฉํ–ฅ ์š”์•ฝ

์ €์ž๋“ค์€ ์œ„์˜ ์„ธ ๊ฐ€์ง€ ๋…ผ์ ์„ ์ข…ํ•ฉํ•ด, ์ž๊ธฐ๊ต์ • ์—ฐ๊ตฌ์˜ ์˜ฌ๋ฐ”๋ฅธ ๋ฐœ์ „ ๋ฐฉํ–ฅ์„ ๋‹ค์Œ๊ณผ ๊ฐ™์ด ์ •๋ฆฌํ•œ๋‹ค.

  • ์™ธ๋ถ€ ํ”ผ๋“œ๋ฐฑ ํ™œ์šฉ: ์ฝ”๋“œ ์‹คํ–‰, ๊ฒ€์ƒ‰, ๊ณ„์‚ฐ, ๊ฒ€์ฆ์ฐจ ๋ชจ๋ธ ๋“ฑ๊ณผ์˜ ํ†ตํ•ฉ์„ ํ†ตํ•œ ์ƒํ˜ธ์ž‘์šฉ์  ๊ต์ •
  • ๋น„์šฉ ๋Œ€๋น„ ํšจ๊ณผ ๋ถ„์„: ์ถ”๊ฐ€ ๋ชจ๋ธ ํ˜ธ์ถœ์— ๋”ฐ๋ฅธ ๋น„์šฉ-์„ฑ๋Šฅ ๊ท ํ˜• ํ‰๊ฐ€, self-consistencyํ˜• ๋น„๊ต ํฌํ•จ
  • ํ”„๋กฌํ”„ํŠธ ๊ณต์ •์„ฑ: ์ดˆ๊ธฐ ํ”ผ๋“œ๋ฐฑ ํ”„๋กฌํ”„ํŠธ๋ฅผ ๋™์ผ

ํ˜„์žฌ์˜ LLM์€ ์ž๊ธฐ ์ธ์‹(Self-awareness), ์ถ”๋ก  ๊ฒ€์ฆ(Reasoning verification), ์ž๊ธฐ ๋น„ํŒ(Self-evaluation) ๊ณผ ๊ฐ™์€ ๊ณ ์ฐจ์  ์ธ์ง€ ๊ณผ์ •์„ ์ˆ˜ํ–‰ํ•  ๋Šฅ๋ ฅ์ด ๋ถ€์กฑํ•˜๋‹ค. ๊ทธ ๊ฒฐ๊ณผ, ์ž๊ธฐ๊ต์ •์€ ์™ธ๋ถ€ ํ”ผ๋“œ๋ฐฑ์ด ์—†์„ ๊ฒฝ์šฐ ์„ฑ๋Šฅ ํ–ฅ์ƒ๋ณด๋‹ค ์™œ๊ณก(bias)๊ณผ ์„ฑ๋Šฅ ์ €ํ•˜(performance degradation)๋ฅผ ์ดˆ๋ž˜ํ•œ๋‹ค.

๋”ฐ๋ผ์„œ ํ–ฅํ›„ ์—ฐ๊ตฌ์ž๋“ค์€ ์ž๊ธฐ๊ต์ •(Self-Correction)์„ โ€œ์ž๋™์  ์ž๊ธฐ์„ฑ์ฐฐ ๋Šฅ๋ ฅโ€์œผ๋กœ ๊ณผ๋Œ€ํ‰๊ฐ€ํ•˜์ง€ ๋ง๊ณ , ๊ทธ ํ•œ๊ณ„๋ฅผ ์ธ์‹ํ•œ ์ฑ„ ์™ธ๋ถ€ ํ”ผ๋“œ๋ฐฑ๊ณผ์˜ ํ†ตํ•ฉ์  ์ ‘๊ทผ์œผ๋กœ ๋ฐœ์ „์‹œ์ผœ์•ผ ํ•œ๋‹ค.


๐Ÿ‘€ My thoughts


  • ์ด๋ฒˆ ๊ธ€์—์„œ๋Š” LLM์˜ ์ž๊ธฐ๊ต์ •(Self-Correction) ๊ฐœ๋…์— ๋Œ€ํ•ด ๊นŠ์ด ์žˆ๊ฒŒ ์‚ดํŽด๋ณด์•˜๋Š”๋ฐ, CoVe๋‚˜ Self-Refine ๊ฐ™์€ ๋‚ด์žฌ์  ์ž๊ธฐ๊ต์ • ๋ฐฉ์‹๋“ค์ด ๋‹จ์ˆœํžˆ โ€œํ•œ ๋ฒˆ ๋” ์ƒ๊ฐํ•œ๋‹คโ€๋Š” ์ด์œ ๋งŒ์œผ๋กœ ์„ฑ๋Šฅ์ด ํ–ฅ์ƒ๋˜๋Š” ๊ฒƒ์ด ์•„๋‹ˆ๋ผ, ์˜คํžˆ๋ ค ์ž˜๋ชป๋œ ๋ฐฉํ–ฅ์œผ๋กœ ์Šค์Šค๋กœ๋ฅผ ํ™•์‹ ํ•˜๋Š” ์œ„ํ—˜์„ฑ์ด ์žˆ๋‹ค๋Š” ์ ์ด ์ธ์ƒ ๊นŠ์—ˆ๋‹ค.
  • ํŠนํžˆ ๊ธฐ์กด ์—ฐ๊ตฌ๋“ค์ด ์ž๊ธฐ๊ต์ •์˜ ์„ฑ๋Šฅ ํ–ฅ์ƒ์„ ๋ณด์˜€๋˜ ์ด์œ ๊ฐ€, ์•Œ๊ณ  ๋ณด๋‹ˆ ํ”„๋กฌํ”„ํŠธ ์„ค๊ณ„์˜ ๋ถˆ๊ท ํ˜•๊ณผ ์˜ค๋ผํด ๋ ˆ์ด๋ธ” ์˜์กด์„ฑ ๋•Œ๋ฌธ์ด์—ˆ๋‹ค๋Š” ๋ถ€๋ถ„์ด ์‹ ๊ธฐํ–ˆ๋‹ค. โ€˜๋ชจ๋ธ์ด ์ž˜ ๊ณ ์ณค๋‹คโ€™๋ผ๊ณ  ์ƒ๊ฐํ–ˆ๋˜ ๊ฒฐ๊ณผ๊ฐ€ ์‹ค์ œ๋กœ๋Š” ๋‹จ์ง€ ๋” ๋ช…ํ™•ํ•œ ์ง€์‹œ๋ฅผ ๋‚˜์ค‘์— ์ค€ ํšจ๊ณผ์˜€๋‹ค๋Š” ์ ์ด, AI ์—ฐ๊ตฌ์—์„œ ํ”„๋กฌํ”„ํŠธ ์„ค๊ณ„์™€ ํ‰๊ฐ€ ๊ธฐ์ค€์˜ ์ค‘์š”์„ฑ์„ ๋‹ค์‹œ๊ธˆ ๋А๋ผ๊ฒŒ ํ–ˆ๋‹ค.
  • ๋˜ํ•œ, ํ•ด๋‹น ๋…ผ๋ฌธ์ด ์ƒ๋‹นํžˆ ๋น„ํŒ์ ์ธ ์—ฐ๊ตฌ ํƒœ๋„๊ฐ€ ์ธ์ƒ๊นŠ์—ˆ๋‹ค. ๋Œ€๋ถ€๋ถ„์˜ ๋…ผ๋ฌธ์—์„œ๋Š” ๊ธฐ์กด ๋ชจ๋ธ์˜ ํ•œ๊ณ„๋ฅผ ์–ธ๊ธ‰ํ•˜์ง€๋งŒ, ์ƒˆ๋กœ์šด ์„ฑ๋Šฅ ํ–ฅ์ƒ์ด๋‚˜ ๋ชจ๋ธ ์ œ์•ˆ์ด ์ฃผ ๋‚ด์šฉ์ด๋‹ค. ํ•˜์ง€๋งŒ ํ•ด๋‹น ๋…ผ๋ฌธ์€ ๊ธฐ์กด ๋ชจ๋ธ์— ๋Œ€ํ•œ ๋น„ํŒ์ด ์ฃผ๋œ ๋‚ด์šฉ์ด์–ด์„œ ์‹ ๊ธฐํ–ˆ๊ณ  ์žฌ๋ฐŒ๊ฒŒ ์ฝ์€ ๊ฒƒ ๊ฐ™๋‹ค.

0๊ฐœ์˜ ๋Œ“๊ธ€