Self-Consistency Improves Chain of Thought Reasoning in Language Models (2023)

J.ยท2025๋…„ 11์›” 16์ผ

Text & Speech Papers

๋ชฉ๋ก ๋ณด๊ธฐ
11/12

โœ” Basic Info

๐Ÿ“Œ Self-Consistency Improves Chain of Thought Reasoning in Language Models (2023)
๐Ÿ”— https://arxiv.org/abs/2203.11171

โœ…Abstract

  • ๊ธฐ์กด CoT ๋ฌธ์ œ์  : ํ•˜๋‚˜์˜ ์ถ”๋ก  ๊ฒฝ๋กœ๋งŒ ์„ ํƒํ•˜๋Š” ๊ทธ๋ฆฌ๋”” ๋””์ฝ”๋”ฉ ๋ฐฉ์‹ โ†’ ๋ณต์žกํ•œ ๋ฌธ์ œ์—์„œ๋Š” ๋‹ค์–‘ํ•œ ์‚ฌ๊ณ  ๋ฐฉ์‹ ๋ฐ˜์˜์ด ์–ด๋ ค์›€
  • ํ•ด๊ฒฐ : Self-consistency ๋ผ๋Š” ๋ฐฉ๋ฒ•์„ ๋„์ž…
    • ์—ฌ๋Ÿฌ ๋‹ค์–‘ํ•œ ์ถ”๋ก  ๊ฒฝ๋กœ๋ฅผ ๋ชจ๋ธ์—์„œ ์ƒ˜ํ”Œ๋งํ•œ ๋’ค
    • ๊ทธ ๊ฒฝ๋กœ๋“ค์ด ๋„๋‹ฌํ•œ ์ตœ์ข… ๋‹ต์„ ๋ชจ์•„์„œ ๊ฐ€์žฅ ์ผ๊ด€๋œ ๋‹ต์„ ์„ ํƒํ•˜๋Š” ๋ฐฉ์‹.

์—ฌ๋Ÿฌ ์‚ฌ๊ณ  ๊ฒฝ๋กœ ์ค‘ ๊ฒฐ๋ก ๋งŒ ๋ชจ์•„์„œ ํˆฌํ‘œ๋กœ ๊ฐ€์žฅ ์ผ๊ด€๋œ ์ •๋‹ต์„ ๋ฝ‘๋Š” ๋ฐฉ๋ฒ•์œผ๋กœ ๊ธฐ์กด CoT ๋ฐฉ๋ฒ•๋ก  ๊ฐœ์„ 

์‹คํ—˜ ๊ฒฐ๊ณผ, ๋„๋ฆฌ ์‚ฌ์šฉ๋˜๋Š” ์‚ฐ์ˆ˜ ๋ฐ ์ƒ์‹ ์ถ”๋ก  ๋ฒค์น˜๋งˆํฌ์—์„œ ์••๋„์ ์œผ๋กœ ์ข‹์€ ์„ฑ๊ณผ ๋‹ฌ์„ฑ

โœ…Introduction

LLM์˜ ์ถ”๋ก  ๋Šฅ๋ ฅ์˜ ํ•œ๊ณ„: ์–ธ์–ด ๋ชจ๋ธ๋“ค์€ ๋‹ค์–‘ํ•œ NLP ์ž‘์—…์—์„œ ๋†€๋ผ์šด ์„ฑ๊ณต์„ ๋ณด์—ฌ์ฃผ์—ˆ์ง€๋งŒ, ์ถ”๋ก  ๋Šฅ๋ ฅ์—์„œ๋Š” ํ•œ๊ณ„๊ฐ€ ๋ณด์ž„. ๋‹จ์ˆœํžˆ ๋ชจ๋ธ ๊ทœ๋ชจ๋ฅผ ๋Š˜๋ฆฌ๋Š” ๊ฒƒ๋งŒ์œผ๋กœ๋Š” ๊ทน๋ณตํ•  ์ˆ˜ ์—†์—ˆ์Œ.

CoT prompting: ์–ธ์–ด๋ชจ๋ธ์ด ์ž‘์—…์„ ํ•ด๊ฒฐํ•  ๋•Œ ์‚ฌ๋žŒ์ด ์‚ฌ์šฉํ•  ์ˆ˜ ์žˆ๋Š” ์ถ”๋ก  ๊ณผ์ • ๋ชจ๋ฐฉํ•จ. CoT ํ”„๋กฌํ”„ํŒ…์€ ๋‹ค์–‘ํ•œ ๋‹ค๋‹จ๊ณ„ ์ถ”๋ก  ์ž‘์—…์—์„œ ๋ชจ๋ธ ์„ฑ๋Šฅ ํฌ๊ฒŒ ํ–ฅ์ƒ์‹œํ‚ด

CoT ์˜ greedy ๋””์ฝ”๋”ฉ ๋‹จ๊ณ„ ํ•œ๊ณ„๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด Self-Consistency ๋ฐฉ๋ฒ• ๋„์ž…
Self Consistency: LLM์—๊ฒŒ ๋‹ค์–‘ํ•œ Chain-of-Thought ์„ ์—ฌ๋Ÿฌ ๊ฐœ ์ƒ˜ํ”Œ๋งํ•˜๊ฒŒ ํ•œ ๋’ค, ๊ทธ ์ถ”๋ก ๋“ค์ด ๋„๋‹ฌํ•œ ์ตœ์ข… ๋‹ต๋“ค ์ค‘์—์„œ ๊ฐ€์žฅ ์ผ๊ด€๋œ ์ •๋‹ต(๊ฐ€์žฅ ๋งŽ์ด ๋“ฑ์žฅํ•˜๋Š” ๋‹ต)์„ ์„ ํƒํ•˜๋Š” ๋ฐฉ์‹.

โœ…Self-Consistency

Example (์˜ˆ์‹œ๋กœ ์„ค๋ช…)

์ž…๋ ฅ

์งˆ๋ฌธ: Janet์˜ ์˜ค๋ฆฌ๋“ค์ด ํ•˜๋ฃจ์— 16๊ฐœ์˜ ์•Œ์„ ๋‚ณ์Šต๋‹ˆ๋‹ค. ๊ทธ๋…€๋Š” ๋งค์ผ ์•„์นจ ์‹์‚ฌ๋กœ 3๊ฐœ๋ฅผ ๋จน๊ณ , ์นœ๊ตฌ๋“ค์„ ์œ„ํ•ด 4๊ฐœ๋กœ ๋จธํ•€์„ ๊ตฝ์Šต๋‹ˆ๋‹ค. ๊ทธ๋…€๋Š” ๋‚จ์€ ์•Œ์„ ๊ฐœ๋‹น $2์— ํŒ๋งคํ•ฉ๋‹ˆ๋‹ค. ๊ทธ๋…€๋Š” ๋งค์ผ ์–ผ๋งˆ๋ฅผ ๋ฒŒ๊นŒ์š”?

ํ”„๋กฌํ”„ํŠธ: ์งˆ๋ฌธ๊ณผ ํ•จ๊ป˜, ์ถ”๋ก  ๊ณผ์ •์ด ํฌํ•จ๋œ ์ˆ˜๋™ ์ž‘์„ฑ๋œ Few-shot ์˜ˆ์‹œ๋“ค์ด ์ž…๋ ฅ์œผ๋กœ ์ œ๊ณต

  • ์ถœ๋ ฅ (์ƒ˜ํ”Œ๋ง): ๊ทธ๋ฆฌ๋”” ๋””์ฝ”๋”ฉ ๋Œ€์‹  ์ƒ˜ํ”Œ๋ง(์˜ˆ: T=0.7,k=40์„ ์‚ฌ์šฉํ•˜์—ฌ 40๊ฐœ์˜ ๊ฒฝ๋กœ ์ƒ˜ํ”Œ๋ง)์„ ์ˆ˜ํ–‰ํ•˜๋ฉด, ์—ฌ๋Ÿฌ ๊ฐœ์˜ ๋‹ค๋ฅธ ์‹œํ€€์Šค๊ฐ€ ์ƒ์„ฑ๋ฉ๋‹ˆ๋‹ค. ์ด ๋‹จ๊ณ„์—์„œ ์ƒ์„ฑ๋œ ๋‹ค์–‘ํ•œ ์ถ”๋ก  ๊ฒฝ๋กœ ri ๋Š” ๋ชจ๋ธ์ด ์ •๋‹ต ai ์— ๋„๋‹ฌํ•˜๋Š” ๋ฐ ์‚ฌ์šฉ๋œ ์ผ๋ จ์˜ ํ† ํฐ ์‹œํ€€์Šค์ด๋ฉฐ, ๋งˆ์ง€๋ง‰ ๋ฌธ์žฅ์—์„œ ๊ตฌ๋ฌธ ๋ถ„์„๋˜์–ด ์ตœ์ข… ๋‹ต๋ณ€ a ๊ฐ€ ๋œ๋‹ค
  • ์ตœ์ข… ์ถœ๋ ฅ (์ง‘๊ณ„):
    • ์ƒ˜ํ”Œ๋ง๋œ ๋‹ต๋ณ€ ai ์ค‘์—์„œ ๊ฐ€์žฅ ์ž์ฃผ ๋“ฑ์žฅํ•œ ๋‹ต๋ณ€(๊ฐ€์žฅ ์ผ๊ด€๋œ ๋‹ต๋ณ€)์„ ์„ ํƒํ•˜๋Š” ๋‹ค์ˆ˜๊ฒฐ ํˆฌํ‘œ๋ฅผ ํ†ตํ•ด ์ตœ์ข… ๋‹ต์„ ๊ฒฐ์ •
    • ๋งŒ์•ฝ $18์ด ๊ฐ€์žฅ ๋งŽ์ด ๋‚˜์™”๋‹ค๋ฉด ๊ทธ๊ฒƒ์ด ์ผ๊ด€๋˜๊ฒŒ ๋‚˜์˜จ ๋‹ต์ด๋‹ˆ, ์ตœ์ข… ์ถœ๋ ฅ์€ $18

๊ธฐ์กด ๊ทธ๋ฆฌ๋”” ๋””์ฝ”๋”ฉ CoT๋Š” ์ž˜๋ชป๋œ ๋‹ต์„ ์ œ๊ณตํ–ˆ์ง€๋งŒ, self-consistency๋Š” ๋‹ค์–‘ํ•œ ๊ฒฝ๋กœ ์ƒ˜ํ”Œ๋ง์„ ํ†ตํ•ด ์˜ค๋ฅ˜๋ฅผ ์ˆ˜์ •ํ•  ์ˆ˜ ์žˆ๋‹ค.

โœ…Method

Self-Consistency ๋Š” ํฌ๊ฒŒ ์„ธ ๊ณผ์ •์œผ๋กœ ์ด๋ฃจ์–ด์ง„๋‹ค

  1. CoT ํ”„๋กฌํ”„ํŒ…: Chain-of-Thought ์œผ๋กœ prompting ์‚ฌ์šฉํ•˜์—ฌ ์–ธ์–ด ๋ชจ๋ธ์— ์งˆ๋ฌธ๊ณผ ํ•จ๊ป˜ ์ˆ˜๋™์œผ๋กœ ์ž‘์„ฑ๋œ CoT ์˜ˆ์‹œ ์„ธํŠธ๋ฅผ ์ œ๊ณต

  2. ๋‹ค์–‘ํ•œ ์ถ”๋ก  ๊ฒฝ๋กœ ์ƒ˜ํ”Œ๋ง: CoT ํ”„๋กฌํ”„ํŒ…์—์„œ ์‚ฌ์šฉ๋˜๋Š” greedy ๋””์ฝ”๋”ฉ ๋Œ€์ฒดํ•ด ๋‹ค์–‘ํ•œ ํ›„๋ณด ์ถ”๋ก  ๊ฒฝ๋กœ ์„ธํŠธ๋ฅผ ์ƒ์„ฑ. ์ด๋•Œ ์ƒ˜ํ”Œ๋ง ํ• ๋•Œ ์˜จ๋„ ์ƒ˜ํ”Œ๋ง(temperature sampling), top-k ์ƒ˜ํ”Œ๋ง, nucleus ์ƒ˜ํ”Œ๋ง ๋“ฑ์„ ์‚ฌ์šฉ

    1. ์˜จ๋„ ์ƒ˜ํ”Œ๋ง (Temperature Sampling)

    • ์˜จ๋„ T๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ์–ธ์–ด ๋ชจ๋ธ์ด ์˜ˆ์ธกํ•œ ํ† ํฐ ํ™•๋ฅ  ๋ถ„ํฌ๋ฅผ ์กฐ์ •
    • T ๊ฐ’์ด ๋†’์„์ˆ˜๋ก ํ™•๋ฅ  ๋ถ„ํฌ๊ฐ€ ๋” ํ‰ํƒ„ํ•ด์ ธ์„œ, ํ™•๋ฅ ์ด ๋‚ฎ์€ ํ† ํฐ์ด ์„ ํƒ๋  ๊ฐ€๋Šฅ์„ฑ์ด ๋†’์•„์ง€๊ณ , ๊ฒฐ๊ณผ์ ์œผ๋กœ ์ƒ์„ฑ๋œ ํ…์ŠคํŠธ์˜ ๋‹ค์–‘์„ฑ์ด ์ฆ๊ฐ€
    • ๋ฐ˜๋Œ€๋กœ T ๊ฐ’์ด ๋‚ฎ์„์ˆ˜๋ก ๋ถ„ํฌ๊ฐ€ ๋” ๋‚ ์นด๋กœ์›Œ์ ธ ๋ชจ๋ธ์˜ ๊ฐ€์žฅ ํ™•์‹คํ•œ ์˜ˆ์ธก์— ๊ฐ€๊น๊ฒŒ ๋จ. ๊ทธ๋ฆฌ๋”” ๋””์ฝ”๋”ฉ์€ Tโ†’0์— ๊ฐ€๊นŒ์šด ๊ทนํ•œ

    2. Top-k ์ƒ˜ํ”Œ๋ง

    • ๋ชจ๋ธ์ด ์˜ˆ์ธกํ•œ ๋‹ค์Œ ํ† ํฐ ํ™•๋ฅ  ๋ถ„ํฌ์—์„œ ํ™•๋ฅ ์ด ๊ฐ€์žฅ ๋†’์€ ์ƒ์œ„ *k*๊ฐœ์˜ ํ† ํฐ๋งŒ์„ ์œ ์ง€, ๋‚˜๋จธ์ง€ ํ† ํฐ์€ ๋ฌด์‹œํ•œ ์ฑ„ ์ด k๊ฐœ ์ค‘์—์„œ๋งŒ ์ƒ˜ํ”Œ๋ง์„ ์ˆ˜ํ–‰
    • k๋ฅผ ์ œํ•œํ•จ์œผ๋กœ์จ ๋งค์šฐ ํ™•๋ฅ ์ด ๋‚ฎ์€ ์—‰๋šฑํ•œ ํ† ํฐ์ด ์„ ํƒ๋˜๋Š” ๊ฒƒ์„ ๋ฐฉ์ง€ โ†’ ๊ทธ๋ฆฌ๋”” ๋””์ฝ”๋”ฉ๋ณด๋‹ค๋Š” ๋†’์€ ์ˆ˜์ค€์˜ ๋ฌด์ž‘์œ„์„ฑ๊ณผ ๋‹ค์–‘์„ฑ์„ ํ—ˆ์šฉ

    3. Nucleus ์ƒ˜ํ”Œ๋ง (Top-p sampling)

    • ๋ˆ„์  ํ™•๋ฅ ์ด p์— ๋„๋‹ฌํ•  ๋•Œ๊นŒ์ง€ ํ™•๋ฅ ์ด ๋†’์€ ํ† ํฐ๋“ค๋งŒ ์„ ํƒํ•˜์—ฌ ์ƒ˜ํ”Œ๋ง ํ’€์„ ๊ตฌ์„ฑํ•˜๋Š” ๋ฐฉ์‹์ž…๋‹ˆ๋‹ค.
    • p๋Š” 0๊ณผ 1 ์‚ฌ์ด์˜ ๊ฐ’์œผ๋กœ, p ๊ฐ’์ด 1์— ๊ฐ€๊นŒ์šธ์ˆ˜๋ก ๋” ๋งŽ์€ ํ† ํฐ์„ ํฌํ•จํ•˜๊ณ  ๋‹ค์–‘์„ฑ์ด ๋†’์•„์ง‘๋‹ˆ๋‹ค. ์ƒ˜ํ”Œ๋ง ํ’€์˜ ํฌ๊ธฐ๊ฐ€ ๊ณ ์ •๋œ k๊ฐ€ ์•„๋‹ˆ๋ผ ๋ฌธ๋งฅ์— ๋”ฐ๋ผ ๋™์ ์œผ๋กœ ๋ณ€ํ•œ๋‹ค๋Š” ์žฅ์ 
  3. ๋‹ต๋ณ€ ์ง‘๊ณ„ (Aggregation): ๊ฐ ์ถ”๋ก  ๊ฒฝ๋กœ๋Š” ๋‹ค๋ฅธ ์ตœ์ข… ๋‹ต๋ณ€์œผ๋กœ ์ด์–ด์งˆ ์ˆ˜ ์žˆ์œผ๋ฏ€๋กœ, ์ƒ˜ํ”Œ๋ง๋œ ์ถ”๋ก  ๊ฒฝ๋กœ๋“ค ์ค‘ ์ตœ์ข… ๋‹ต๋ณ€ ์„ธํŠธ์—์„œ ๊ฐ€์žฅ ์ผ๊ด€๋œ ๋‹ต๋ณ€์„ ์ฐพ๋Š”๋‹ค

ri: ๊ทธ ์ƒ˜ํ”Œ์˜ ์ถ”๋ก  ๊ฒฝ๋กœ ์ „์ฒด(CoT ์‹œํ€€์Šค)

ai: ํ•ด๋‹น ์ถ”๋ก  ํ›„ ์ตœ์ข… ๋‹ต

A. ๋‹ค์ˆ˜๊ฒฐ๋กœ ๋‹ต๋ณ€ ๋‚ด๋†“๋Š” ๋ฐฉ๋ฒ•

์ด๋Ÿฐ (ri,ai) ์Œ์„ ์ƒ˜ํ”Œ๋งํ•œ ํ›„, self-consistency๋Š” ri์— ๋Œ€ํ•ด ์ฃผ๋ณ€ํ™”(marginalization)๋ฅผ ์ ์šฉํ•˜๋ฉฐ ai ์— ๋Œ€ํ•œ ๋‹ค์ˆ˜๊ฒฐ ํˆฌํ‘œ๋ฅผ ํ†ตํ•ด ๊ฐ€์žฅ "์ผ๊ด€๋œ" ๋‹ต๋ณ€ a๋ฅผ ์„ ํƒํ•˜๋Š” ๊ฒƒ์„ ์˜๋ฏธํ•จ

ai ์™€ a ๊ฐ€ ๊ฐ™์œผ๋ฉด 1, ๋‹ค๋ฅด๋ฉด 0์„ ๋ฐ˜ํ™˜ํ•˜๋ฏ€๋กœ, ์–ผ๋งˆ๋‚˜ ์ผ๊ด€๋œ ํŠน์ • ๋‹ต์ด ๋‚˜์˜ค๋Š”์ง€ ๊ณ„์‚ฐ ๊ฐ€๋Šฅ

B. ๊ฐ€์ค‘์น˜ ๋ถ€์—ฌํ•ด์„œ ๋‹ต๋ณ€ ๋‚ด๋†“๋Š” ๋ฐฉ๋ฒ•

์ „์ฒด CoT+๋‹ต ์‹œํ€€์Šค๊ฐ€ ํ† ํฐ๋‹น ํ‰๊ท ์ ์œผ๋กœ ์–ผ๋งˆ๋‚˜ ์ •๋‹ต๊ณผ ๊ฐ€๊นŒ์šธ์ง€ (๊ทธ๋Ÿด๋“ฏํ•œ์ง€)๋ฅผ ๋‚˜ํƒ€๋‚ด๋Š” ์ ์ˆ˜

ํ•ด๋‹น CoT+๋‹ต ์‹œํ€€์Šค์˜ ์ž์—ฐ์Šค๋Ÿฌ์›€์„ ํ† ํฐ ๊ธธ์ด์— ๊ด€๊ณ„์—†์ด ๊ณต์ •ํ•˜๊ฒŒ ๋น„๊ตํ•˜๋Š” ๋ฐฉ์‹

โœ…Experiments

1๏ธโƒฃ์‹คํ—˜๊ตฌ์„ฑ

  • ๋ฐ์ดํ„ฐ์…‹
    • ์‚ฐ์ˆ ์  ์ถ”๋ก : Math Word Problem Repository (AddSub, MultiArith, ASDiv), AQUA-RAT, GSM8K, SVAMP
    • ์ƒ์‹์  ์ถ”๋ก : CommonsenseQA, StrategyQA, AI2 Reasoning Challenge (ARC)
    • ๊ธฐํ˜ธ์  ์ถ”๋ก  (symbolic reasoning)
      • last letter concatenation: ๋‹จ์–ด๋“ค์˜ ๋ ๋ฌธ์ž๋งŒ ๋ชจ์•„์„œ ์ถœ๋ ฅํ•˜๋Š” task
      • Coinflip: ๋™์ „์˜ ์ดˆ๊ธฐ ์ƒํƒœ์™€ ๋ช‡ ๋ฒˆ ๋’ค์ง‘์–ด์กŒ๋Š”์ง€ ์ •๋ณด๋ฅผ ์ค€ ๋’ค, ๋งˆ์ง€๋ง‰ ๋™์ „์˜ ์ƒํƒœ๋ฅผ ๋งž์ถ”๋Š” task
  • ์ƒ˜ํ”Œ๋ง ๋ฐฉ์‹
    • UL2-20B, LaMDA-137B
      • temperature sampling:ย T=0.5
      • top-kย truncation:ย k=40
    • PaLM-540B
      • temperature sampling:ย T=0.7
      • top-kย truncation:ย k=40
    • GPT-3
      • temperature sampling:ย T=0.7
      • top-kย truncation: ์‚ฌ์šฉ ์•ˆ ํ•จ

2๏ธโƒฃ๊ฒฐ๊ณผ๋ถ„์„

  • ๊ฒฐ๊ณผ๋Š” baseline ์„ ๊ธฐ๋ณธ greedy-decoding ๊ธฐ๋ฐ˜์œผ๋กœ ํ•œ CoT-prompting ์„ ๋น„๊ต๊ตฐ์œผ๋กœ ์‚ผ์•„ ๋‹ค์–‘ํ•œ ํ…Œ์Šคํฌ ๋น„๊ต ๋ถ„์„
  • ์‚ฐ์ˆ  ์ถ”๋ก (Arithmetic Reasoning) - UL2, LaMDA, PaLM, GPT-3 ๋ชจ๋‘ self-consistency ๊ฐ€ ๊ณ ์„ฑ๋Šฅ

  • ์ƒ์‹์  ์ถ”๋ก ๊ณผ ๊ธฐํ˜ธ์  ์ถ”๋ก  (๋งˆ์ฐฌ๊ฐ€์ง€๋กœ ๋„ค๊ฐœ LLM ์—์„œ ๊ณ ์„ฑ๋Šฅ, ๊ทธ๋ฆฌ๊ณ  6๊ฐœ์˜ Result ์ค‘ 5๊ฐœ SOTA)

  • ์ƒ˜ํ”Œ๋ง๋œ ์ถ”๋ก  ๊ฒฝ๋กœ ์ˆ˜์— ๋”ฐ๋ฅธ self-consistency์˜ ์ •ํ™•๋„๋ฅผ CoT-prompting๊ณผ ๋น„๊ตํ•œ ๊ทธ๋ž˜ํ”„

  • ์ด ๋ฐ–์— ๊ธฐ์กด ๊ทธ๋ฆฌ๋”” ๋ฐฉ์‹ CoT ๋ฐฉ๋ฒ•๋ก ์„ ์ ์šฉ์‹œ LLM ์˜ ์„ฑ๋Šฅ์ด ๋‚ฎ์•„์ง€๋Š” ๊ฒฝ์šฐ Self-Consistency ๋กœ ์„ฑ๋Šฅ์ด ํ–ฅ์ƒ๋˜๊ธฐ๋„ ํ–ˆ๋‹ค. ์ด๋Š” Self-Consistency ์˜ ์šฐ์ˆ˜์„ฑ์„ ๋‹ค์‹œ ํ•œ๋ฒˆ ๋” ๋ณด์—ฌ์ค€๋‹ค

3๏ธโƒฃ๋‹ค๋ฅธ ๋ฐฉ๋ฒ•๋ก ๋“ค๊ณผ ๋น„๊ต

์•„๋ž˜ ์ƒˆ ๋ฐฉ๋ฒ•๋ก ๊ณผ ๋น„๊ต์‹œ ์ „๋ถ€ ๋” ์šฐ์ˆ˜

โ˜‘๏ธSample-and-Rank

์—ฌ๋Ÿฌ ๊ฐœ์˜ ์ถ”๋ก  ๊ฒฝ๋กœ ์ƒ˜ํ”Œ๋ง โ†’ ์ˆœ์œ„ ๋งค๊ธฐ๊ธฐ (๋กœ๊ทธ ํ™•๋ฅ ์— ๋”ฐ๋ผ Rank) โ†’ ๊ฐ€์žฅ ๋†’์€ ํ™•๋ฅ  ๊ฐ€์ง„ ์‹œํ€€์Šค ๋‹ต๋ณ€ ์„ ํƒ

๊ทธ๋Ÿฌ๋‚˜, CoT ์—์„œ ๊ฒฐ๊ณผ ํ™•๋ฅ ์ด ๋†’๋‹ค๊ณ  ๊ฐ€์žฅ ์˜ฌ๋ฐ”๋ฅธ ๋‹ต ์•„๋‹Œ ๊ฒฝ์šฐ ๋งŽ์Œ(๋‹จ์ )

โ˜‘๏ธBeam Search

๋งค ํ† ํฐ์—์„œ ํ™•๋ฅ  ๊ฐ€์žฅ ๋†’์€ ์ƒ์œ„ k๊ฐœ ๊ฒฝ๋กœ ์œ ์ง€ โ†’ ํ™•๋ฅ  ๊ฐ€์žฅ ๋†’์€ ๋ฌธ์žฅ์„ ์ฐพ๋Š” ์•Œ๊ณ ๋ฆฌ์ฆ˜

Greedy ๋ฐฉ์‹๊ณผ ๋น„์Šทํ•˜๋‚˜, Greedy ๋Š” ๋‹จ ํ•˜๋‚˜์˜ ํ† ํฐ ์„ ํƒํ•˜์ง€๋งŒ Beam Search ๋Š” ์ƒ์œ„ ์—ฌ๋Ÿฌ๊ฐœ ๊ฒฝ๋กœ๋ฅผ ์œ ์ง€ํ•œ๋‹ค๋Š” ์  ์กด์žฌ

โ˜‘๏ธEnsamble-based

โœ…Additional Studies

  • ๋ฐฉ๋ฒ•๋ก ์˜ ๋‹ค์–‘ํ•œ ์„ฑ์งˆ ๊ฒ€์ฆ

  • Robustness: ์˜ˆ์ƒ์น˜ ๋ชปํ•œ ๋ณ€ํ™”๊ฐ€ ๋ฐœ์ƒํ•ด๋„ ๋ชจ๋ธ์ด ์ผ๊ด€๋œ ๊ฒฐ๊ณผ๋ฅผ ๋‚ด๋Š” ์„ฑ์งˆ์„ ๊ฐ€์งˆ๋•Œ ๋ชจ๋ธ์ด ๋กœ๋ฒ„์ŠคํŠธ ํ•˜๋‹ค๊ณ  ํ•จ

    • Self-Consistency ๋ฐฉ๋ฒ•๋ก ์€ ์ƒ˜ํ”Œ๋ง ๋ฐฉ๋ฒ•๊ณผ ์Šค์ผ€์ผ๋ง ๋ฐฉ๋ฒ• ๋ณ€๋™์—๋„ ๊ณตํ†ต์ ์œผ๋กœ ๋†’์€ ์„ฑ๋Šฅ ๋ณด์—ฌ์คŒ
    • Self-Consistency ๋ฐฉ๋ฒ•๋ก ์€ ๋ถˆ์™„์ „ํ•œ prompt ์—๋„ ์ž์—ฐ์Šค๋Ÿฌ์šด ๊ฒฐ๊ณผ ๋„์ถœ ๋Šฅ๋ ฅ ๋†’์Œ
    • ๋ชจ๋ธ์˜ ๋‹ต๋ณ€ ์ผ๊ด€์„ฑ๊ณผ ์ •ํ™•๋„์˜ ๋น„๋ก€์  ์ƒ๊ด€๊ด€๊ณ„ ๋ณด์ž„

๊ธฐ์กด์˜ ์ถ”๋ก  ๊ฐœ์„  ์—ฐ๊ตฌ์™€ ์ฐจ๋ณ„์ : ๊ธฐ์กด ์—ฐ๊ตฌ๋“ค์€ ์ฃผ๋กœ ์‚ฐ์ˆ , ๋…ผ๋ฆฌ, ์ƒ์‹ ์ถ”๋ก  ์ž‘์—…์— ๋Œ€ํ•ด ํŠนํ™”๋œ ์ ‘๊ทผ ๋ฐฉ์‹์— ์ดˆ์ ์„ ๋งž์ถค. ๋ฐ˜๋ฉด, self-consistency๋Š” ์ถ”๊ฐ€์ ์ธ ๊ฐ๋… ํ•™์Šต์ด๋‚˜ ํŒŒ์ธ ํŠœ๋‹ ์—†์ด ๊ด‘๋ฒ”์œ„ํ•œ ์ถ”๋ก  ์ž‘์—…์— ์ ์šฉ ๊ฐ€๋Šฅ โ†’๊ธฐ์กด์˜ CoT ํ”„๋กฌํ”„ํŒ… ์„ฑ๋Šฅ์„ ์‹ค์งˆ์ ์œผ๋กœ ํ–ฅ์ƒ

Sampling ๋ฐ Re-ranking ์—ฐ๊ตฌ์™€์˜ ์ฐจ๋ณ„์ :

  • Self-consistency๋Š” ์ด์ „ CoT ์™€ ๋‹ค๋ฅด๊ฒŒ ์ถ”๊ฐ€์ ์ธ ํ›ˆ๋ จ, ๋ณด์กฐ ๋ชจ๋ธ, ํŒŒ์ธ ํŠœ๋‹, ๋˜๋Š” ์ธ๊ฐ„ ์ฃผ์„์ด ํ•„์š” ์—†๋Š” ์™„์ „ํžˆ ๋น„์ง€๋„ ํ•™์Šต
  • Self-consistency๋Š” ๋ชจ๋ธ์˜ ๋””์ฝ”๋”์—์„œ ์ƒ˜ํ”Œ๋ง์„ ์ˆ˜ํ–‰ํ•˜์—ฌ ์ถ”๋ก  ๊ฒฝ๋กœ์— ๋‹ค์–‘์„ฑ์„ ๋„์ž… โ†’ ๊ฐœ๋ฐฉํ˜• ํ…์ŠคํŠธ ์ƒ์„ฑ์— ์ผ๋ฐ˜์ ์œผ๋กœ ์‚ฌ์šฉ๋˜๋˜ ์ƒ˜ํ”Œ๋ง ์ „๋žต์„ ๊ณ ์ •๋œ ๋‹ต์„ ๊ฐ€์ง„ ์ถ”๋ก  ๋ฌธ์ œ์— ์ ์šฉ
  • Self-consistency๋Š” ๋‹จ์ผ ์–ธ์–ด๋ชจ๋ธ (LLM) ์—์„œ ์ž‘๋™ํ•˜๋Š” self-ensemble ๋ฐฉ์‹

์ถ”๋ก  ๊ฒฝ๋กœ ์ถ”์ถœ ์—ฐ๊ตฌ์™€์˜ ์ฐจ๋ณ„์ :

  • ์ถ”๊ฐ€ ํ›ˆ๋ จ ์—†์ด ๋””์ฝ”๋”์—์„œ ์ƒ˜ํ”Œ๋งํ•ด์„œ ์ถ”๋ก  ๊ฒฝ๋กœ ์ƒ์„ฑ๊ณผ ์ตœ์ข… ๋‹ต๋ณ€ ์ƒ์„ฑ
  • ์ดํ›„ ์ผ๊ด€๋œ ๋‹ต๋ณ€ ๋ณต๊ตฌํ•˜๋Š” ๊ฐ„๋‹จํ•œ ์ ‘๊ทผ ๋ฐฉ์‹

โœ…Conclusion

  • ๊ฐ„๋‹จํ•˜์ง€๋งŒ ํšจ๊ณผ์ ์ธ ๋ฐฉ๋ฒ•์„ ์ œ๊ณตํ•œ๋‹ค.
  • ๊ทœ๋ชจ๊ฐ€ ๋‹ค์–‘ํ•œ ๋„ค๊ฐ€์ง€ ์‚ฐ์ˆ  ๋ฐ ์ƒ์‹ ์ถ”๋ก  ์ž‘์—… ์ •ํ™•๋„ ํฌ๊ฒŒ ํ–ฅ์ƒ์‹œํ‚ด.
  • ์ถ”๋ก  ์ž‘์—… ์ˆ˜ํ–‰์‹œ ํ•ฉ๋ฆฌ์  ๊ทผ๊ฑฐ ์ˆ˜์ง‘์— ์œ ์šฉํ•˜๋ฉฐ ๋ถˆํ™•์‹ค์„ฑ ์ถ”์ •์น˜์˜ ๊ฐ€๋Šฅ์„ฑ์„ ์ œ๊ณตํ•˜๊ธฐ ๋Œ€๋ฌธ์— ๋ชจ๋ธ ๋ณด์ • ๊ฐœ์„ ํ•˜๋Š”๋ฐ ๋„์›€๋จ

ํ•œ๊ณ„์  : ๊ณ„์‚ฐ ๋น„์šฉ์ด ๋งŽ์ด ๋“ฆ, ๋‹ค์–‘ํ•œ ์ถ”๋ก  ๊ฒฝ๋กœ ๊ฐ€๋Šฅ์„ฑ์„ ์—ด์–ด๋†“๊ธฐ ๋•Œ๋ฌธ์— ๊ณผ๋„ํ•œ ๋น„์‚ฌ์‹ค์  ์ถ”๋ก  ๊ฒฝ๋กœ์— ๋Œ€ํ•œ ๊ฒ€์ฆ ๋ถ€์กฑ, ๋‹จ์ผ ์ถ”๋ก ์—์„œ๋„ ๋†’์€ ์ •ํ™•์„ฑ์„ ๋‹ฌ์„ฑ์‹œํ‚ฌ ์ˆ˜ ์žˆ๊ฒŒ ๋ฐœ์ „์‹œํ‚ฌ ์ˆ˜ ์žˆ์–ด์•ผ ํ•œ๋‹ค

โ˜‘๏ธSum-up (Opinion)

์ง๊ด€์ ์ด๊ณ  ๊ฐ„๋‹จํ•˜๋ฉด์„œ CoT ์„ฑ๋Šฅ์„ ํšจ๊ณผ์ ์œผ๋กœ ๋†’์ผ ์ˆ˜ ์žˆ๋Š” ๋ฐฉ๋ฒ•๋ก ์ด๋‹ค. ์ธ๊ฐ„์˜ ์ถ”๋ก  ๋ฐ ์˜์‚ฌ๊ฒฐ์ • ํŒจํ„ด์„ ๋ชจ๋ฐฉํ–ˆ์Œ์„ ์•Œ ์ˆ˜ ์žˆ๊ณ , ์ด๋Š” ๋Œ€๋ถ€๋ถ„์˜ ํ˜์‹ ์ ์ธ ๋”ฅ๋Ÿฌ๋‹ ๋…ผ๋ฌธ์˜ ๊ทผ๊ฐ„์ž„์„ ์ด์ฏค๋˜๋ฉด ์•Œ ์ˆ˜ ์žˆ๋‹ค.

๊ทธ๋ ‡๊ธฐ์—, LLM ๊ด€๋ จ ๋ฌธ์ œ๋“ค์˜ ๊ฒฝ์šฐ ์ธ๊ฐ„์˜ ์‚ฌ๊ณ ๋ฐฉ์‹์„ ์•„์ด๋””์–ด๋กœ ๋งŽ์ด ์ฐจ์šฉํ•œ๋‹ค๋Š” ์ ์ด ์ด ๋…ผ๋ฌธ์—์„œ๋„ ๋ณด์ธ๋‹ค. ๊ฐ€๋ น, ์ธ๊ฐ„ ์—ญ์‹œ ์–ด๋– ํ•œ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ• ๋•Œ ๋‹ค์–‘ํ•œ ์‚ฌ๊ณ ๊ณผ์ • ๊ฒฝ๋กœ๋ฅผ ํ†ตํ•ด ๋‹ค์–‘ํ•œ ๋‹ต์„ ๋„์ถœ ํ›„ โ†’ ๊ณ ๋ฅด๋Š” ๋ฐฉ์‹์ด๊ธฐ์— ์ด๋ฅผ ์ฐจ์šฉํ•œ๋“ฏ.

profile
AI & Languages galore.

0๊ฐœ์˜ ๋Œ“๊ธ€