โ Basic Info
๐ Self-Consistency Improves Chain of Thought Reasoning in Language Models (2023)
๐ https://arxiv.org/abs/2203.11171
์ฌ๋ฌ ์ฌ๊ณ ๊ฒฝ๋ก ์ค ๊ฒฐ๋ก ๋ง ๋ชจ์์ ํฌํ๋ก ๊ฐ์ฅ ์ผ๊ด๋ ์ ๋ต์ ๋ฝ๋ ๋ฐฉ๋ฒ์ผ๋ก ๊ธฐ์กด CoT ๋ฐฉ๋ฒ๋ก ๊ฐ์
์คํ ๊ฒฐ๊ณผ, ๋๋ฆฌ ์ฌ์ฉ๋๋ ์ฐ์ ๋ฐ ์์ ์ถ๋ก ๋ฒค์น๋งํฌ์์ ์๋์ ์ผ๋ก ์ข์ ์ฑ๊ณผ ๋ฌ์ฑ
LLM์ ์ถ๋ก ๋ฅ๋ ฅ์ ํ๊ณ: ์ธ์ด ๋ชจ๋ธ๋ค์ ๋ค์ํ NLP ์์ ์์ ๋๋ผ์ด ์ฑ๊ณต์ ๋ณด์ฌ์ฃผ์์ง๋ง, ์ถ๋ก ๋ฅ๋ ฅ์์๋ ํ๊ณ๊ฐ ๋ณด์. ๋จ์ํ ๋ชจ๋ธ ๊ท๋ชจ๋ฅผ ๋๋ฆฌ๋ ๊ฒ๋ง์ผ๋ก๋ ๊ทน๋ณตํ ์ ์์์.
CoT prompting: ์ธ์ด๋ชจ๋ธ์ด ์์ ์ ํด๊ฒฐํ ๋ ์ฌ๋์ด ์ฌ์ฉํ ์ ์๋ ์ถ๋ก ๊ณผ์ ๋ชจ๋ฐฉํจ. CoT ํ๋กฌํํ ์ ๋ค์ํ ๋ค๋จ๊ณ ์ถ๋ก ์์ ์์ ๋ชจ๋ธ ์ฑ๋ฅ ํฌ๊ฒ ํฅ์์ํด
CoT ์ greedy ๋์ฝ๋ฉ ๋จ๊ณ ํ๊ณ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด Self-Consistency ๋ฐฉ๋ฒ ๋์
Self Consistency: LLM์๊ฒ ๋ค์ํ Chain-of-Thought ์ ์ฌ๋ฌ ๊ฐ ์ํ๋งํ๊ฒ ํ ๋ค, ๊ทธ ์ถ๋ก ๋ค์ด ๋๋ฌํ ์ต์ข
๋ต๋ค ์ค์์ ๊ฐ์ฅ ์ผ๊ด๋ ์ ๋ต(๊ฐ์ฅ ๋ง์ด ๋ฑ์ฅํ๋ ๋ต)์ ์ ํํ๋ ๋ฐฉ์.

์ ๋ ฅ
์ง๋ฌธ: Janet์ ์ค๋ฆฌ๋ค์ด ํ๋ฃจ์ 16๊ฐ์ ์์ ๋ณ์ต๋๋ค. ๊ทธ๋ ๋ ๋งค์ผ ์์นจ ์์ฌ๋ก 3๊ฐ๋ฅผ ๋จน๊ณ , ์น๊ตฌ๋ค์ ์ํด 4๊ฐ๋ก ๋จธํ์ ๊ตฝ์ต๋๋ค. ๊ทธ๋ ๋ ๋จ์ ์์ ๊ฐ๋น $2์ ํ๋งคํฉ๋๋ค. ๊ทธ๋ ๋ ๋งค์ผ ์ผ๋ง๋ฅผ ๋ฒ๊น์?
ํ๋กฌํํธ: ์ง๋ฌธ๊ณผ ํจ๊ป, ์ถ๋ก ๊ณผ์ ์ด ํฌํจ๋ ์๋ ์์ฑ๋ Few-shot ์์๋ค์ด ์ ๋ ฅ์ผ๋ก ์ ๊ณต
๊ธฐ์กด ๊ทธ๋ฆฌ๋ ๋์ฝ๋ฉ CoT๋ ์๋ชป๋ ๋ต์ ์ ๊ณตํ์ง๋ง, self-consistency๋ ๋ค์ํ ๊ฒฝ๋ก ์ํ๋ง์ ํตํด ์ค๋ฅ๋ฅผ ์์ ํ ์ ์๋ค.
Self-Consistency ๋ ํฌ๊ฒ ์ธ ๊ณผ์ ์ผ๋ก ์ด๋ฃจ์ด์ง๋ค
CoT ํ๋กฌํํ : Chain-of-Thought ์ผ๋ก prompting ์ฌ์ฉํ์ฌ ์ธ์ด ๋ชจ๋ธ์ ์ง๋ฌธ๊ณผ ํจ๊ป ์๋์ผ๋ก ์์ฑ๋ CoT ์์ ์ธํธ๋ฅผ ์ ๊ณต
๋ค์ํ ์ถ๋ก ๊ฒฝ๋ก ์ํ๋ง: CoT ํ๋กฌํํ ์์ ์ฌ์ฉ๋๋ greedy ๋์ฝ๋ฉ ๋์ฒดํด ๋ค์ํ ํ๋ณด ์ถ๋ก ๊ฒฝ๋ก ์ธํธ๋ฅผ ์์ฑ. ์ด๋ ์ํ๋ง ํ ๋ ์จ๋ ์ํ๋ง(temperature sampling), top-k ์ํ๋ง, nucleus ์ํ๋ง ๋ฑ์ ์ฌ์ฉ
1. ์จ๋ ์ํ๋ง (Temperature Sampling)
2. Top-k ์ํ๋ง
3. Nucleus ์ํ๋ง (Top-p sampling)
๋ต๋ณ ์ง๊ณ (Aggregation): ๊ฐ ์ถ๋ก ๊ฒฝ๋ก๋ ๋ค๋ฅธ ์ต์ข ๋ต๋ณ์ผ๋ก ์ด์ด์ง ์ ์์ผ๋ฏ๋ก, ์ํ๋ง๋ ์ถ๋ก ๊ฒฝ๋ก๋ค ์ค ์ต์ข ๋ต๋ณ ์ธํธ์์ ๊ฐ์ฅ ์ผ๊ด๋ ๋ต๋ณ์ ์ฐพ๋๋ค
ri: ๊ทธ ์ํ์ ์ถ๋ก ๊ฒฝ๋ก ์ ์ฒด(CoT ์ํ์ค)
ai: ํด๋น ์ถ๋ก ํ ์ต์ข ๋ต
A. ๋ค์๊ฒฐ๋ก ๋ต๋ณ ๋ด๋๋ ๋ฐฉ๋ฒ
์ด๋ฐ (ri,ai) ์์ ์ํ๋งํ ํ, self-consistency๋ ri์ ๋ํด ์ฃผ๋ณํ(marginalization)๋ฅผ ์ ์ฉํ๋ฉฐ ai ์ ๋ํ ๋ค์๊ฒฐ ํฌํ๋ฅผ ํตํด ๊ฐ์ฅ "์ผ๊ด๋" ๋ต๋ณ a๋ฅผ ์ ํํ๋ ๊ฒ์ ์๋ฏธํจ

ai ์ a ๊ฐ ๊ฐ์ผ๋ฉด 1, ๋ค๋ฅด๋ฉด 0์ ๋ฐํํ๋ฏ๋ก, ์ผ๋ง๋ ์ผ๊ด๋ ํน์ ๋ต์ด ๋์ค๋์ง ๊ณ์ฐ ๊ฐ๋ฅ
B. ๊ฐ์ค์น ๋ถ์ฌํด์ ๋ต๋ณ ๋ด๋๋ ๋ฐฉ๋ฒ
์ ์ฒด CoT+๋ต ์ํ์ค๊ฐ ํ ํฐ๋น ํ๊ท ์ ์ผ๋ก ์ผ๋ง๋ ์ ๋ต๊ณผ ๊ฐ๊น์ธ์ง (๊ทธ๋ด๋ฏํ์ง)๋ฅผ ๋ํ๋ด๋ ์ ์

ํด๋น CoT+๋ต ์ํ์ค์ ์์ฐ์ค๋ฌ์์ ํ ํฐ ๊ธธ์ด์ ๊ด๊ณ์์ด ๊ณต์ ํ๊ฒ ๋น๊ตํ๋ ๋ฐฉ์




์๋ ์ ๋ฐฉ๋ฒ๋ก ๊ณผ ๋น๊ต์ ์ ๋ถ ๋ ์ฐ์
โ๏ธSample-and-Rank
์ฌ๋ฌ ๊ฐ์ ์ถ๋ก ๊ฒฝ๋ก ์ํ๋ง โ ์์ ๋งค๊ธฐ๊ธฐ (๋ก๊ทธ ํ๋ฅ ์ ๋ฐ๋ผ Rank) โ ๊ฐ์ฅ ๋์ ํ๋ฅ ๊ฐ์ง ์ํ์ค ๋ต๋ณ ์ ํ
๊ทธ๋ฌ๋, CoT ์์ ๊ฒฐ๊ณผ ํ๋ฅ ์ด ๋๋ค๊ณ ๊ฐ์ฅ ์ฌ๋ฐ๋ฅธ ๋ต ์๋ ๊ฒฝ์ฐ ๋ง์(๋จ์ )

โ๏ธBeam Search
๋งค ํ ํฐ์์ ํ๋ฅ ๊ฐ์ฅ ๋์ ์์ k๊ฐ ๊ฒฝ๋ก ์ ์ง โ ํ๋ฅ ๊ฐ์ฅ ๋์ ๋ฌธ์ฅ์ ์ฐพ๋ ์๊ณ ๋ฆฌ์ฆ
Greedy ๋ฐฉ์๊ณผ ๋น์ทํ๋, Greedy ๋ ๋จ ํ๋์ ํ ํฐ ์ ํํ์ง๋ง Beam Search ๋ ์์ ์ฌ๋ฌ๊ฐ ๊ฒฝ๋ก๋ฅผ ์ ์งํ๋ค๋ ์ ์กด์ฌ

โ๏ธEnsamble-based

๋ฐฉ๋ฒ๋ก ์ ๋ค์ํ ์ฑ์ง ๊ฒ์ฆ
Robustness: ์์์น ๋ชปํ ๋ณํ๊ฐ ๋ฐ์ํด๋ ๋ชจ๋ธ์ด ์ผ๊ด๋ ๊ฒฐ๊ณผ๋ฅผ ๋ด๋ ์ฑ์ง์ ๊ฐ์ง๋ ๋ชจ๋ธ์ด ๋ก๋ฒ์คํธ ํ๋ค๊ณ ํจ
๊ธฐ์กด์ ์ถ๋ก ๊ฐ์ ์ฐ๊ตฌ์ ์ฐจ๋ณ์ : ๊ธฐ์กด ์ฐ๊ตฌ๋ค์ ์ฃผ๋ก ์ฐ์ , ๋ ผ๋ฆฌ, ์์ ์ถ๋ก ์์ ์ ๋ํด ํนํ๋ ์ ๊ทผ ๋ฐฉ์์ ์ด์ ์ ๋ง์ถค. ๋ฐ๋ฉด, self-consistency๋ ์ถ๊ฐ์ ์ธ ๊ฐ๋ ํ์ต์ด๋ ํ์ธ ํ๋ ์์ด ๊ด๋ฒ์ํ ์ถ๋ก ์์ ์ ์ ์ฉ ๊ฐ๋ฅ โ๊ธฐ์กด์ CoT ํ๋กฌํํ ์ฑ๋ฅ์ ์ค์ง์ ์ผ๋ก ํฅ์
Sampling ๋ฐ Re-ranking ์ฐ๊ตฌ์์ ์ฐจ๋ณ์ :
์ถ๋ก ๊ฒฝ๋ก ์ถ์ถ ์ฐ๊ตฌ์์ ์ฐจ๋ณ์ :
ํ๊ณ์ : ๊ณ์ฐ ๋น์ฉ์ด ๋ง์ด ๋ฆ, ๋ค์ํ ์ถ๋ก ๊ฒฝ๋ก ๊ฐ๋ฅ์ฑ์ ์ด์ด๋๊ธฐ ๋๋ฌธ์ ๊ณผ๋ํ ๋น์ฌ์ค์ ์ถ๋ก ๊ฒฝ๋ก์ ๋ํ ๊ฒ์ฆ ๋ถ์กฑ, ๋จ์ผ ์ถ๋ก ์์๋ ๋์ ์ ํ์ฑ์ ๋ฌ์ฑ์ํฌ ์ ์๊ฒ ๋ฐ์ ์ํฌ ์ ์์ด์ผ ํ๋ค
โ๏ธSum-up (Opinion)
์ง๊ด์ ์ด๊ณ ๊ฐ๋จํ๋ฉด์ CoT ์ฑ๋ฅ์ ํจ๊ณผ์ ์ผ๋ก ๋์ผ ์ ์๋ ๋ฐฉ๋ฒ๋ก ์ด๋ค. ์ธ๊ฐ์ ์ถ๋ก ๋ฐ ์์ฌ๊ฒฐ์ ํจํด์ ๋ชจ๋ฐฉํ์์ ์ ์ ์๊ณ , ์ด๋ ๋๋ถ๋ถ์ ํ์ ์ ์ธ ๋ฅ๋ฌ๋ ๋ ผ๋ฌธ์ ๊ทผ๊ฐ์์ ์ด์ฏค๋๋ฉด ์ ์ ์๋ค.
๊ทธ๋ ๊ธฐ์, LLM ๊ด๋ จ ๋ฌธ์ ๋ค์ ๊ฒฝ์ฐ ์ธ๊ฐ์ ์ฌ๊ณ ๋ฐฉ์์ ์์ด๋์ด๋ก ๋ง์ด ์ฐจ์ฉํ๋ค๋ ์ ์ด ์ด ๋ ผ๋ฌธ์์๋ ๋ณด์ธ๋ค. ๊ฐ๋ น, ์ธ๊ฐ ์ญ์ ์ด๋ ํ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ ๋ ๋ค์ํ ์ฌ๊ณ ๊ณผ์ ๊ฒฝ๋ก๋ฅผ ํตํด ๋ค์ํ ๋ต์ ๋์ถ ํ โ ๊ณ ๋ฅด๋ ๋ฐฉ์์ด๊ธฐ์ ์ด๋ฅผ ์ฐจ์ฉํ๋ฏ.