์ํ ๋ชจ๋ธ๊ณผ ์์ด์ ํธ ์์คํ ์ต์ ํ๋ฅผ ํตํ AI ํจ์จ์ฑ ๊ทน๋ํ
๊ฒฝํ ๊ธฐ๋ฐ ํ์ต๊ณผ ๋ฉํฐ๋ชจ๋ฌ ์ถ๋ก ์ ํตํ ๊ธฐ์กด ํ๊ณ์ ๊ทน๋ณต
Paper
์ด ๋
ผ๋ฌธ์ ๊ฑฐ๋ ์ธ์ด ๋ชจ๋ธ(LLM) ๋์ ๋งค์ฐ ์์ ๊ท๋ชจ์ ์ ๊ฒฝ๋ง์ ์ฌ๊ท์ ์ผ๋ก ์ฌ์ฉํ์ฌ ๋ณต์กํ ์ถ๋ก ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๋ ์๋ก์ด ์ ๊ทผ๋ฒ์ ์ ์ํ๋ค. TRM(Tiny Recursive Model)์ด๋ผ ๋ถ๋ฆฌ๋ ์ด ๋ชจ๋ธ์ ๋จ 2๊ฐ์ ๋ ์ด์ด์ 700๋ง ๊ฐ์ ๋งค๊ฐ๋ณ์๋ง์ผ๋ก, ์ค๋์ฟ ๋ ARC-AGI ๊ฐ์ ์ด๋ ค์ด ํผ์ฆ์์ ๋๋ถ๋ถ์ LLM๋ณด๋ค ๋ฐ์ด๋ ์ฑ๋ฅ์ ๋ณด์ธ๋ค. ์ด๋ LLM ๋งค๊ฐ๋ณ์์ 0.01%๋ ์ ๋๋ ํฌ๊ธฐ๋ก ๋ ๋์ ์ผ๋ฐํ ์ฑ๋ฅ์ ๋ฌ์ฑํ ๊ฒ์ผ๋ก, ์ ์ ์์์ผ๋ก๋ ๊ณ ๋์ ์ถ๋ก ์ด ๊ฐ๋ฅํ๋ค๋ ์ ์ ์์ฌํ๋ค.

Paper, Project
์ด ๋
ผ๋ฌธ์ ๋ชจ๋ธ์ ๊ท๋ชจ๋ฅผ ๋ฌด์์ ํค์ฐ๊ธฐ๋ณด๋ค ํจ์จ์ ์ธ ํ๋ จ ์ค๊ณ๋ฅผ ํตํด ์ต๊ณ ์์ค์ ์ฑ๋ฅ์ ๋๋ฌํ ์ ์์์ ๋ณด์ฌ์ค๋ค. Apriel-1.5-15B-Thinker๋ 150์ต ๊ฐ ๋งค๊ฐ๋ณ์๋ฅผ ๊ฐ์ง ์คํ์์ค ๋ฉํฐ๋ชจ๋ฌ(์ด๋ฏธ์ง+ํ
์คํธ) ๋ชจ๋ธ๋ก, 3๋จ๊ณ์ ์ ์ง์ ํ๋ จ ๋ฐฉ๋ฒ๋ก ์ ํตํด ๊ฐ๋ฐ๋์๋ค. ๊ทธ ๊ฒฐ๊ณผ, ํจ์ฌ ์ ์ ์ปดํจํ
์์์ ์ฌ์ฉํ๋ฉด์๋ DeepSeek-R1๊ณผ ๊ฐ์ ๋๊ท๋ชจ ๋ชจ๋ธ๊ณผ ๋๋ฑํ ์ฑ๋ฅ์ ๋ฌ์ฑํ์ผ๋ฉฐ, ๋จ์ผ GPU ํ๊ฒฝ์์๋ ๋ฐฐํฌ๊ฐ ๊ฐ๋ฅํ ์ ๋๋ก ํจ์จ์ ์ด๋ค. ์ด๋ ํ๋ช
ํ ๋ฐ์ดํฐ ์ค์ฌ ํ๋ จ ๋ฐฉ์์ด ๋ง๋ํ ๊ท๋ชจ์ ์ฅ๋ฒฝ์ ๋์ด์ค ์ ์์์ ์ฆ๋ช
ํ๋ค.

Paper
์ธ์ด ์์ด์ ํธ๊ฐ ์ค์ค๋ก์ ๊ฒฝํ์ ํตํด ํ์ตํ๋ ๊ฒ์ ๋งค์ฐ ์ค์ํ์ง๋ง, ๋ช
ํํ ๋ณด์์ด ์๊ฑฐ๋ ๋นํจ์จ์ ์ธ ๊ฐํํ์ต(RL) ๋ฐฉ์์ ํ๊ณ๊ฐ ์๋ค. ์ด ๋
ผ๋ฌธ์ ๊ทธ ๋์์ผ๋ก ์ด๊ธฐ ๊ฒฝํ(early experience)์ด๋ผ๋ ์๋ก์ด ํจ๋ฌ๋ค์์ ์ ์ํ๋ค. ์ด๋ ์์ด์ ํธ๊ฐ ๋ณด์ ์ ํธ ์์ด ์ค์ค๋ก์ ํ๋์ผ๋ก ์์ฑํ ์ํธ์์ฉ ๋ฐ์ดํฐ๋ฅผ ํ์ต์ ํ์ฉํ๋ ๋ฐฉ์์ด๋ค. ์ด ์ ๊ทผ๋ฒ์ ์์ด์ ํธ์ ์ผ๋ฐํ ์ฑ๋ฅ๊ณผ ํจ์จ์ฑ์ ํฌ๊ฒ ํฅ์์ํค๋ฉฐ, ๋จ์ํ ๋ชจ๋ฐฉ ํ์ต๊ณผ ์์ ํ ๊ฒฝํ ๊ธฐ๋ฐ ๊ฐํํ์ต ์ฌ์ด๋ฅผ ์๋ ์ค์ฉ์ ์ธ ๋ค๋ฆฌ ์ญํ ์ ํ ์ ์์์ ๋ณด์ฌ์ค๋ค.

Paper, Project
๊ธฐ์กด์ ๋ฉํฐ๋ชจ๋ฌ LLM(MLLM)๋ค์ ๋ณต์กํ ์ค์ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๋ ๋ฐ ํ์ํ ์ฅ๊ธฐ ์ฐ์ ์ฑ์ฐฐ์ ์ถ๋ก (iterative thinking and backtracking) ๋ฅ๋ ฅ์ด ๋ถ์กฑํ๋ค. ์ด ์ฐ๊ตฌ๋ ๋จผ์ ์ด๋ฌํ ๋ฅ๋ ฅ์ ์ธก์ ํ๊ธฐ ์ํ MM-HELIX ๋ฒค์น๋งํฌ๋ฅผ ๊ตฌ์ถํ์ฌ MLLM์ ํ๊ณ๋ฅผ ์คํ์ ์ผ๋ก ์ฆ๋ช
ํ๋ค. ์ด ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด, 10๋ง ๊ฐ์ ๊ณ ํ์ง ์ถ๋ก ๋ฐ์ดํฐ์
์ ์์ฑํ๊ณ , ์คํ๋ผ์ธ ์ง๋ ํ์ต๊ณผ ์จ๋ผ์ธ ์ต์ ํ๋ฅผ ๋์ ์ผ๋ก ๊ฒฐํฉํ๋ ์๋ก์ด ํ๋ จ ์ ๋ต AHPO(Adaptive Hybrid Policy Optimization)๋ฅผ ์ ์ํ๋ค. ๊ทธ ๊ฒฐ๊ณผ, MLLM์ ์ฑ์ฐฐ์ ์ถ๋ก ๋ฅ๋ ฅ์ด ํฌ๊ฒ ํฅ์๋์ด ๋ ์ ๋ฅํ MLLM ๊ฐ๋ฐ์ ๊ธธ์ ์ด์๋ค.

Paper, Project
ํ์ ๋ฐํ ์์์ ๋ง๋๋ ๊ฒ์ ๋งค์ฐ ๋
ธ๋ ์ง์ฝ์ ์ธ ์์
์ด๋ค. ์ด ์ฐ๊ตฌ๋ ๋
ผ๋ฌธ๋ง์ผ๋ก ๋ฐํ ์์์ ์๋์ผ๋ก ์์ฑํ๋ ์ต์ด์ ํ๋ ์์ํฌ์ธ PaperTalker๋ฅผ ์ ์ํ๋ค. ์ด๋ฅผ ์ํด ๋
ผ๋ฌธ๊ณผ ์ ์๊ฐ ์ง์ ๋ง๋ ๋ฐํ ์์, ์ฌ๋ผ์ด๋ ๋ฑ์ผ๋ก ๊ตฌ์ฑ๋ Paper2Video ๋ฒค์น๋งํฌ๋ฅผ ๊ตฌ์ถํ๋ค. PaperTalker๋ ์ฌ๋ผ์ด๋ ์์ฑ, ๋ ์ด์์ ์ต์ ํ, ์ปค์ ์์ง์, ์๋ง, ์์ฑ ํฉ์ฑ, ๋ฐํ์ ์์ ๋ ๋๋ง๊น์ง ์ ๊ณผ์ ์ ์๋ํํ๋ ๋ฉํฐ ์์ด์ ํธ ์์คํ
์ด๋ค. ์คํ ๊ฒฐ๊ณผ, ๊ธฐ์กด ๋ฐฉ์๋ณด๋ค ๋
ผ๋ฌธ์ ์ ๋ณด๋ฅผ ๋ ์ถฉ์คํ๊ณ ์ ์ตํ๊ฒ ์ ๋ฌํ๋ ์์์ ์์ฑํ์ฌ ํ์ ์์ ์ ์ ์๋ํ์ ์ค์ฉ์ ์ธ ์ฒซ๊ฑธ์์ ๋ด๋๋ ๋ค.

Paper, Project
์ฌ๋ฌ LLM์ ํจ๊ป ์ฌ์ฉํ๋ ์์คํ
์์ ๋ชจ๋ธ๋ค์ ์ฃผ๋ก ํ
์คํธ๋ฅผ ํตํด ์ํตํ๋๋ฐ, ์ด๋ ์๋๊ฐ ๋๋ฆฌ๊ณ ๋ชจ๋ธ ๋ด๋ถ์ ํ๋ถํ ์๋ฏธ ์ ๋ณด๋ฅผ ์์ค์ํค๋ ๋จ์ ์ด ์๋ค. ์ด ๋
ผ๋ฌธ์ ํ
์คํธ๋ฅผ ๊ฑฐ์น์ง ์๊ณ LLM ๊ฐ์ ์ง์ ์๋ฏธ๋ฅผ ์ ๋ฌํ๋ ์๋ก์ด ํจ๋ฌ๋ค์ C2C(Cache-to-Cache)๋ฅผ ์ ์ํ๋ค. C2C๋ ํ ๋ชจ๋ธ์ KV-Cache(๋ด๋ถ ์ํ ์ ๋ณด)๋ฅผ ๋ค๋ฅธ ๋ชจ๋ธ์ KV-Cache๋ก ์ง์ ํฌ์ฌํ๊ณ ์ตํฉํ์ฌ ์๋ฏธ๋ฅผ ์ ๋ฌํ๋ค. ์ด ๋ฐฉ์์ ํ
์คํธ ๊ธฐ๋ฐ ์ํต๋ณด๋ค ํ๊ท ์ ํ๋๋ 8.5~10.5% ๋ ๋๊ณ , ์๋๋ 2๋ฐฐ ๋ ๋นจ๋ผ ํจ์ฌ ํจ์จ์ ์ธ LLM ํ์
์ ๊ฐ๋ฅํ๊ฒ ํ๋ค.

Paper, Project
ํ๋์ ๋ชจ๋ธ๋ก ์ด๋ฏธ์ง ์ดํด์ ์์ฑ์ ๋ชจ๋ ์ํ๊ธฐ๋ ์ด๋ ต๋ค. ๋ ์์
์ด ์๊ฐ ์ ๋ณด๋ฅผ ์ฒ๋ฆฌํ๋ ๋ฐฉ์(ํ ํฌ๋์ด์ )์ ๋ํ ์๊ตฌ์ฌํญ์ด ๋ค๋ฅด๊ธฐ ๋๋ฌธ์ด๋ค. ์ด ์ฐ๊ตฌ๋ ์ฐ์์ ์ธ ์ ์ฌ ๊ณต๊ฐ์ ๊ฐ์ง ์๋ก์ด ์๊ฐ ํ ํฌ๋์ด์ MingTok์ ์ ์ํ์ฌ ์ด ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๋ค. ์ด๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ๊ตฌ์ถ๋ Ming-UniVision ๋ชจ๋ธ์ ์ดํด์ ์์ฑ์ ํฌํจํ ๋ชจ๋ ์๊ฐ-์ธ์ด ์์
์ ๋จ์ผํ ์์ธก ํจ๋ฌ๋ค์์ผ๋ก ํตํฉํ๋ค. ๊ทธ ๊ฒฐ๊ณผ, ๋ณ๋์ ์์
๋ณ ํํ ์์ด๋ ์ด๋ฏธ์ง ์ดํด์ ์์ฑ ์์ชฝ ๋ถ์ผ ๋ชจ๋์์ ์ต๊ณ ์์ค์ ์ฑ๋ฅ์ ๋ฌ์ฑํ๋ฉฐ, ํตํฉ๋ ์๊ฐ ํ ํฌ๋์ด์ ์ ๊ฐ๋ฅ์ฑ์ ๋ณด์ฌ์ค๋ค.

Paper, Project
๋๊ตฌ๋ฅผ ์ฌ์ฉํ๋ ์์ด์ ํธ ์์คํ
์ ํ๋ จ์ํค๋ ๊ฒ์ ๋ณต์กํ๊ณ ๋นํจ์จ์ ์ผ ์ ์๋ค. ์ด ๋
ผ๋ฌธ์ AgentFlow๋ผ๋ ์๋ก์ด ํ๋ ์์ํฌ๋ฅผ ์ ์ํ๋ค. ์ด๋ ๊ณํ, ์คํ, ๊ฒ์ฆ, ์์ฑ์ 4๊ฐ ๋ชจ๋๋ก ๊ตฌ์ฑ๋ ์์ด์ ํธ ์์คํ
์ผ๋ก, ์ค์๊ฐ ์ํธ์์ฉ ๋ฃจํ ์์์ ์ง์ ํ๋๋(planner)๋ฅผ ์ต์ ํํ๋ค. Flow-GRPO๋ผ๋ ์๋ก์ด ์ ์ฑ
์ต์ ํ ๊ธฐ๋ฒ์ ํตํด, ์ต์ข
๊ฒฐ๊ณผ(์ฑ๊ณต/์คํจ)๋ฅผ ๊ฐ ๋จ๊ณ์ ๊ฒฐ์ ์ ํจ๊ณผ์ ์ผ๋ก ๋ฐ์ํ์ฌ ํ์ต์ ์์ ํํ๋ค. ๊ทธ ๊ฒฐ๊ณผ, 70์ต ๊ฐ ๋งค๊ฐ๋ณ์ ๋ชจ๋ธ๋ก๋ GPT-4o์ ๊ฐ์ ๋ ํฐ ์์ฉ ๋ชจ๋ธ์ ๋ฅ๊ฐํ๋ ์ฑ๋ฅ์ ๋ณด์ด๋ฉฐ, ํจ์จ์ ์ธ ์์ด์ ํธ ํ๋ จ ๋ฐฉ์์ ์ ์ํ๋ค.

Paper
ํ๋ก์ธ์ค ๋ณด์ ๋ชจ๋ธ(PRM)์ ํ
์คํธ ๊ธฐ๋ฐ ์ถ๋ก ๋ฅ๋ ฅ์ ํฅ์์ํค๋ ๋ฐ ํจ๊ณผ์ ์ด์ง๋ง, ํ(table) ํ์์ ๋ฐ์ดํฐ๋ฅผ ๋ค๋ฃจ๋ ๋ฐ๋ ํ๊ณ๊ฐ ์๋ค. ์ด ์ฐ๊ตฌ๋ ํ ์ถ๋ก ์ ํนํ๋ ์๋ก์ด PRM ํ๋ ์์ํฌ TaTToo๋ฅผ ์ ์ํ๋ค. TaTToo๋ ๋๊ตฌ ๊ธฐ๋ฐ ๊ฒ์ฆ์ ํตํฉํ์ฌ ํ์ ๊ด๋ จ๋ ๊ฐ ์ถ๋ก ๋จ๊ณ์ ๋ํด ์ ํํ ๋ณด์ ์ ํธ๋ฅผ ์ ๊ณตํ๋ค. ์ด๋ฅผ ์ํด 6๋ง ๊ฐ ์ด์์ ๊ณ ํ์ง ๋จ๊ณ๋ณ ์ฃผ์ ๋ฐ์ดํฐ๋ฅผ ๊ตฌ์ถํ๊ณ , ์ด๋ฅผ ๋ฐํ์ผ๋ก ๋ชจ๋ธ์ ํ๋ จํ๋ค. ๊ทธ ๊ฒฐ๊ณผ, ํ๋ฅผ ๋ค๋ฃจ๋ ์ถ๋ก ๋ชจ๋ธ์ ์ฑ๋ฅ์ 30.9% ํฅ์์ํค๊ณ , ํจ์ฌ ํฐ PRM ๋ชจ๋ธ๋ณด๋ค ์ ์ ๋งค๊ฐ๋ณ์๋ก ๋ ๋ฐ์ด๋ ์ฑ๋ฅ์ ๋ณด์๋ค.

Paper
๋๊ท๋ชจ ์ถ๋ก ๋ชจ๋ธ(LRM)์ ์๋ชป๋ ์ ์ ๊ฐ ์ฃผ์ด์ก์ ๋ ์ฝ๊ฒ ํธํฅ๋๊ณ ์์ ์ฑ์ ์ทจ์ฝํด์ง๋ ๋ฌธ์ ๊ฐ ์๋ค. ์ด ๋
ผ๋ฌธ์ RECAP์ด๋ผ๋ ์๋ก์ด ๊ฐํํ์ต ๋ฐฉ๋ฒ์ ์ ์ํ๋ค. ์ด ๋ฐฉ๋ฒ์ ๋ชจ๋ธ์๊ฒ ์๋์ ์ผ๋ก ๊ฒฐํจ์ด ์๋ ์ถ๋ก ๊ณผ์ (CoT)์ ์ ์ํ๊ณ , ์ด๋ฅผ ์ค์ค๋ก ์ธ์ํ์ฌ ๊ทน๋ณตํ๊ณ ์์ ํ ๊ฒฐ๋ก ์ผ๋ก ๊ฒฝ๋ก๋ฅผ ์ฌ์ค์ ํ๋๋ก ๋ช
์์ ์ผ๋ก ํ๋ จ์ํจ๋ค. ๊ทธ ๊ฒฐ๊ณผ, ์ถ๊ฐ์ ์ธ ์ถ๋ก ๋น์ฉ ์์ด๋ ๋ชจ๋ธ์ ์์ ์ฑ ๋ฐ ํ์ฅ(jailbreak) ๋ฐฉ์ด ๋ฅ๋ ฅ์ด ํฌ๊ฒ ํฅ์๋์์ผ๋ฉฐ, ๊ณผ๋ํ ๋ต๋ณ ๊ฑฐ๋ถ ๋ฌธ์ ๋ฅผ ์ค์ด๊ณ ํต์ฌ ์ถ๋ก ๋ฅ๋ ฅ์ ์ ์งํ๋ค.

Paper
LLM ์์ด์ ํธ์ ์ฑ๋ฅ์ ๋์ด๊ธฐ ์ํด ์ปจํ
์คํธ(์ง์นจ, ์ ๋ต ๋ฑ)๋ฅผ ์กฐ์ ํ๋ ๋ฐฉ์์ ์ข
์ข
์ ๋ณด ์์ค(brevity bias, context collapse) ๋ฌธ์ ๋ฅผ ๊ฒช๋๋ค. ์ด ์ฐ๊ตฌ๋ ์ปจํ
์คํธ๋ฅผ ๊ณ ์ ๋ ์
๋ ฅ์ด ์๋, ์ง์์ ์ผ๋ก ์งํํ๋ ํ๋ ์ด๋ถ(playbook)์ผ๋ก ์ทจ๊ธํ๋ ACE(Agentic Context Engineering) ํ๋ ์์ํฌ๋ฅผ ์ ์ํ๋ค. ACE๋ ์์ฑ, ์ฑ์ฐฐ, ํ๋ ์ด์
์ ํตํด ์ ๋ต์ ์ฒด๊ณ์ ์ผ๋ก ์ถ์ ํ๊ณ ๊ฐ์ ํ์ฌ ์ง์ ์์ค์ ๋ฐฉ์งํ๋ค. ๊ทธ ๊ฒฐ๊ณผ, ๋ณ๋์ ์ ๋ต ๋ฐ์ดํฐ ์์ด ์ค์ ์คํ ํผ๋๋ฐฑ๋ง์ผ๋ก๋ ์ค์ค๋ก ๊ฐ์ ํ๋ฉฐ, ๋ ์์ ์คํ์์ค ๋ชจ๋ธ์ ์ฌ์ฉํ์์๋ ๋ถ๊ตฌํ๊ณ ์ต์์ ์์ด์ ํธ์ ๋๋ฑํ๊ฑฐ๋ ๋ ๋์ ์ฑ๋ฅ์ ๋ฌ์ฑํ๋ค.
