[2025/W52] ๐Ÿค— Weekly AI Research

Skyยท2025๋…„ 12์›” 26์ผ

Weekly AI Research Digest

๋ชฉ๋ก ๋ณด๊ธฐ
88/89

๋ฐ์ดํ„ฐ ์ค‘์‹ฌ์˜ ํŒŒ์ดํ”„๋ผ์ธ ํšจ์œจํ™”์™€ ๋ชจ๋ธ ๋‚ด๋ถ€ ๋ฉ”์ปค๋‹ˆ์ฆ˜์˜ ์ด๋ก ์  ์ตœ์ ํ™”
๊ณผํ•™ ํƒ๊ตฌยท๋กœ๋ด‡ ์ œ์–ด ๋“ฑ ํŠนํ™” ๋„๋ฉ”์ธ์„ ์œ„ํ•œ ์ž์œจ ์—์ด์ „ํŠธ ๋ฐ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๊ธฐ์ˆ ์˜ ๊ณ ๋„ํ™”

DataFlow: An LLM-Driven Framework for Unified Data Preparation and Workflow Automation in the Era of Data-Centric AI

Paper, Project
๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ(LLM)์„ ์œ„ํ•œ ๊ณ ํ’ˆ์งˆ ๋ฐ์ดํ„ฐ ์ค€๋น„์˜ ์ค‘์š”์„ฑ์ด ์ปค์ง์— ๋”ฐ๋ผ, ๊ธฐ์กด์˜ ๋น„์ฒด๊ณ„์ ์ธ ์Šคํฌ๋ฆฝํŠธ ์œ„์ฃผ ๋ฐฉ์‹์„ ๊ฐœ์„ ํ•˜๊ธฐ ์œ„ํ•ด ํ†ตํ•ฉ์ ์ด๊ณ  ํ™•์žฅ ๊ฐ€๋Šฅํ•œ ๋ฐ์ดํ„ฐ ์ค€๋น„ ํ”„๋ ˆ์ž„์›Œํฌ์ธ DataFlow๋ฅผ ์ œ์•ˆํ•œ๋‹ค. ์ด ํ”„๋ ˆ์ž„์›Œํฌ๋Š” PyTorch ์Šคํƒ€์ผ์˜ API์™€ 200์—ฌ ๊ฐœ์˜ ์žฌ์‚ฌ์šฉ ๊ฐ€๋Šฅํ•œ ์—ฐ์‚ฐ์ž๋ฅผ ํ†ตํ•ด ๋ชจ๋“ˆํ™”๋œ ๋ฐ์ดํ„ฐ ๋ณ€ํ™˜์„ ์ง€์›ํ•˜๋ฉฐ, ์ž์—ฐ์–ด ๋ช…์„ธ๋ฅผ ์‹คํ–‰ ๊ฐ€๋Šฅํ•œ ํŒŒ์ดํ”„๋ผ์ธ์œผ๋กœ ์ž๋™ ๋ณ€ํ™˜ํ•˜๋Š” DataFlow-Agent๋ฅผ ๋„์ž…ํ•˜์—ฌ ์‚ฌ์šฉ์„ฑ์„ ๊ทน๋Œ€ํ™”ํ–ˆ๋‹ค. ํ…์ŠคํŠธ, ์ˆ˜ํ•™, ์ฝ”๋“œ ๋“ฑ ๋‹ค์–‘ํ•œ ๋„๋ฉ”์ธ์—์„œ ๊ฒ€์ฆํ•œ ๊ฒฐ๊ณผ, DataFlow๋Š” ํ…์ŠคํŠธ-SQL ๋ณ€ํ™˜ ์ •ํ™•๋„์™€ ์ฝ”๋“œ ๋ฒค์น˜๋งˆํฌ ๋“ฑ์—์„œ ๊ธฐ์กด์˜ ํ•ฉ์„ฑ ๋ฐ์ดํ„ฐ๋‚˜ ์ธ๊ฐ„ ๊ตฌ์ถ• ๋ฐ์ดํ„ฐ์…‹๋ณด๋‹ค ์šฐ์ˆ˜ํ•œ ์„ฑ๋Šฅ์„ ์ž…์ฆํ•˜๋ฉฐ ์‹ ๋ขฐํ•  ์ˆ˜ ์žˆ๋Š” ๋ฐ์ดํ„ฐ ์ค‘์‹ฌ AI ๊ฐœ๋ฐœ์˜ ๊ธฐ๋ฐ˜์„ ๋งˆ๋ จํ–ˆ๋‹ค.

Probing Scientific General Intelligence of LLMs with Scientist-Aligned Workflows

Paper, Project
๊ณผํ•™์  ์ผ๋ฐ˜ ์ง€๋Šฅ(SGI)์˜ ๊ฐœ๋…์„ ์‹ค์šฉ์  ํƒ๊ตฌ ๋ชจ๋ธ(PIM)์— ๊ธฐ๋ฐ˜ํ•˜์—ฌ ์ •๋ฆฝํ•˜๊ณ , ์ด๋ฅผ ์‹ฌ์ธต ์—ฐ๊ตฌ, ์•„์ด๋””์–ด ์ƒ์„ฑ, ์‹คํ—˜ ์„ค๊ณ„ ๋ฐ ์ถ”๋ก  ๋“ฑ 4๊ฐ€์ง€ ์ž‘์—…์œผ๋กœ ๊ตฌ์ฒดํ™”ํ•œ SGI-Bench๋ฅผ ํ†ตํ•ด ์ตœ์‹  LLM์˜ ๊ณผํ•™์  ๋Šฅ๋ ฅ์„ ์ฒด๊ณ„์ ์œผ๋กœ ํ‰๊ฐ€ํ–ˆ๋‹ค. 1,000๊ฐœ ์ด์ƒ์˜ ์ „๋ฌธ๊ฐ€ ํ๋ ˆ์ดํŒ… ์ƒ˜ํ”Œ์„ ๋ฐ”ํƒ•์œผ๋กœ ํ‰๊ฐ€ํ•œ ๊ฒฐ๊ณผ, LLM์€ ์‹ฌ์ธต ์—ฐ๊ตฌ์˜ ์ •ํ™•๋„๋‚˜ ์•„์ด๋””์–ด์˜ ์‹คํ˜„ ๊ฐ€๋Šฅ์„ฑ, ์‹คํ—˜ ๊ฒฐ๊ณผ ์˜ˆ์ธก ๋“ฑ์—์„œ ์—ฌ์ „ํžˆ ํ•œ๊ณ„๋ฅผ ๋ณด์˜€์œผ๋ฉฐ, ์ด๋ฅผ ๋ณด์™„ํ•˜๊ธฐ ์œ„ํ•ด ์ถ”๋ก  ์‹œ ๊ฒ€์ƒ‰ ์ฆ๊ฐ• ๊ธฐ๋ฐ˜์˜ ๋ณด์ƒ์„ ์ตœ์ ํ™”ํ•˜๋Š” ํ…Œ์ŠคํŠธ ํƒ€์ž„ ๊ฐ•ํ™” ํ•™์Šต(TTRL)์„ ์ œ์•ˆํ•˜์—ฌ ๊ฐ€์„ค์˜ ์ฐธ์‹ ์„ฑ์„ ๋†’์ด๋Š” ๋ฐฉ๋ฒ•์„ ์ œ์‹œํ–ˆ๋‹ค.

SemanticGen: Video Generation in Semantic Space

Paper, Project
๊ธฐ์กด ๋น„๋””์˜ค ์ƒ์„ฑ ๋ชจ๋ธ์ด VAE ์ž ์žฌ ๊ณต๊ฐ„์—์„œ ํ”ฝ์…€๋กœ ๋งคํ•‘ํ•˜๋Š” ๋ฐฉ์‹์˜ ๋А๋ฆฐ ์ˆ˜๋ ด ์†๋„์™€ ๋†’์€ ๋น„์šฉ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด, ์˜๋ฏธ์  ๊ณต๊ฐ„(Semantic Space)์—์„œ ๋น„๋””์˜ค๋ฅผ ์ƒ์„ฑํ•˜๋Š” ์ƒˆ๋กœ์šด ์ ‘๊ทผ๋ฒ•์ธ SemanticGen์„ ์ œ์•ˆํ•œ๋‹ค. ์ด ๋ชจ๋ธ์€ ๋น„๋””์˜ค์˜ ์ „๋ฐ˜์ ์ธ ๋ ˆ์ด์•„์›ƒ์„ ์ •์˜ํ•˜๋Š” ์••์ถ•๋œ ์˜๋ฏธ์  ํŠน์ง•์„ ๋จผ์ € ์ƒ์„ฑํ•œ ํ›„, ์ด๋ฅผ ๋ฐ”ํƒ•์œผ๋กœ ์„ธ๋ถ€์ ์ธ VAE ์ž ์žฌ ๋ณ€์ˆ˜๋ฅผ ์ƒ์„ฑํ•˜๋Š” 2๋‹จ๊ณ„ ํ™•์‚ฐ ๊ณผ์ •์„ ํ†ตํ•ด ์ž‘๋™ํ•œ๋‹ค. ์‹คํ—˜ ๊ฒฐ๊ณผ, SemanticGen์€ ๊ธฐ์กด ๋ฐฉ์‹๋ณด๋‹ค ๋น ๋ฅธ ์ˆ˜๋ ด ์†๋„๋ฅผ ๋ณด์ด๋ฉฐ ๊ธด ๋น„๋””์˜ค ์ƒ์„ฑ์—์„œ๋„ ํšจ์œจ์ ์ผ ๋ฟ๋งŒ ์•„๋‹ˆ๋ผ, ์ตœ์‹  ๋ชจ๋ธ๋“ค์„ ๋Šฅ๊ฐ€ํ•˜๋Š” ๊ณ ํ’ˆ์งˆ์˜ ๋น„๋””์˜ค๋ฅผ ์ƒ์„ฑํ•  ์ˆ˜ ์žˆ์Œ์„ ์ž…์ฆํ–ˆ๋‹ค.

Step-DeepResearch Technical Report

Paper, Project
์ž์œจ ์—์ด์ „ํŠธ๋กœ์˜ ์ „ํ™˜ ํ๋ฆ„์— ๋งž์ถฐ, ๊ฐœ๋ฐฉํ˜• ์—ฐ๊ตฌ ์ˆ˜ํ–‰์— ํ•„์š”ํ•œ ์˜๋„ ์ธ์‹, ์žฅ๊ธฐ์  ์˜์‚ฌ๊ฒฐ์ •, ๊ต์ฐจ ๊ฒ€์ฆ ๋Šฅ๋ ฅ์„ ๊ฐ–์ถ˜ ๋น„์šฉ ํšจ์œจ์ ์ธ ์—”๋“œํˆฌ์—”๋“œ ์—์ด์ „ํŠธ์ธ Step-DeepResearch๋ฅผ ์†Œ๊ฐœํ•œ๋‹ค. ๊ธฐํš ๋ฐ ๋ณด๊ณ ์„œ ์ž‘์„ฑ ๋Šฅ๋ ฅ์„ ๊ฐ•ํ™”ํ•˜๊ธฐ ์œ„ํ•ด ์›์ž์  ๋Šฅ๋ ฅ ๊ธฐ๋ฐ˜์˜ ๋ฐ์ดํ„ฐ ํ•ฉ์„ฑ ์ „๋žต๊ณผ ๋‹จ๊ณ„๋ณ„ ํ•™์Šต ๊ฒฝ๋กœ(์ค‘๊ฐ„ ํ•™์Šต, SFT, RL)๋ฅผ ์ ์šฉํ•˜๊ณ  ์ฒดํฌ๋ฆฌ์ŠคํŠธ ์Šคํƒ€์ผ์˜ ํ‰๊ฐ€์ž๋ฅผ ๋„์ž…ํ•˜์—ฌ ๊ฒฌ๊ณ ์„ฑ์„ ๋†’์˜€๋‹ค. ์ค‘๊ตญ ๋„๋ฉ”์ธ ํ‰๊ฐ€๋ฅผ ์œ„ํ•ด ๊ตฌ์ถ•ํ•œ ADR-Bench์™€ Scale AI ๋ฃจ๋ธŒ๋ฆญ ํ‰๊ฐ€์—์„œ, 32B ๊ทœ๋ชจ์˜ ์ด ๋ชจ๋ธ์€ ๋™๊ธ‰ ๋ชจ๋ธ์„ ๋Šฅ๊ฐ€ํ•˜๊ณ  OpenAI๋‚˜ Gemini์˜ ์ตœ์‹  ๋ชจ๋ธ๊ณผ ๋Œ€๋“ฑํ•œ ์„ฑ๋Šฅ์„ ๋ณด์ด๋ฉฐ ์ค‘๊ฐ„ ๊ทœ๋ชจ ๋ชจ๋ธ๋กœ๋„ ์ „๋ฌธ๊ฐ€ ์ˆ˜์ค€์˜ ์—ฐ๊ตฌ ์—ญ๋Ÿ‰์„ ๋‹ฌ์„ฑํ•  ์ˆ˜ ์žˆ์Œ์„ ์ฆ๋ช…ํ–ˆ๋‹ค.

PhysBrain: Human Egocentric Data as a Bridge from Vision Language Models to Physical Intelligence

Paper, Project
3์ธ์นญ ๋ฐ์ดํ„ฐ ์œ„์ฃผ๋กœ ํ•™์Šต๋œ ๊ธฐ์กด ์‹œ๊ฐ-์–ธ์–ด ๋ชจ๋ธ(VLM)์ด ํœด๋จธ๋…ธ์ด๋“œ ๋กœ๋ด‡์˜ 1์ธ์นญ ์‹œ์ ๊ณผ ๋ถˆ์ผ์น˜ํ•˜๋Š” ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด, ๋Œ€๊ทœ๋ชจ ์ธ๊ฐ„ 1์ธ์นญ ๋น„๋””์˜ค๋ฅผ ๊ตฌ์กฐํ™”๋œ ๋กœ๋ด‡ ํ•™์Šต ๋ฐ์ดํ„ฐ๋กœ ๋ณ€ํ™˜ํ•˜๋Š” ํŒŒ์ดํ”„๋ผ์ธ๊ณผ ์ด๋ฅผ ํ†ตํ•ด ๊ตฌ์ถ•ํ•œ E2E-3M ๋ฐ์ดํ„ฐ์…‹์„ ์ œ์•ˆํ•œ๋‹ค. ์ด ๋ฐ์ดํ„ฐ์…‹์œผ๋กœ ํ•™์Šต๋œ PhysBrain ๋ชจ๋ธ์€ 1์ธ์นญ ์‹œ์ ์˜ ์ƒํ˜ธ์ž‘์šฉ๊ณผ ์ธ๊ณผ๊ด€๊ณ„ ์ดํ•ด ๋Šฅ๋ ฅ์ด ๋Œ€ํญ ํ–ฅ์ƒ๋˜์—ˆ์œผ๋ฉฐ, ํŠนํžˆ ๋กœ๋ด‡ ์ œ์–ด ์‹œ๋ฎฌ๋ ˆ์ด์…˜์ธ SimplerEnv์—์„œ 53.9%์˜ ์„ฑ๊ณต๋ฅ ์„ ๊ธฐ๋กํ•˜์—ฌ ์ธ๊ฐ„์˜ 1์ธ์นญ ๋ฐ์ดํ„ฐ๊ฐ€ ๋กœ๋ด‡์˜ ๋ฌผ๋ฆฌ์  ์ง€๋Šฅ์œผ๋กœ ํšจ๊ณผ์ ์œผ๋กœ ์ „์ด๋  ์ˆ˜ ์žˆ์Œ์„ ์ž…์ฆํ–ˆ๋‹ค.

Robust-R1: Degradation-Aware Reasoning for Robust Visual Understanding

Paper, Project
์‹ค์„ธ๊ณ„์˜ ์‹œ๊ฐ์  ํ’ˆ์งˆ ์ €ํ•˜ ํ™˜๊ฒฝ์—์„œ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ(MLLM)์˜ ์„ฑ๋Šฅ์ด ๊ธ‰๊ฒฉํžˆ ๋–จ์–ด์ง€๋Š” ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด, ๊ตฌ์กฐํ™”๋œ ์ถ”๋ก  ์ฒด์ธ์„ ํ†ตํ•ด ์‹œ๊ฐ์  ์—ดํ™”๋ฅผ ๋ช…์‹œ์ ์œผ๋กœ ๋ชจ๋ธ๋งํ•˜๋Š” Robust-R1 ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ œ์•ˆํ•œ๋‹ค. ์ด ๋ฐฉ๋ฒ•์€ ์—ดํ™” ์ธ์‹ ์ถ”๋ก ์„ ์œ„ํ•œ ์ง€๋„ ๋ฏธ์„ธ ์กฐ์ •, ํŒŒ๋ผ๋ฏธํ„ฐ ์ธ์‹์„ ์œ„ํ•œ ๋ณด์ƒ ๊ธฐ๋ฐ˜ ์ •๋ ฌ, ์—ดํ™” ๊ฐ•๋„์— ๋”ฐ๋ฅธ ๋™์  ์ถ”๋ก  ๊นŠ์ด ์กฐ์ ˆ์„ ํ†ตํ•ฉํ•˜์˜€์œผ๋ฉฐ, 11,000๊ฑด์˜ ์ „๋ฌธ ๋ฐ์ดํ„ฐ์…‹์„ ๊ตฌ์ถ•ํ•˜์—ฌ ํ•™์Šต์— ํ™œ์šฉํ–ˆ๋‹ค. ํ‰๊ฐ€ ๊ฒฐ๊ณผ, Robust-R1์€ R-Bench ๋“ฑ ๋‹ค์–‘ํ•œ ๋ฒค์น˜๋งˆํฌ์—์„œ ๊ธฐ์กด ๋ชจ๋ธ๋“ค์„ ๋Šฅ๊ฐ€ํ•˜๋Š” ๊ฒฌ๊ณ ์„ฑ์„ ๋ณด์˜€์œผ๋ฉฐ, ๋ณตํ•ฉ์ ์ด๊ณ  ์ ๋Œ€์ ์ธ ์—ดํ™” ์ƒํ™ฉ์—์„œ๋„ ์šฐ์ˆ˜ํ•œ ์‹œ๊ฐ์  ์ดํ•ด ๋Šฅ๋ ฅ์„ ์œ ์ง€ํ–ˆ๋‹ค.

TurboDiffusion: Accelerating Video Diffusion Models by 100-200 Times

Paper, Project
๋น„๋””์˜ค ์ƒ์„ฑ ํ’ˆ์งˆ์„ ์œ ์ง€ํ•˜๋ฉด์„œ๋„ ์—”๋“œํˆฌ์—”๋“œ ํ™•์‚ฐ ์ƒ์„ฑ ์†๋„๋ฅผ 100~200๋ฐฐ ๊ฐ€์†ํ™”ํ•  ์ˆ˜ ์žˆ๋Š” ํ”„๋ ˆ์ž„์›Œํฌ์ธ TurboDiffusion์„ ์†Œ๊ฐœํ•œ๋‹ค. ์ด ๊ธฐ์ˆ ์€ ๋‚ฎ์€ ๋น„ํŠธ์˜ SageAttention๊ณผ ํ•™์Šต ๊ฐ€๋Šฅํ•œ ํฌ์†Œ ์„ ํ˜• ์–ดํ…์…˜(SLA)์„ ํ™œ์šฉํ•œ ์—ฐ์‚ฐ ๊ฐ€์†, rCM ๊ธฐ๋ฐ˜์˜ ์Šคํ… ์ฆ๋ฅ˜, ๊ทธ๋ฆฌ๊ณ  ๋ชจ๋ธ ํŒŒ๋ผ๋ฏธํ„ฐ์™€ ํ™œ์„ฑํ™”๋ฅผ 8๋น„ํŠธ๋กœ ์–‘์žํ™”ํ•˜๋Š” ๊ธฐ๋ฒ• ๋“ฑ์„ ๊ฒฐํ•ฉํ•˜์—ฌ ์ตœ์ ํ™”ํ–ˆ๋‹ค. Wan2.1 ๋ชจ๋ธ๋“ค์— ์ ์šฉํ•œ ์‹คํ—˜ ๊ฒฐ๊ณผ, ๋‹จ์ผ RTX 5090 GPU์—์„œ๋„ ๋น„๋””์˜ค ํ’ˆ์งˆ ์ €ํ•˜ ์—†์ด ํš๊ธฐ์ ์ธ ์†๋„ ํ–ฅ์ƒ์„ ๋‹ฌ์„ฑํ–ˆ์Œ์„ ํ™•์ธํ–ˆ๋‹ค.

The Prism Hypothesis: Harmonizing Semantic and Pixel Representations via Unified Autoencoding

Paper, Project
์˜๋ฏธ์  ์ธ์ฝ”๋”๋Š” ์ฃผ๋กœ ์ถ”์ƒ์ ์ธ ์ €์ฃผํŒŒ ์„ฑ๋ถ„์„, ํ”ฝ์…€ ์ธ์ฝ”๋”๋Š” ์„ธ๋ฐ€ํ•œ ๊ณ ์ฃผํŒŒ ์ •๋ณด๋ฅผ ํฌ์ฐฉํ•œ๋‹ค๋Š” ์ŠคํŽ™ํŠธ๋Ÿผ ํŠน์„ฑ์„ ๋ถ„์„ํ•˜์—ฌ, ๊ฐ ๋ชจ๋‹ฌ๋ฆฌํ‹ฐ๊ฐ€ ๊ณต์œ ๋œ ํŠน์ง• ์ŠคํŽ™ํŠธ๋Ÿผ์˜ ํˆฌ์˜์ด๋ผ๋Š” 'ํ”„๋ฆฌ์ฆ˜ ๊ฐ€์„ค'์„ ์ œ์•ˆํ•œ๋‹ค. ์ด๋Ÿฌํ•œ ํ†ต์ฐฐ์„ ๋ฐ”ํƒ•์œผ๋กœ ์˜๋ฏธ์  ๊ตฌ์กฐ์™€ ํ”ฝ์…€ ์„ธ๋ถ€ ์ •๋ณด๋ฅผ ์ฃผํŒŒ์ˆ˜ ๋Œ€์—ญ ๋ณ€์กฐ๊ธฐ๋ฅผ ํ†ตํ•ด ์กฐํ™”๋กญ๊ฒŒ ํ†ตํ•ฉํ•˜๋Š” Unified Autoencoding(UAE) ๋ชจ๋ธ์„ ๊ฐœ๋ฐœํ–ˆ๋‹ค. ImageNet๊ณผ MS-COCO ๋ฒค์น˜๋งˆํฌ ์‹คํ—˜์„ ํ†ตํ•ด, UAE๋Š” ๋‹จ์ผ ์ž ์žฌ ๊ณต๊ฐ„ ๋‚ด์—์„œ ์˜๋ฏธ์  ์ถ”์ƒํ™”์™€ ํ”ฝ์…€ ์ˆ˜์ค€์˜ ์ถฉ์‹ค๋„๋ฅผ ํšจ๊ณผ์ ์œผ๋กœ ๊ฒฐํ•ฉํ•˜์—ฌ ์ตœ์ฒจ๋‹จ ์„ฑ๋Šฅ์„ ๋‹ฌ์„ฑํ•จ์„ ์ž…์ฆํ–ˆ๋‹ค.

Bottom-up Policy Optimization: Your Language Model Policy Secretly Contains Internal Policies

Paper, Project
๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ(LLM)์„ ๋‹จ์ผ ์ •์ฑ…์œผ๋กœ ๋ณด๋Š” ๊ธฐ์กด ๊ฐ•ํ™” ํ•™์Šต์˜ ํ•œ๊ณ„๋ฅผ ๋„˜์–ด, ๋ชจ๋ธ ๋‚ด๋ถ€์˜ ๊ฐ ๋ ˆ์ด์–ด์™€ ๋ชจ๋“ˆ์ด ๊ณ ์œ ํ•œ ์ •์ฑ…์„ ๊ฐ€์ง„๋‹ค๋Š” ๊ด€์ ์—์„œ ๋‚ด๋ถ€ ๋ฉ”์ปค๋‹ˆ์ฆ˜์„ ๋ถ„์„ํ•˜๊ณ  ์ด๋ฅผ ์ตœ์ ํ™”ํ•˜๋Š” BuPO(Bottom-up Policy Optimization) ๊ธฐ๋ฒ•์„ ์ œ์•ˆํ•œ๋‹ค. ๋ถ„์„ ๊ฒฐ๊ณผ ํ•˜์œ„ ๋ ˆ์ด์–ด๋Š” ํƒ์ƒ‰์„ ์œ„ํ•ด ๋†’์€ ์—”ํŠธ๋กœํ”ผ๋ฅผ ์œ ์ง€ํ•˜๊ณ  ์ƒ์œ„ ๋ ˆ์ด์–ด๋Š” ์ •์ œ๋ฅผ ์œ„ํ•ด ์ˆ˜๋ ดํ•˜๋Š” ๊ฒฝํ–ฅ์„ ๋ฐœ๊ฒฌํ–ˆ์œผ๋ฉฐ, ์ด๋ฅผ ๋ฐ”ํƒ•์œผ๋กœ ์ดˆ๊ธฐ ํ•™์Šต ๋‹จ๊ณ„์—์„œ ํ•˜์œ„ ๋ ˆ์ด์–ด์˜ ์ •์ฑ…์„ ์ง์ ‘ ์ตœ์ ํ™”ํ•˜๋„๋ก ์„ค๊ณ„ํ–ˆ๋‹ค. ๋ณต์žกํ•œ ์ถ”๋ก  ๋ฒค์น˜๋งˆํฌ ์‹คํ—˜์—์„œ BuPO๋Š” ๊ธฐ์ดˆ์ ์ธ ์ถ”๋ก  ๋Šฅ๋ ฅ์„ ์žฌ๊ตฌ์„ฑํ•˜๊ณ  ๊ธฐ์กด ๋ฐฉ๋ฒ•๋ณด๋‹ค ์šฐ์ˆ˜ํ•œ ์„ฑ๋Šฅ์„ ๋ฐœํœ˜ํ•จ์„ ํ™•์ธํ–ˆ๋‹ค.

When Reasoning Meets Its Laws

Paper, Project
๋Œ€๊ทœ๋ชจ ์ถ”๋ก  ๋ชจ๋ธ(LRM)์˜ ์ถ”๋ก  ํŒจํ„ด์„ ์ด๋ก ์ ์œผ๋กœ ์ •๋ฆฝํ•˜๊ธฐ ์œ„ํ•ด, ์งˆ๋ฌธ์˜ ๋ณต์žก๋„์— ๋”ฐ๋ผ ์—ฐ์‚ฐ๋Ÿ‰์ด ์„ ํ˜•์ ์œผ๋กœ ์ฆ๊ฐ€ํ•ด์•ผ ํ•œ๋‹ค๋Š” '์—ฐ์‚ฐ ๋ฒ•์น™'๊ณผ ์ด์— ๋”ฐ๋ฅธ ์ •ํ™•๋„ ๋ฒ•์น™์„ ํฌํ•จํ•˜๋Š” ์ถ”๋ก ์˜ ๋ฒ•์น™(LoRe) ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ œ์•ˆํ•œ๋‹ค. ๋ชจ๋ธ๋“ค์ด ์ด๋Ÿฌํ•œ ๋ฒ•์น™์˜ ๋‹จ์กฐ์„ฑ๊ณผ ๊ตฌ์„ฑ์„ฑ์„ ์–ผ๋งˆ๋‚˜ ๋”ฐ๋ฅด๋Š”์ง€ ์ธก์ •ํ•˜๊ธฐ ์œ„ํ•ด LoRe-Bench๋ฅผ ๊ฐœ๋ฐœํ•˜์—ฌ ํ‰๊ฐ€ํ•œ ๊ฒฐ๊ณผ, ๋Œ€๋ถ€๋ถ„์˜ ๋ชจ๋ธ์ด ๊ตฌ์„ฑ์„ฑ ์ธก๋ฉด์—์„œ ๋ถ€์กฑํ•จ์„ ๋ฐœ๊ฒฌํ–ˆ๋‹ค. ์ด์— ๋Œ€์‘ํ•˜์—ฌ ์—ฐ์‚ฐ ๋ฒ•์น™์˜ ๊ตฌ์„ฑ์„ฑ์„ ๊ฐ•ํ™”ํ•˜๋Š” ๋ฏธ์„ธ ์กฐ์ • ๋ฐฉ๋ฒ•์„ ์ ์šฉํ•จ์œผ๋กœ์จ, ๋‹ค์–‘ํ•œ ๋ฒค์น˜๋งˆํฌ์—์„œ ์ถ”๋ก  ์„ฑ๋Šฅ์„ ์ผ๊ด€๋˜๊ฒŒ ํ–ฅ์ƒ์‹œํ‚ค๊ณ  ๋ฒ•์น™ ์ค€์ˆ˜์™€ ์„ฑ๋Šฅ ๊ฐ„์˜ ์‹œ๋„ˆ์ง€ ํšจ๊ณผ๋ฅผ ์ž…์ฆํ–ˆ๋‹ค.

profile
XR๊ณผ AI์— ๊ด€์‹ฌ์ด ๋งŽ์€ Sky ์ž…๋‹ˆ๋‹ค.

0๊ฐœ์˜ ๋Œ“๊ธ€