[2025/W46] ๐Ÿค— Weekly AI Research

Skyยท2025๋…„ 11์›” 14์ผ

Weekly AI Research Digest

๋ชฉ๋ก ๋ณด๊ธฐ
76/89

๋ฒ”์šฉ ์—์ด์ „ํŠธ์˜ 3D ์˜คํ”ˆ์›”๋“œ ์ •๋ณต๋ถ€ํ„ฐ ๋ฉ€ํ‹ฐ ์—์ด์ „ํŠธ ์‹ ์•ฝ ๋ฐœ๊ตด๊นŒ์ง€
์ž‘์€ ๋ชจ๋ธ์˜ ์ถ”๋ก  ํ˜๋ช…, ๋ฉ”๋ชจ๋ฆฌ ํ™˜๊ฐ ํ‰๊ฐ€, ์•ˆ์ „ ์–ผ๋ผ์ธ๋จผํŠธ์˜ ์ฐฝ์˜์  ํ•œ๊ณ„

Lumine: An Open Recipe for Building Generalist Agents in 3D Open Worlds

Paper, Project
'Lumine'์€ 3D ์˜คํ”ˆ์›”๋“œ ํ™˜๊ฒฝ์—์„œ ์‹ค์‹œ๊ฐ„์œผ๋กœ ์žฅ์‹œ๊ฐ„์˜ ๋ณต์žกํ•œ ์ž„๋ฌด๋ฅผ ์™„์ˆ˜ํ•  ์ˆ˜ ์žˆ๋Š” ๋ฒ”์šฉ ์—์ด์ „ํŠธ ๊ฐœ๋ฐœ์„ ์œ„ํ•œ ์ตœ์ดˆ์˜ ์˜คํ”ˆ ๋ ˆ์‹œํ”ผ๋ฅผ ์ œ์‹œํ•œ๋‹ค. ์ด ์—์ด์ „ํŠธ๋Š” ๋น„์ „-์–ธ์–ด ๋ชจ๋ธ(VLM)์„ ๊ธฐ๋ฐ˜์œผ๋กœ ์ธ์‹, ์ถ”๋ก , ํ–‰๋™์„ ์—”๋“œ-ํˆฌ-์—”๋“œ ๋ฐฉ์‹์œผ๋กœ ํ†ตํ•ฉํ•˜๋ฉฐ, 5Hz์˜ ์›์‹œ ํ”ฝ์…€ ์ž…๋ ฅ์„ 30Hz์˜ ์ •๋ฐ€ํ•œ ํ‚ค๋ณด๋“œ/๋งˆ์šฐ์Šค ์กฐ์ž‘์œผ๋กœ ๋ณ€ํ™˜ํ•˜๊ณ  ํ•„์š”์‹œ ์ ์‘ํ˜•์œผ๋กœ ์ถ”๋ก ์„ ์ˆ˜ํ–‰ํ•œ๋‹ค. '์›์‹ '์—์„œ ํ›ˆ๋ จ๋œ Lumine์€ 5์‹œ๊ฐ„ ๋ถ„๋Ÿ‰์˜ ๋ฉ”์ธ ์Šคํ† ๋ฆฌ๋ฅผ ์ธ๊ฐ„ ์ˆ˜์ค€์˜ ํšจ์œจ๋กœ ์™„๋ฃŒํ•˜๊ณ  ์ž์—ฐ์–ด ์ง€์‹œ๋ฅผ ๋”ฐ๋ผ ๋‹ค์–‘ํ•œ ์ž‘์—…์„ ์ˆ˜ํ–‰ํ•˜๋ฉฐ, ํŠนํžˆ ๋ณ„๋„ ํ•™์Šต ์—†์ด '๋ช…์กฐ'๋‚˜ '๋ถ•๊ดด: ์Šคํƒ€๋ ˆ์ผ' ๊ฐ™์€ ํƒ€ ๊ฒŒ์ž„์—์„œ๋„ ๋›ฐ์–ด๋‚œ ์ œ๋กœ์ƒท ์ผ๋ฐ˜ํ™” ์„ฑ๋Šฅ์„ ์ž…์ฆํ–ˆ๋‹ค.

Grounding Computer Use Agents on Human Demonstrations

Paper, Project
์ปดํ“จํ„ฐ ์ œ์–ด ์—์ด์ „ํŠธ๊ฐ€ ์ž์—ฐ์–ด ์ง€์‹œ๋ฅผ ํ™”๋ฉด UI ์š”์†Œ์™€ ์ •ํ™•ํžˆ ์—ฐ๊ฒฐํ•˜๋Š” '๊ทธ๋ผ์šด๋”ฉ'์€ ํ•„์ˆ˜์ ์ด์ง€๋งŒ, ๋ฐ์Šคํฌํ†ฑ ํ™˜๊ฒฝ์„ ์œ„ํ•œ ๊ณ ํ’ˆ์งˆ ๋ฐ์ดํ„ฐ์…‹์€ ๋ถ€์กฑํ–ˆ๋‹ค. ์ด ์—ฐ๊ตฌ๋Š” ์ด๋Ÿฌํ•œ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด ์ „๋ฌธ๊ฐ€ ์‹œ์—ฐ์„ ๊ธฐ๋ฐ˜์œผ๋กœ ๊ตฌ์ถ•๋œ ๋Œ€๊ทœ๋ชจ ๋ฐ์Šคํฌํ†ฑ ๊ทธ๋ผ์šด๋”ฉ ๋ฐ์ดํ„ฐ์…‹ 'GroundCUA'๋ฅผ ์†Œ๊ฐœํ•œ๋‹ค. GroundCUA๋Š” 87๊ฐœ ์• ํ”Œ๋ฆฌ์ผ€์ด์…˜๊ณผ 356๋งŒ ๊ฐœ ์ด์ƒ์˜ ๊ฒ€์ฆ๋œ ์ฃผ์„์„ ํฌํ•จํ•˜๋ฉฐ, ์ด๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ๊ฐœ๋ฐœ๋œ 'GroundNext' ๋ชจ๋ธ์€ ๊ธฐ์กด๋ณด๋‹ค 10๋ถ„์˜ 1 ๋ฏธ๋งŒ์˜ ๋ฐ์ดํ„ฐ๋กœ๋„ 5๊ฐœ ๋ฒค์น˜๋งˆํฌ์—์„œ SOTA ์„ฑ๋Šฅ์„ ๋‹ฌ์„ฑํ–ˆ๋‹ค. ์ด๋Š” ๊ณ ํ’ˆ์งˆ ์ „๋ฌธ๊ฐ€ ๋ฐ์ดํ„ฐ์…‹์ด ๋ฒ”์šฉ ์ปดํ“จํ„ฐ ์—์ด์ „ํŠธ ๋ฐœ์ „์— ๊ฒฐ์ •์ ์ธ ์—ญํ• ์„ ํ•จ์„ ๋ณด์—ฌ์ค€๋‹ค.

Tiny Model, Big Logic: Diversity-Driven Optimization Elicits Large-Model Reasoning Ability in VibeThinker-1.5B

Paper, Project
'VibeThinker-1.5B' ์—ฐ๊ตฌ๋Š” ์ž‘์€ ๋ชจ๋ธ์ด ๊ฐ•๋ ฅํ•œ ์ถ”๋ก  ๋Šฅ๋ ฅ์„ ๊ฐ–๊ธฐ ์–ด๋ ต๋‹ค๋Š” ํ†ต๋…์— ๋„์ „ํ•˜๋ฉฐ, 15์–ต ํŒŒ๋ผ๋ฏธํ„ฐ์˜ ์ƒ๋Œ€์ ์œผ๋กœ ์ž‘์€ ๋ชจ๋ธ๋กœ๋„ ๋Œ€ํ˜• ๋ชจ๋ธ ์ˆ˜์ค€์˜ ์ถ”๋ก ์ด ๊ฐ€๋Šฅํ•จ์„ ์ž…์ฆํ–ˆ๋‹ค. ์—ฐ๊ตฌํŒ€์€ 'SSP'๋ผ๋Š” ์ž์ฒด ํ›ˆ๋ จ ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ ์šฉํ•˜๊ณ  ๋‹จ 7,800๋‹ฌ๋Ÿฌ์˜ ๋น„์šฉ์œผ๋กœ ๋ชจ๋ธ์„ ํ›ˆ๋ จ์‹œ์ผฐ๋‹ค. ๊ทธ ๊ฒฐ๊ณผ, VibeThinker-1.5B๋Š” ์—ฌ๋Ÿฌ ์ˆ˜ํ•™ ๋ฒค์น˜๋งˆํฌ์—์„œ 400๋ฐฐ ๋” ํฐ DeepSeek R1 ๋ชจ๋ธ์„ ๋Šฅ๊ฐ€ํ•˜๊ณ  ์ฃผ์š” ์ฝ”๋”ฉ ๋ฒค์น˜๋งˆํฌ์—์„œ๋„ ์šฐ์ˆ˜ํ•œ ์„ฑ๋Šฅ์„ ๊ธฐ๋กํ•˜๋ฉฐ, ์ ์€ ๋น„์šฉ์œผ๋กœ๋„ ๊ณ ๊ธ‰ AI ์ถ”๋ก  ๋Šฅ๋ ฅ์„ ๋‹ฌ์„ฑํ•  ์ˆ˜ ์žˆ์Œ์„ ์‹œ์‚ฌํ•œ๋‹ค.

HaluMem: Evaluating Hallucinations in Memory Systems of Agents

Paper, Project
'HaluMem'์€ AI ์—์ด์ „ํŠธ์˜ ๋ฉ”๋ชจ๋ฆฌ ์‹œ์Šคํ…œ์—์„œ ๋ฐœ์ƒํ•˜๋Š” ํ™˜๊ฐ ํ˜„์ƒ์„ ํ‰๊ฐ€ํ•˜๊ธฐ ์œ„ํ•œ ์ตœ์ดˆ์˜ '์ž‘๋™ ๋‹จ๊ณ„๋ณ„' ๋ฒค์น˜๋งˆํฌ๋ฅผ ์ œ์‹œํ•œ๋‹ค. ๊ธฐ์กด ํ‰๊ฐ€ ๋ฐฉ์‹์ด ์ตœ์ข… ๊ฒฐ๊ณผ๋ฌผ์—๋งŒ ์ดˆ์ ์„ ๋งž์ถ˜ ๊ฒƒ๊ณผ ๋‹ฌ๋ฆฌ, HaluMem์€ '๋ฉ”๋ชจ๋ฆฌ ์ถ”์ถœ', '๋ฉ”๋ชจ๋ฆฌ ์—…๋ฐ์ดํŠธ', '๋ฉ”๋ชจ๋ฆฌ ์งˆ์˜์‘๋‹ต'์˜ ์„ธ ๋‹จ๊ณ„๋กœ ๋‚˜๋ˆ„์–ด ํ™˜๊ฐ ๋ฐœ์ƒ ์ง€์ ์„ ์ •๋ฐ€ํ•˜๊ฒŒ ์ง„๋‹จํ•œ๋‹ค. ์—ฐ๊ตฌ ๊ฒฐ๊ณผ, ํ™˜๊ฐ์€ ๋‹จ์ˆœํžˆ ์‘๋‹ต ๋‹จ๊ณ„์—์„œ ๋ฐœ์ƒํ•˜๋Š” ๊ฒƒ์ด ์•„๋‹ˆ๋ผ, ์ •๋ณด๋ฅผ ์ถ”์ถœํ•˜๊ณ  ์—…๋ฐ์ดํŠธํ•˜๋Š” ์ดˆ๊ธฐ ๋‹จ๊ณ„์—์„œ๋ถ€ํ„ฐ ๋ฐœ์ƒ ๋ฐ ๋ˆ„์ ๋˜์–ด ํ›„์† ๋‹จ๊ณ„๋กœ ์ „ํŒŒ๋˜๋Š” ๊ฒƒ์œผ๋กœ ๋ฐํ˜€์กŒ๋‹ค. ์ด๋Š” ๋ฉ”๋ชจ๋ฆฌ ์‹œ์Šคํ…œ์˜ ์‹ ๋ขฐ์„ฑ์„ ๋†’์ด๊ธฐ ์œ„ํ•œ ๊ทผ๋ณธ์ ์ธ ์—ฐ๊ตฌ๊ฐ€ ํ•„์š”ํ•จ์„ ๋ณด์—ฌ์ค€๋‹ค.

IterResearch: Rethinking Long-Horizon Agents via Markovian State Reconstruction

Paper, Project
'IterResearch'๋Š” ์žฅ๊ธฐ ํƒ์ƒ‰(long-horizon) ๋ฆฌ์„œ์น˜ ์—์ด์ „ํŠธ๊ฐ€ ๋‹จ์ผ ์ปจํ…์ŠคํŠธ ์ฐฝ์— ์ •๋ณด๋ฅผ ๋ˆ„์ ํ•˜๋ฉฐ ๋ฐœ์ƒํ•˜๋Š” ์„ฑ๋Šฅ ์ €ํ•˜ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด ์ƒˆ๋กœ์šด '๋ฐ˜๋ณต์ ' ํŒจ๋Ÿฌ๋‹ค์ž„์„ ์ œ์•ˆํ•œ๋‹ค. ์ด ๋ฐฉ์‹์€ ํƒ์ƒ‰ ๊ณผ์ •์„ ๋งˆ๋ฅด์ฝ”ํ”„ ๊ฒฐ์ • ๊ณผ์ •์œผ๋กœ ์žฌ์ •์˜ํ•˜๊ณ , ๋ชจ๋“  ์ •๋ณด๋ฅผ ์Œ“๋Š” ๋Œ€์‹  '์ง„ํ™”ํ•˜๋Š” ๋ฆฌํฌํŠธ'๋ฅผ ๋ฉ”๋ชจ๋ฆฌ๋กœ ์œ ์ง€ํ•˜๋ฉฐ ์ฃผ๊ธฐ์ ์œผ๋กœ ํ†ต์ฐฐ์„ ํ•ฉ์„ฑํ•ด ์ปจํ…์ŠคํŠธ๋ฅผ ์žฌ๊ตฌ์„ฑํ•œ๋‹ค. ๊ทธ ๊ฒฐ๊ณผ, IterResearch๋Š” ํƒ์ƒ‰ ๊นŠ์ด๊ฐ€ ์ฆ๊ฐ€ํ•ด๋„ ์ผ๊ด€๋œ ์ถ”๋ก  ๋Šฅ๋ ฅ์„ ์œ ์ง€ํ•˜๋ฉฐ, 2048๋ฒˆ์— ๋‹ฌํ•˜๋Š” ๊ธด ์ƒํ˜ธ์ž‘์šฉ์—์„œ๋„ ๊ทน์ ์ธ ์„ฑ๋Šฅ ํ–ฅ์ƒ์„ ๋ณด์ด๋ฉฐ ๊ธฐ์กด ์—์ด์ „ํŠธ๋“ค์„ ํฌ๊ฒŒ ๋Šฅ๊ฐ€ํ–ˆ๋‹ค.

TiDAR: Think in Diffusion, Talk in Autoregression

Paper
'TiDAR'๋Š” ๋””ํ“จ์ „ ๋ชจ๋ธ์˜ ๋น ๋ฅธ ๋ณ‘๋ ฌ ์ƒ์„ฑ ์†๋„์™€ ์ž๊ธฐํšŒ๊ท€(AR) ๋ชจ๋ธ์˜ ๋†’์€ ํ’ˆ์งˆ์ด๋ผ๋Š” ์žฅ์ ์„ ๊ฒฐํ•ฉํ•œ ์ƒˆ๋กœ์šด ํ•˜์ด๋ธŒ๋ฆฌ๋“œ ์–ธ์–ด ๋ชจ๋ธ ์•„ํ‚คํ…์ฒ˜๋‹ค. "๋””ํ“จ์ „์œผ๋กœ ์ƒ๊ฐํ•˜๊ณ (Thinking), ์ž๊ธฐํšŒ๊ท€๋กœ ๋งํ•œ๋‹ค(Talking)"๋Š” ๊ฐœ๋…์— ๋”ฐ๋ผ, LiDAR๋Š” ๋‹จ์ผ ์ˆœ์ „ํŒŒ(forward pass) ๋‚ด์—์„œ ๋””ํ“จ์ „ ๋ฐฉ์‹์œผ๋กœ ํ† ํฐ ์ดˆ์•ˆ์„ ๋ณ‘๋ ฌ๋กœ ๋น ๋ฅด๊ฒŒ ์ƒ์„ฑํ•œ ํ›„, ์ž๊ธฐํšŒ๊ท€ ๋ฐฉ์‹์œผ๋กœ ์ตœ์ข… ๊ฒฐ๊ณผ๋ฌผ์„ ์ƒ˜ํ”Œ๋งํ•œ๋‹ค. ์ด ์„ค๊ณ„ ๋•๋ถ„์— LiDAR๋Š” ๊ธฐ์กด AR ๋ชจ๋ธ๊ณผ์˜ ํ’ˆ์งˆ ๊ฒฉ์ฐจ๋ฅผ ์™„์ „ํžˆ ํ•ด์†Œํ•˜๋Š” ๋™์‹œ์—, ์ดˆ๋‹น ํ† ํฐ ์ƒ์„ฑ ์ฒ˜๋ฆฌ๋Ÿ‰์€ 4.7๋ฐฐ์—์„œ 5.9๋ฐฐ๊นŒ์ง€ ํš๊ธฐ์ ์œผ๋กœ ํ–ฅ์ƒ์‹œ์ผฐ๋‹ค.

MADD: Multi-Agent Drug Discovery Orchestra

Paper, Project
'MADD'๋Š” ์ดˆ๊ธฐ ์‹ ์•ฝ ๊ฐœ๋ฐœ์˜ ํ•ต์‹ฌ ๊ณผ์ œ์ธ ํžˆํŠธ ํ™”ํ•ฉ๋ฌผ ๋ฐœ๊ตด์„ ์œ„ํ•œ ๋ฉ€ํ‹ฐ ์—์ด์ „ํŠธ ์‹œ์Šคํ…œ์œผ๋กœ, ๋ณต์žกํ•œ AI ๋„๊ตฌ์— ๋Œ€ํ•œ ์‹คํ—˜์‹ค ์—ฐ๊ตฌ์ž๋“ค์˜ ์ ‘๊ทผ์„ฑ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•œ๋‹ค. ์‚ฌ์šฉ์ž๊ฐ€ ์ž์—ฐ์–ด๋กœ ์ฟผ๋ฆฌ๋ฅผ ์ž…๋ ฅํ•˜๋ฉด, MADD๋Š” ํ™”ํ•ฉ๋ฌผ ์ƒ์„ฑ ๋ฐ ์Šคํฌ๋ฆฌ๋‹ ๋“ฑ ํ•ต์‹ฌ ํ•˜์œ„ ์ž‘์—…์„ ์ฒ˜๋ฆฌํ•˜๋Š” 4๊ฐœ์˜ ์ „๋ฌธ ์—์ด์ „ํŠธ๊ฐ€ ์˜ค์ผ€์ŠคํŠธ๋ผ์ฒ˜๋Ÿผ ํ˜‘๋ ฅํ•˜์—ฌ ๋งž์ถคํ˜• ๋ฐœ๊ตด ํŒŒ์ดํ”„๋ผ์ธ์„ ์ž๋™์œผ๋กœ ๊ตฌ์ถ•ํ•˜๊ณ  ์‹คํ–‰ํ•œ๋‹ค. 7๊ฐœ์˜ ์‹ค์ œ ์‹ ์•ฝ ๋ฐœ๊ตด ์‚ฌ๋ก€ ํ‰๊ฐ€์—์„œ MADD๋Š” ๊ธฐ์กด LLM ์†”๋ฃจ์…˜๋ณด๋‹ค ๋›ฐ์–ด๋‚œ ์„ฑ๋Šฅ์„ ๋ณด์˜€์œผ๋ฉฐ, 5๊ฐœ์˜ ์ƒˆ๋กœ์šด ์ƒ๋ฌผํ•™์  ํ‘œ์ ์— ๋Œ€ํ•œ ํžˆํŠธ ๋ถ„์ž๋ฅผ ์„ฑ๊ณต์ ์œผ๋กœ ๋ฐœ๊ตดํ•ด๋ƒˆ๋‹ค.

Too Good to be Bad: On the Failure of LLMs to Role-Play Villains

Paper, Project
'Too Good to be Bad' ์—ฐ๊ตฌ๋Š” ๋Œ€ํ˜• ์–ธ์–ด ๋ชจ๋ธ(LLM)์ด ๋น„์‚ฌํšŒ์ ์ด๊ฑฐ๋‚˜ ์ ๋Œ€์ ์ธ '์•…๋‹น' ์บ๋ฆญํ„ฐ๋ฅผ ์—ฐ๊ธฐํ•˜๋Š” ๋ฐ ์‹คํŒจํ•˜๋Š” ํ˜„์ƒ์„ ์ฒด๊ณ„์ ์œผ๋กœ ๋ถ„์„ํ–ˆ๋‹ค. ์ด ๋…ผ๋ฌธ์€ ํ˜„๋Œ€ LLM์˜ ๊ฐ•๋ ฅํ•œ '์•ˆ์ „ ์–ผ๋ผ์ธ๋จผํŠธ'๊ฐ€ ๋„๋•์ ์œผ๋กœ ๋ชจํ˜ธํ•œ ํŽ˜๋ฅด์†Œ๋‚˜๋ฅผ ์ง„์ •์„ฑ ์žˆ๊ฒŒ ๊ตฌํ˜„ํ•˜๋Š” ์ž‘์—…๊ณผ ๊ทผ๋ณธ์ ์œผ๋กœ ์ถฉ๋Œํ•œ๋‹ค๋Š” ๊ฐ€์„ค์„ ์ œ์‹œํ•œ๋‹ค. 'Moral RolePlay' ๋ฒค์น˜๋งˆํฌ๋ฅผ ํ†ตํ•œ ์‹คํ—˜ ๊ฒฐ๊ณผ, ๋ชจ๋ธ๋“ค์€ ์บ๋ฆญํ„ฐ์˜ ๋„๋•์„ฑ์ด ๋‚ฎ์•„์งˆ์ˆ˜๋ก ์—ฐ๊ธฐ ์ถฉ์‹ค๋„๊ฐ€ ์ผ๊ด€๋˜๊ฒŒ ํ•˜๋ฝํ–ˆ์œผ๋ฉฐ, ํŠนํžˆ '๊ธฐ๋งŒ'์ด๋‚˜ '์กฐ์ข…' ๊ฐ™์€ ํŠน์„ฑ์„ ํ”ผ์ƒ์ ์ธ ๊ณต๊ฒฉ์„ฑ์œผ๋กœ ๋Œ€์ฒดํ•˜๋Š” ๊ฒฝํ–ฅ์„ ๋ณด์˜€๋‹ค. ์ด๋Š” ๋ชจ๋ธ์˜ ์•ˆ์ „์„ฑ๊ณผ ์ฐฝ์˜์  ์ถฉ์‹ค๋„ ๊ฐ„์˜ ๊ธด์žฅ ๊ด€๊ณ„๋ฅผ ๋ณด์—ฌ์ฃผ๋Š” ์ฒซ ๋ฒˆ์งธ ์ฒด๊ณ„์  ์ฆ๊ฑฐ๋‹ค.

DRIVE: Data Curation Best Practices for Reinforcement Learning with Verifiable Reward in Competitive Code Generation

Paper
'DRIVE'๋Š” ๊ฒฝ์Ÿ ํ”„๋กœ๊ทธ๋ž˜๋ฐ ์ฝ”๋“œ ์ƒ์„ฑ์„ ์œ„ํ•œ RLVR(๊ฒ€์ฆ ๊ฐ€๋Šฅํ•œ ๋ณด์ƒ์„ ํ†ตํ•œ ๊ฐ•ํ™”ํ•™์Šต) ๋ฐ์ดํ„ฐ ๊ตฌ์ถ• ๋ฐ ํ›ˆ๋ จ ๋ชจ๋ฒ” ์‚ฌ๋ก€๋ฅผ ์ œ์‹œํ•œ๋‹ค. ์ด ํŒŒ์ดํ”„๋ผ์ธ์€ SFT(์ง€๋„ ๋ฏธ์„ธ์กฐ์ •) ์ดํ›„ 2๋‹จ๊ณ„ ๊ฐ•ํ™”ํ•™์Šต ํ”„๋กœ์„ธ์Šค๋ฅผ ๋”ฐ๋ฅด๋Š”๋ฐ, ์ฒซ ๋ฒˆ์งธ ๋‹จ๊ณ„์—์„œ๋Š” ํฌ๊ณ  ๊ท ์ผํ•œ ๋ฌธ์ œ์…‹์œผ๋กœ ์—”ํŠธ๋กœํ”ผ๋ฅผ ํ™•์žฅํ•˜์—ฌ ๋ฐ˜๋ณต์„ ์ค„์ด๊ณ , ๋‘ ๋ฒˆ์งธ ๋‹จ๊ณ„(Pre-GRPO)์—์„œ๋Š” ์ž‘์ง€๋งŒ ์–ด๋ ค์šด ๊ณ ํ’ˆ์งˆ ๋ฌธ์ œ์…‹์— ์ง‘์ค‘ํ•˜๋Š” 'ํ•˜๋“œ-ํฌ์ปค์Šค ์ปค๋ฆฌํ˜๋Ÿผ'์„ ์ ์šฉํ•œ๋‹ค. ์ด ๋ฐฉ์‹์„ Qwen2.5-32B ๋ชจ๋ธ์— ์ ์šฉํ•œ ๊ฒฐ๊ณผ, LeetCode ๋ฐ Codeforces์—์„œ ๋ฐ์ดํ„ฐ ์œ ์ถœ ์—†์ด๋„ DeepSeek v3.1๊ณผ ๊ฐ™์€ ์ตœ๊ณ  ์ˆ˜์ค€์˜ ์‹œ์Šคํ…œ๊ณผ ๋™๋“ฑํ•œ ์„ฑ๋Šฅ์„ ๋‹ฌ์„ฑํ–ˆ๋‹ค.

profile
XR๊ณผ AI์— ๊ด€์‹ฌ์ด ๋งŽ์€ Sky ์ž…๋‹ˆ๋‹ค.

0๊ฐœ์˜ ๋Œ“๊ธ€