[2025/W31] ๐Ÿค— Weekly AI Research

Skyยท2025๋…„ 8์›” 1์ผ

Weekly AI Research Digest

๋ชฉ๋ก ๋ณด๊ธฐ
46/89

AI, ์–ธ์–ด์˜ ํ•œ๊ณ„๋ฅผ ๋„˜์–ด ์ธ๊ฐ„ ๊ณ ์œ ์˜ ์ถ”๋ก  ๋ฐ ์ฐฝ์ž‘ ์˜์—ญ์— ๋„์ „
์—์ด์ „ํŠธ, ํ™•์‚ฐ ๋ชจ๋ธ, ํ•˜์ด๋ธŒ๋ฆฌ๋“œ ์„ค๊ณ„ ๋“ฑ ํ˜์‹ ์  ๋ฐฉ๋ฒ•๋ก ์œผ๋กœ ์ „๋ฌธ ๋ถ„์•ผ์˜ ์ž๋™ํ™” ์•ž๋‹น๊ฒจ

Agentic Reinforced Policy Optimization

Paper, Project
์ด ๋…ผ๋ฌธ์€ ์—ฌ๋Ÿฌ ์ฐจ๋ก€์— ๊ฑธ์ณ ์™ธ๋ถ€ ๋„๊ตฌ๋ฅผ ํ™œ์šฉํ•˜๋Š” ๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ(LLM) ๊ธฐ๋ฐ˜ ์—์ด์ „ํŠธ์˜ ์„ฑ๋Šฅ์„ ์ตœ์ ํ™”ํ•˜๊ธฐ ์œ„ํ•œ ์ƒˆ๋กœ์šด ๊ฐ•ํ™”ํ•™์Šต ์•Œ๊ณ ๋ฆฌ์ฆ˜์ธ ARPO (Agentic Reinforced Policy Optimization)๋ฅผ ์ œ์•ˆํ•œ๋‹ค. ์—ฐ๊ตฌ์ง„์€ LLM์ด ์™ธ๋ถ€ ๋„๊ตฌ๋ฅผ ์‚ฌ์šฉํ•œ ์งํ›„์— ์ƒ์„ฑํ•˜๋Š” ํ† ํฐ์˜ ๋ถˆํ™•์‹ค์„ฑ(์—”ํŠธ๋กœํ”ผ)์ด ๊ธ‰๊ฒฉํžˆ ์ฆ๊ฐ€ํ•˜๋Š” ํ˜„์ƒ์„ ๋ฐœ๊ฒฌํ–ˆ๋‹ค. ์ด๋ฅผ ๋ฐ”ํƒ•์œผ๋กœ ARPO๋Š” '์—”ํŠธ๋กœํ”ผ ๊ธฐ๋ฐ˜ ์ ์‘์  ๋กค์•„์›ƒ' ๋ฉ”์ปค๋‹ˆ์ฆ˜์„ ๋„์ž…ํ•˜์—ฌ, ๋„๊ตฌ ์‚ฌ์šฉ ํ›„ ๋ถˆํ™•์‹ค์„ฑ์ด ๋†’์€ ์‹œ์ ์—์„œ ํƒ์ƒ‰์„ ๊ฐ•ํ™”ํ•œ๋‹ค. ๋˜ํ•œ, '์–ด๋“œ๋ฐดํ‹ฐ์ง€ ๊ท€์† ์ถ”์ •' ๊ธฐ๋ฒ•์„ ํ†ตํ•ด ๋ชจ๋ธ์ด ๋‹จ๊ณ„๋ณ„ ๋„๊ตฌ ์‚ฌ์šฉ์˜ ์œ ๋ถˆ๋ฆฌ๋ฅผ ํ•™์Šตํ•˜๊ณ  ๋‚ด์žฌํ™”ํ•˜๋„๋ก ํ•œ๋‹ค. ์‹คํ—˜ ๊ฒฐ๊ณผ, ARPO๋Š” ๊ณ„์‚ฐ ์ถ”๋ก , ์ง€์‹ ์ถ”๋ก , ์‹ฌ์ธต ๊ฒ€์ƒ‰ ๋“ฑ 13๊ฐœ์˜ ๋ฒค์น˜๋งˆํฌ์—์„œ ๊ธฐ์กด ๊ถค์  ์ˆ˜์ค€์˜ ๊ฐ•ํ™”ํ•™์Šต ์•Œ๊ณ ๋ฆฌ์ฆ˜๋ณด๋‹ค ๋›ฐ์–ด๋‚œ ์„ฑ๋Šฅ์„ ๋ณด์˜€์œผ๋ฉฐ, ๊ธฐ์กด ๋ฐฉ๋ฒ• ๋Œ€๋น„ ์ ˆ๋ฐ˜์˜ ๋„๊ตฌ ์‚ฌ์šฉ ์˜ˆ์‚ฐ๋งŒ์œผ๋กœ ๋” ๋†’์€ ์„ฑ๋Šฅ์„ ๋‹ฌ์„ฑํ•˜์—ฌ ํšจ์œจ์„ฑ๊ณผ ํ™•์žฅ์„ฑ์„ ์ž…์ฆํ•œ๋‹ค.

HunyuanWorld 1.0: Generating Immersive, Explorable, and Interactive 3D Worlds from Words or Pixels

Paper, Project
์ด ๋…ผ๋ฌธ์€ ํ…์ŠคํŠธ๋‚˜ ์ด๋ฏธ์ง€๋กœ๋ถ€ํ„ฐ ๋ชฐ์ž…ํ˜• 3D ์„ธ๊ณ„๋ฅผ ์ƒ์„ฑํ•˜๋Š” ์ƒˆ๋กœ์šด ํ”„๋ ˆ์ž„์›Œํฌ์ธ ํ›ˆ์œ„์•ˆ์›”๋“œ 1.0(HunyuanWorld 1.0)์„ ์†Œ๊ฐœํ•œ๋‹ค. ๊ธฐ์กด์˜ ๋น„๋””์˜ค ๊ธฐ๋ฐ˜ ์ƒ์„ฑ ๋ฐฉ์‹(๋‹ค์–‘ํ•˜์ง€๋งŒ 3D ์ผ๊ด€์„ฑ ๋ถ€์กฑ)๊ณผ 3D ๊ธฐ๋ฐ˜ ์ƒ์„ฑ ๋ฐฉ์‹(์ผ๊ด€์„ฑ์€ ๋†’์ง€๋งŒ ๋ฐ์ดํ„ฐ ๋ถ€์กฑ ๋ฐ ๋น„ํšจ์œจ์ )์˜ ํ•œ๊ณ„๋ฅผ ๊ทน๋ณตํ•˜๊ธฐ ์œ„ํ•ด ๋‘ ๋ฐฉ์‹์˜ ์žฅ์ ์„ ๊ฒฐํ•ฉํ–ˆ๋‹ค. ์ด ํ”„๋ ˆ์ž„์›Œํฌ์˜ ํ•ต์‹ฌ์€ ํŒŒ๋…ธ๋ผ๋งˆ ์ด๋ฏธ์ง€๋ฅผ 360๋„ ์„ธ๊ณ„์˜ ๋Œ€๋ฆฌ์ธ(proxy)์œผ๋กœ ์‚ฌ์šฉํ•˜๋Š” ์˜๋ฏธ๋ก ์ ์œผ๋กœ ๊ณ„์ธตํ™”๋œ 3D ๋ฉ”์‹œ ํ‘œํ˜„ ๋ฐฉ์‹์ด๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ์˜๋ฏธ๋ฅผ ์ธ์‹ํ•˜๋ฉฐ ์„ธ๊ณ„๋ฅผ ๋ถ„ํ•ดํ•˜๊ณ  ์žฌ๊ตฌ์„ฑํ•˜์—ฌ ๋‹ค์–‘ํ•œ 3D ์„ธ๊ณ„๋ฅผ ์ƒ์„ฑํ•  ์ˆ˜ ์žˆ๋‹ค. ๊ทธ ๊ฒฐ๊ณผ, (1) ํŒŒ๋…ธ๋ผ๋งˆ๋ฅผ ํ†ตํ•œ 360๋„ ๋ชฐ์ž… ๊ฒฝํ—˜, (2) ๊ธฐ์กด ๊ทธ๋ž˜ํ”ฝ์Šค ํŒŒ์ดํ”„๋ผ์ธ๊ณผ ํ˜ธํ™˜๋˜๋Š” ๋ฉ”์‹œ(mesh) ์ถ”์ถœ, (3) ์ƒํ˜ธ์ž‘์šฉ์„ฑ์„ ๋†’์ด๋Š” ๋ถ„๋ฆฌ๋œ ๊ฐ์ฒด ํ‘œํ˜„์ด๋ผ๋Š” ์„ธ ๊ฐ€์ง€ ์ฃผ์š” ์žฅ์ ์„ ๊ฐ€์ง„๋‹ค. ์ด ๊ธฐ์ˆ ์€ ๊ฐ€์ƒํ˜„์‹ค, ๋ฌผ๋ฆฌ ์‹œ๋ฎฌ๋ ˆ์ด์…˜, ๊ฒŒ์ž„ ๊ฐœ๋ฐœ ๋“ฑ ๋‹ค์–‘ํ•œ ๋ถ„์•ผ์— ํ™œ์šฉ๋  ์ˆ˜ ์žˆ๋‹ค.

ScreenCoder: Advancing Visual-to-Code Generation for Front-End Automation via Modular Multimodal Agents

Paper, Project
์ด ๋…ผ๋ฌธ์€ UI(์‚ฌ์šฉ์ž ์ธํ„ฐํŽ˜์ด์Šค) ๋””์ž์ธ ์‹œ์•ˆ์„ ํ”„๋ก ํŠธ์—”๋“œ ์ฝ”๋“œ๋กœ ์ž๋™ ๋ณ€ํ™˜ํ•˜๋Š” ๊ธฐ์ˆ ์„ ๋ฐœ์ „์‹œํ‚ค๊ธฐ ์œ„ํ•œ ์Šคํฌ๋ฆฐ์ฝ”๋”(ScreenCoder)๋ฅผ ์ œ์•ˆํ•œ๋‹ค. ๊ธฐ์กด ๋ฐฉ๋ฒ•๋“ค์ด ์ฃผ๋กœ ํ…์ŠคํŠธ ํ”„๋กฌํ”„ํŠธ์— ์˜์กดํ•ด ์‹œ๊ฐ์  ๋””์ž์ธ ์˜๋„๋ฅผ ์ œ๋Œ€๋กœ ํŒŒ์•…ํ•˜์ง€ ๋ชปํ•˜๋Š” ํ•œ๊ณ„๋ฅผ ๊ทน๋ณตํ•˜๊ธฐ ์œ„ํ•ด, ์Šคํฌ๋ฆฐ์ฝ”๋”๋Š” ๋ชจ๋“ˆํ˜• ๋‹ค์ค‘ ์—์ด์ „ํŠธ ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ๋„์ž…ํ–ˆ๋‹ค. ์ด ํ”„๋ ˆ์ž„์›Œํฌ๋Š” (1) ๊ทธ๋ผ์šด๋”ฉ ์—์ด์ „ํŠธ๊ฐ€ ์‹œ๊ฐ-์–ธ์–ด ๋ชจ๋ธ์„ ์ด์šฉํ•ด UI ๊ตฌ์„ฑ ์š”์†Œ๋ฅผ ํƒ์ง€ํ•˜๊ณ , (2) ๊ณ„ํš ์—์ด์ „ํŠธ๊ฐ€ ๊ณ„์ธต์  ๋ ˆ์ด์•„์›ƒ์„ ๊ตฌ์„ฑํ•˜๋ฉฐ, (3) ์ƒ์„ฑ ์—์ด์ „ํŠธ๊ฐ€ ์ ์‘ํ˜• ํ”„๋กฌํ”„ํŠธ๋ฅผ ํ†ตํ•ด HTML/CSS ์ฝ”๋“œ๋ฅผ ์ƒ์„ฑํ•˜๋Š” 3๋‹จ๊ณ„๋กœ ์ž‘์—…์„ ์ˆ˜ํ–‰ํ•œ๋‹ค. ์ด๋Ÿฌํ•œ ๋ชจ๋“ˆ์‹ ์„ค๊ณ„๋Š” ํ•ด์„ ๊ฐ€๋Šฅ์„ฑ๊ณผ ์•ˆ์ •์„ฑ์„ ๋†’์ธ๋‹ค. ๋˜ํ•œ, ์ด ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ํ™•์žฅํ•˜์—ฌ ๋Œ€๊ทœ๋ชจ ์ด๋ฏธ์ง€-์ฝ”๋“œ ์Œ์„ ์ž๋™์œผ๋กœ ์ƒ์„ฑํ•˜๋Š” ๋ฐ์ดํ„ฐ ์—”์ง„์„ ๊ตฌ์ถ•ํ–ˆ์œผ๋ฉฐ, ์ด๋ฅผ ํ†ตํ•ด ์˜คํ”ˆ์†Œ์Šค ์‹œ๊ฐ-์–ธ์–ด ๋ชจ๋ธ์„ ๋ฏธ์„ธ ์กฐ์ •ํ•˜์—ฌ UI ์ดํ•ด๋„์™€ ์ฝ”๋“œ ํ’ˆ์งˆ์„ ํฌ๊ฒŒ ํ–ฅ์ƒ์‹œํ‚จ๋‹ค.

A Survey of Self-Evolving Agents: On Path to Artificial Super Intelligence

Paper, Project
์ด ๋…ผ๋ฌธ์€ ๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ(LLM)์ด ์ƒˆ๋กœ์šด ์ž‘์—…์ด๋‚˜ ์ง€์‹์— ์Šค์Šค๋กœ ์ ์‘ํ•˜์ง€ ๋ชปํ•˜๋Š” '์ •์ ์ธ' ํ•œ๊ณ„๋ฅผ ๋„˜์–ด, ์‹ค์‹œ๊ฐ„์œผ๋กœ ์ถ”๋ก ํ•˜๊ณ , ํ–‰๋™ํ•˜๋ฉฐ, ์ง„ํ™”ํ•  ์ˆ˜ ์žˆ๋Š” ์ž๊ธฐ ์ง„ํ™” ์—์ด์ „ํŠธ(Self-Evolving Agents)์— ๋Œ€ํ•œ ์ตœ์ดˆ์˜ ์ฒด๊ณ„์ ์ด๊ณ  ํฌ๊ด„์ ์ธ ์„œ๋ฒ ์ด๋‹ค. ์—ฐ๊ตฌ๋Š” ์ž๊ธฐ ์ง„ํ™” ์—์ด์ „ํŠธ๋ฅผ ์ดํ•ดํ•˜๊ธฐ ์œ„ํ•œ ์„ธ ๊ฐ€์ง€ ํ•ต์‹ฌ ์ฐจ์›, ์ฆ‰ ๋ฌด์—‡์„(what) ์ง„ํ™”์‹œํ‚ฌ ๊ฒƒ์ธ๊ฐ€, ์–ธ์ œ(when) ์ง„ํ™”ํ•  ๊ฒƒ์ธ๊ฐ€, ์–ด๋–ป๊ฒŒ(how) ์ง„ํ™”ํ•  ๊ฒƒ์ธ๊ฐ€๋ฅผ ์ค‘์‹ฌ์œผ๋กœ ๊ตฌ์„ฑ๋œ๋‹ค. ๊ฐ ์ฐจ์›์— ๋”ฐ๋ผ ์—์ด์ „ํŠธ์˜ ๊ตฌ์„ฑ ์š”์†Œ(๋ชจ๋ธ, ๋ฉ”๋ชจ๋ฆฌ, ๋„๊ตฌ ๋“ฑ)๋ณ„ ์ง„ํ™” ๋ฉ”์ปค๋‹ˆ์ฆ˜, ์ ์‘ ๋‹จ๊ณ„(ํ…Œ์ŠคํŠธ ์‹œ๊ฐ„ ๋‚ด/๊ฐ„), ๊ทธ๋ฆฌ๊ณ  ์ง„ํ™”๋ฅผ ์œ ๋„ํ•˜๋Š” ์•Œ๊ณ ๋ฆฌ์ฆ˜(๋ณด์ƒ, ํ”ผ๋“œ๋ฐฑ, ๋‹ค์ค‘ ์—์ด์ „ํŠธ ์‹œ์Šคํ…œ ๋“ฑ)์„ ๋ถ„์„ํ•œ๋‹ค. ๋˜ํ•œ, ์ž๊ธฐ ์ง„ํ™” ์—์ด์ „ํŠธ๋ฅผ ์œ„ํ•œ ํ‰๊ฐ€ ์ง€ํ‘œ, ๋ฒค์น˜๋งˆํฌ, ์‘์šฉ ๋ถ„์•ผ๋ฅผ ์กฐ๋ช…ํ•˜๊ณ , ์•ˆ์ „์„ฑ, ํ™•์žฅ์„ฑ ๋“ฑ ๋ฏธ๋ž˜ ์—ฐ๊ตฌ ๋ฐฉํ–ฅ์„ ์ œ์‹œํ•˜๋ฉฐ ์ธ๊ณต ์ดˆ์ง€๋Šฅ(ASI)์œผ๋กœ ๋‚˜์•„๊ฐ€๋Š” ๋กœ๋“œ๋งต์„ ์ œ๊ณตํ•œ๋‹ค.

ARC-Hunyuan-Video-7B: Structured Video Comprehension of Real-World Shorts

Paper, Project
์ด ๋…ผ๋ฌธ์€ ์œ„์ฑ— ์ฑ„๋„์ด๋‚˜ ํ‹ฑํ†ก๊ณผ ๊ฐ™์€ ํ”Œ๋žซํผ์—์„œ ์†Œ๋น„๋˜๋Š” ์‚ฌ์šฉ์ž ์ œ์ž‘ ์งง์€ ๋™์˜์ƒ(Shorts)์„ ๊นŠ์ด ์žˆ๊ฒŒ ์ดํ•ดํ•˜๊ธฐ ์œ„ํ•œ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๋ชจ๋ธ์ธ ARC-ํ›ˆ์œ„์•ˆ-๋น„๋””์˜ค(ARC-Hunyuan-Video)๋ฅผ ์†Œ๊ฐœํ•œ๋‹ค. ๊ธฐ์กด ๋ชจ๋ธ๋“ค์€ ์งง์€ ๋™์˜์ƒ์˜ ๋ณต์žกํ•œ ์‹œ๊ฐ ์š”์†Œ, ๋†’์€ ์ •๋ณด ๋ฐ€๋„, ๋น ๋ฅธ ์ „๊ฐœ ์†๋„๋ฅผ ์ œ๋Œ€๋กœ ์ฒ˜๋ฆฌํ•˜์ง€ ๋ชปํ–ˆ๋‹ค. ์ด ๋ชจ๋ธ์€ ๋น„๋””์˜ค, ์˜ค๋””์˜ค, ํ…์ŠคํŠธ ์‹ ํ˜ธ๋ฅผ ํ•œ ๋ฒˆ์— ์ฒ˜๋ฆฌํ•˜์—ฌ, ํƒ€์ž„์Šคํƒฌํ”„๊ฐ€ ์ฐํžŒ ์บก์…˜ ์ƒ์„ฑ ๋ฐ ์š”์•ฝ, ๊ฐœ๋ฐฉํ˜• ์งˆ๋ฌธ ๋‹ต๋ณ€, ์‹œ๊ฐ„์  ๋น„๋””์˜ค ํƒ์ง€ ๋“ฑ ๊ตฌ์กฐํ™”๋œ ๋น„๋””์˜ค ์ดํ•ด ์ž‘์—…์„ ์ˆ˜ํ–‰ํ•œ๋‹ค. ์ž๋™ํ™”๋œ ์ฃผ์„ ํŒŒ์ดํ”„๋ผ์ธ์œผ๋กœ ์ƒ์„ฑ๋œ ๊ณ ํ’ˆ์งˆ ๋ฐ์ดํ„ฐ๋กœ ์‚ฌ์ „ ํ•™์Šต, ๋ช…๋ น์–ด ๋ฏธ์„ธ ์กฐ์ •, ๊ฐ•ํ™”ํ•™์Šต ๋“ฑ ํฌ๊ด„์ ์ธ ํ›ˆ๋ จ์„ ๊ฑฐ์ณค๋‹ค. 70์–ต ๊ฐœ์˜ ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ๊ฐ€์ง„ ๋น„๊ต์  ์ž‘์€ ํฌ๊ธฐ์ž„์—๋„ ๋ถˆ๊ตฌํ•˜๊ณ , ์‹ค์ œ ์„œ๋น„์Šค์— ๋ฐฐํฌ๋˜์–ด ์‚ฌ์šฉ์ž ์ฐธ์—ฌ๋„์™€ ๋งŒ์กฑ๋„๋ฅผ ์‹ค์งˆ์ ์œผ๋กœ ํ–ฅ์ƒ์‹œ์ผฐ์œผ๋ฉฐ, 1๋ถ„ ๊ธธ์ด์˜ ๋น„๋””์˜ค๋ฅผ 10์ดˆ ๋งŒ์— ์ฒ˜๋ฆฌํ•˜๋Š” ๋†’์€ ํšจ์œจ์„ฑ์„ ๋ณด์—ฌ์ค€๋‹ค.

Seed-Prover: Deep and Broad Reasoning for Automated Theorem Proving

Paper, Project
์ด ๋…ผ๋ฌธ์€ ๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ(LLM)์„ ์ด์šฉํ•œ ์ž๋™ ์ •๋ฆฌ ์ฆ๋ช… ์‹œ์Šคํ…œ์ธ ์‹œ๋“œ-ํ”„๋ฃจ๋ฒ„(Seed-Prover)๋ฅผ ์ œ์•ˆํ•œ๋‹ค. ๊ธฐ์กด LLM์€ ์ž์—ฐ์–ด๋งŒ์œผ๋กœ๋Š” ๋ช…ํ™•ํ•œ ๊ฐ๋… ์‹ ํ˜ธ๊ฐ€ ๋ถ€์กฑํ•ด ์ •๋ฆฌ ์ฆ๋ช…์— ์–ด๋ ค์›€์„ ๊ฒช์—ˆ์ง€๋งŒ, ์ด ๋ชจ๋ธ์€ Lean๊ณผ ๊ฐ™์€ ํ˜•์‹ ๊ฒ€์ฆ ์–ธ์–ด๋ฅผ ํ™œ์šฉํ•˜์—ฌ ๋ช…ํ™•ํ•œ ํ”ผ๋“œ๋ฐฑ์„ ๋ฐ›๊ณ  ๊ฐ•ํ™”ํ•™์Šต์„ ํ†ตํ•ด ํšจ๊ณผ์ ์œผ๋กœ ํ›ˆ๋ จ๋œ๋‹ค. ์‹œ๋“œ-ํ”„๋ฃจ๋ฒ„๋Š” Lean์˜ ํ”ผ๋“œ๋ฐฑ, ์ด๋ฏธ ์ฆ๋ช…๋œ ๋ณด์กฐ์ •๋ฆฌ(lemma), ๊ทธ๋ฆฌ๊ณ  ์ž๊ธฐ ์š”์•ฝ(self-summarization)์„ ํ†ตํ•ด ์ฆ๋ช…์„ ๋ฐ˜๋ณต์ ์œผ๋กœ ๊ฐœ์„ ํ•  ์ˆ˜ ์žˆ๋‹ค. ํŠนํžˆ, ๊ตญ์ œ์ˆ˜ํ•™์˜ฌ๋ฆผํ”ผ์•„๋“œ(IMO) ์ˆ˜์ค€์˜ ๋ฌธ์ œ๋ฅผ ํ’€๊ธฐ ์œ„ํ•ด ๊นŠ๊ณ (deep) ๋„“์€(broad) ์ถ”๋ก ์„ ๋ชจ๋‘ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•˜๋Š” ์„ธ ๊ฐ€์ง€ ํ…Œ์ŠคํŠธ ์‹œ๊ฐ„ ์ถ”๋ก  ์ „๋žต์„ ์„ค๊ณ„ํ–ˆ๋‹ค. ๊ทธ ๊ฒฐ๊ณผ, ํ˜•์‹ํ™”๋œ ๊ณผ๊ฑฐ IMO ๋ฌธ์ œ์˜ 78.1%๋ฅผ ์ฆ๋ช…ํ•˜๊ณ  ์ฃผ์š” ๋ฒค์น˜๋งˆํฌ์—์„œ ๊ธฐ์กด ์ตœ๊ณ  ์„ฑ๋Šฅ์„ ํฐ ์ฐจ์ด๋กœ ๋›ฐ์–ด๋„˜์—ˆ์œผ๋ฉฐ, ๋ถ€์กฑํ–ˆ๋˜ ๊ธฐํ•˜ํ•™ ์ถ”๋ก ์„ ์œ„ํ•ด ์‹œ๋“œ-์ง€์˜ค๋ฉ”ํŠธ๋ฆฌ(Seed-Geometry) ์—”์ง„์„ ๊ฐœ๋ฐœํ•˜์—ฌ IMO 2025์—์„œ 6๋ฌธ์ œ ์ค‘ 5๋ฌธ์ œ๋ฅผ ์™„์ „ํžˆ ์ฆ๋ช…ํ•˜๋Š” ์„ฑ๊ณผ๋ฅผ ๊ฑฐ๋‘์—ˆ๋‹ค.

Deep Researcher with Test-Time Diffusion

Paper
์ด ๋…ผ๋ฌธ์€ ๋ณต์žกํ•˜๊ณ  ๊ธด ํ˜•์‹์˜ ์—ฐ๊ตฌ ๋ณด๊ณ ์„œ๋ฅผ ์ƒ์„ฑํ•˜๋Š” ๋”ฅ ๋ฆฌ์„œ์น˜ ์—์ด์ „ํŠธ์˜ ์„ฑ๋Šฅ ํ•œ๊ณ„๋ฅผ ๊ทน๋ณตํ•˜๊ธฐ ์œ„ํ•œ ์ƒˆ๋กœ์šด ํ”„๋ ˆ์ž„์›Œํฌ์ธ TTD-DR (Test-Time Diffusion Deep Researcher)์„ ์ œ์•ˆํ•œ๋‹ค. ์ธ๊ฐ„์˜ ์—ฐ๊ตฌ ๊ณผ์ •์ด ๊ฒ€์ƒ‰, ์ถ”๋ก , ์ˆ˜์ •์„ ๋ฐ˜๋ณตํ•˜๋Š” ๊ฒƒ์—์„œ ์˜๊ฐ์„ ๋ฐ›์•„, ๋ณด๊ณ ์„œ ์ƒ์„ฑ ๊ณผ์ •์„ ํ™•์‚ฐ ๊ณผ์ •(diffusion process)์œผ๋กœ ๊ฐœ๋…ํ™”ํ–ˆ๋‹ค. TTD-DR์€ ์—ฐ๊ตฌ ๋ฐฉํ–ฅ์˜ ๊ธฐ๋ฐ˜์ด ๋˜๋Š” ์ดˆ๊ธฐ ์ดˆ์•ˆ(skeleton)์œผ๋กœ ์‹œ์ž‘ํ•˜์—ฌ, ๊ฐ ๋‹จ๊ณ„์—์„œ ์™ธ๋ถ€ ์ •๋ณด๋ฅผ ํ†ตํ•ฉํ•˜๋Š” ๊ฒ€์ƒ‰ ๋ฉ”์ปค๋‹ˆ์ฆ˜์„ ํ†ตํ•ด ์ดˆ์•ˆ์„ ๋ฐ˜๋ณต์ ์œผ๋กœ ์ •์ œ("denoising")ํ•œ๋‹ค. ์ด ๊ณผ์ •์€ ์—์ด์ „ํŠธ ์›Œํฌํ”Œ๋กœ์šฐ์˜ ๊ฐ ๊ตฌ์„ฑ ์š”์†Œ์— ์ ์šฉ๋œ ์ž๊ธฐ ์ง„ํ™” ์•Œ๊ณ ๋ฆฌ์ฆ˜์— ์˜ํ•ด ๋”์šฑ ํ–ฅ์ƒ๋œ๋‹ค. ์ด๋Ÿฌํ•œ ์ดˆ์•ˆ ์ค‘์‹ฌ ์„ค๊ณ„๋Š” ๋ณด๊ณ ์„œ ์ž‘์„ฑ ๊ณผ์ •์„ ๋” ์‹œ์˜์ ์ ˆํ•˜๊ณ  ์ผ๊ด€์„ฑ ์žˆ๊ฒŒ ๋งŒ๋“ค๋ฉฐ, ๋ฐ˜๋ณต์ ์ธ ๊ฒ€์ƒ‰ ๊ณผ์ •์—์„œ ๋ฐœ์ƒํ•˜๋Š” ์ •๋ณด ์†์‹ค์„ ์ค„์ธ๋‹ค. TTD-DR์€ ์‹ฌ์ธต์ ์ธ ๊ฒ€์ƒ‰๊ณผ ๋‹ค๋‹จ๊ณ„ ์ถ”๋ก ์ด ํ•„์š”ํ•œ ์—ฌ๋Ÿฌ ๋ฒค์น˜๋งˆํฌ์—์„œ ๊ธฐ์กด ๋”ฅ ๋ฆฌ์„œ์น˜ ์—์ด์ „ํŠธ๋ฅผ ํฌ๊ฒŒ ๋Šฅ๊ฐ€ํ•˜๋Š” ์ตœ๊ณ  ์ˆ˜์ค€์˜ ์„ฑ๋Šฅ์„ ๋ณด์ธ๋‹ค.

Falcon-H1: A Family of Hybrid-Head Language Models Redefining Efficiency and Performance

Paper, Project
์ด ๋…ผ๋ฌธ์€ ๋†’์€ ์„ฑ๋Šฅ๊ณผ ํšจ์œจ์„ฑ์„ ๋ชจ๋‘ ์ตœ์ ํ™”ํ•œ ์ƒˆ๋กœ์šด ๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ(LLM) ์‹œ๋ฆฌ์ฆˆ์ธ ํŒ”์ฝ˜-H1(Falcon-H1)์„ ์†Œ๊ฐœํ•œ๋‹ค. ๊ธฐ์กด ํŒ”์ฝ˜ ๋ชจ๋ธ๊ณผ ๋‹ฌ๋ฆฌ, ํŒ”์ฝ˜-H1์€ ํŠธ๋žœ์Šคํฌ๋จธ ๊ธฐ๋ฐ˜์˜ ์–ดํ…์…˜๊ณผ ๊ธด ์ปจํ…์ŠคํŠธ ์ฒ˜๋ฆฌ ๋ฐ ๊ณ„์‚ฐ ํšจ์œจ์„ฑ์ด ๋›ฐ์–ด๋‚œ ์ƒํƒœ ๊ณต๊ฐ„ ๋ชจ๋ธ(SSM)์„ ๊ฒฐํ•ฉํ•œ ๋ณ‘๋ ฌ ํ•˜์ด๋ธŒ๋ฆฌ๋“œ ์•„ํ‚คํ…์ฒ˜๋ฅผ ์ฑ„ํƒํ–ˆ๋‹ค. 0.5B๋ถ€ํ„ฐ 34B ํŒŒ๋ผ๋ฏธํ„ฐ๊นŒ์ง€ ๋‹ค์–‘ํ•œ ํฌ๊ธฐ์˜ ๋ชจ๋ธ๋กœ ์ถœ์‹œ๋˜์—ˆ์œผ๋ฉฐ, ๋ฒค์น˜๋งˆํฌ ํ…Œ์ŠคํŠธ์—์„œ ๋›ฐ์–ด๋‚œ ํŒŒ๋ผ๋ฏธํ„ฐ ๋ฐ ํ•™์Šต ํšจ์œจ์„ฑ์„ ์ž…์ฆํ–ˆ๋‹ค. ๋Œ€ํ‘œ ๋ชจ๋ธ์ธ ํŒ”์ฝ˜-H1-34B๋Š” Qwen3-32B, Llama3.3-70B์™€ ๊ฐ™์ด ํ›จ์”ฌ ๋” ํฐ ๋ชจ๋ธ๊ณผ ๋™๋“ฑํ•˜๊ฑฐ๋‚˜ ๋” ๋‚˜์€ ์„ฑ๋Šฅ์„ ๋ณด์ด๋ฉด์„œ๋„ ๋” ์ ์€ ํŒŒ๋ผ๋ฏธํ„ฐ์™€ ๋ฐ์ดํ„ฐ๋ฅผ ์‚ฌ์šฉํ–ˆ๋‹ค. ์ž‘์€ ๋ชจ๋ธ๋“ค ์—ญ์‹œ ๋น„์Šทํ•œ ๊ฒฝํ–ฅ์„ ๋ณด์—ฌ, 1.5B ๋ชจ๋ธ์ด ํ˜„์žฌ ์ฃผ๋ ฅ์ธ 7B-10B ๋ชจ๋ธ๊ณผ ๊ฒฝ์Ÿํ•˜๊ณ , 0.5B ๋ชจ๋ธ์ด 2024๋…„์˜ ์ผ๋ฐ˜์ ์ธ 7B ๋ชจ๋ธ๊ณผ ๋น„์Šทํ•œ ์„ฑ๋Šฅ์„ ๋‚ธ๋‹ค. ์ด ๋ชจ๋ธ๋“ค์€ ์ตœ๋Œ€ 256K์˜ ์ปจํ…์ŠคํŠธ ๊ธธ์ด์™€ 18๊ฐœ ์–ธ์–ด๋ฅผ ์ง€์›ํ•˜๋ฉฐ, ํ—ˆ์šฉ์ ์ธ ์˜คํ”ˆ์†Œ์Šค ๋ผ์ด์„ ์Šค๋กœ ๊ณต๊ฐœ๋˜์—ˆ๋‹ค.

BANG: Dividing 3D Assets via Generative Exploded Dynamics

Paper, Project
์ด ๋…ผ๋ฌธ์€ ์ธ๊ฐ„์ด ์‚ฌ๋ฌผ์„ ๋ถ„ํ•ดํ•˜๊ณ  ์žฌ์กฐ๋ฆฝํ•˜๋Š” ์ง๊ด€์ ์ธ ๋ฐฉ์‹์„ ๋ชจ๋ฐฉํ•˜์—ฌ 3D ๊ฐ์ฒด๋ฅผ ๋ถ€ํ’ˆ ๋‹จ์œ„๋กœ ์œ ์—ฐํ•˜๊ฒŒ ๋ถ„ํ•ดํ•  ์ˆ˜ ์žˆ๋Š” ์ƒˆ๋กœ์šด ์ƒ์„ฑํ˜• ์ ‘๊ทผ๋ฒ•์ธ BANG์„ ์ œ์•ˆํ•œ๋‹ค. BANG์˜ ํ•ต์‹ฌ์€ ์ƒ์„ฑ์  ๋ถ„ํ•ด ๋™์—ญํ•™(Generative Exploded Dynamics)์ด๋ผ๋Š” ๊ฐœ๋…์œผ๋กœ, ์ž…๋ ฅ๋œ 3D ๋ชจ๋ธ์— ๋Œ€ํ•ด ๋ถ€ํ’ˆ๋“ค์ด ์ ์ง„์ ์œผ๋กœ ๋ถ„๋ฆฌ๋˜๋Š” ๋ถ€๋“œ๋Ÿฌ์šด '๋ถ„ํ•ด๋„' ์‹œํ€€์Šค๋ฅผ ์ƒ์„ฑํ•œ๋‹ค. ์ด ๊ณผ์ •์—์„œ ๊ฐ ๋ถ€ํ’ˆ์˜ ๊ธฐํ•˜ํ•™์ , ์˜๋ฏธ์  ์ผ๊ด€์„ฑ์€ ์œ ์ง€๋œ๋‹ค. BANG์€ ์‚ฌ์ „ ํ›ˆ๋ จ๋œ ๋Œ€๊ทœ๋ชจ ์ž ์žฌ ํ™•์‚ฐ ๋ชจ๋ธ(latent diffusion model)์„ ๊ฒฝ๋Ÿ‰ ์–ด๋Œ‘ํ„ฐ๋ฅผ ์‚ฌ์šฉํ•ด ๋ฏธ์„ธ ์กฐ์ •ํ•˜์—ฌ ๋ถ„ํ•ด ๊ณผ์ •์„ ์ •๋ฐ€ํ•˜๊ฒŒ ์ œ์–ดํ•œ๋‹ค. ๋˜ํ•œ, ๋ฐ”์šด๋”ฉ ๋ฐ•์Šค๋‚˜ ํ‘œ๋ฉด ์˜์—ญ ๊ฐ™์€ ๊ณต๊ฐ„์  ํ”„๋กฌํ”„ํŠธ๋ฅผ ํ†ตํ•ด ์‚ฌ์šฉ์ž๊ฐ€ ์–ด๋–ค ๋ถ€๋ถ„์„ ์–ด๋–ป๊ฒŒ ๋ถ„ํ•ดํ• ์ง€ ์ง€์ •ํ•  ์ˆ˜ ์žˆ์œผ๋ฉฐ, GPT-4์™€ ๊ฐ™์€ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๋ชจ๋ธ๊ณผ ์—ฐ๋™ํ•˜์—ฌ ๋”์šฑ ์ง๊ด€์ ์ธ ์ž‘์—…๋„ ๊ฐ€๋Šฅํ•˜๋‹ค. ์ด ๊ธฐ์ˆ ์€ ๋ถ€ํ’ˆ๋ณ„ ์ƒ์„ธ ํ˜•์ƒ ์ƒ์„ฑ, ๊ธฐ๋Šฅ ์„ค๋ช… ์—ฐ๊ฒฐ, 3D ํ”„๋ฆฐํŒ… ์‹œ ์กฐ๋ฆฝ์ด ์šฉ์ดํ•˜๋„๋ก ๋ถ€ํ’ˆ์„ ๋ถ„๋ฆฌ ์ƒ์„ฑํ•˜๋Š” ๋“ฑ ๋‹ค์–‘ํ•œ ์‘์šฉ ๋ถ„์•ผ์— ํ™œ์šฉ๋  ์ˆ˜ ์žˆ๋‹ค.

profile
XR๊ณผ AI์— ๊ด€์‹ฌ์ด ๋งŽ์€ Sky ์ž…๋‹ˆ๋‹ค.

0๊ฐœ์˜ ๋Œ“๊ธ€