[2025/W12] ๐Ÿค— Weekly AI Research

Skyยท2025๋…„ 3์›” 22์ผ

Weekly AI Research Digest

๋ชฉ๋ก ๋ณด๊ธฐ
12/89

2025๋…„ 12์ฃผ์ฐจ์— ๊ณต๊ฐœ๋œ ์ฃผ๋ชฉํ• ๋งŒํ•œ AI ๋ถ„์•ผ์˜ ๋…ผ๋ฌธ๋“ค์„ ์†Œ๊ฐœํ•ฉ๋‹ˆ๋‹ค.

TL;DR

์–ธ์–ด ๋ชจ๋ธ ๋ฐ ๋น„์ „-์–ธ์–ด ๋ชจ๋ธ ๋ถ„์•ผ์—์„œ๋Š” RWKV-7 "Goose"๊ฐ€ ์ƒˆ๋กœ์šด ์‹œํ€€์Šค ๋ชจ๋ธ๋ง ์•„ํ‚คํ…์ฒ˜๋ฅผ ๋„์ž…ํ•˜์—ฌ ๋‹ค๊ตญ์–ด์™€ ์˜์–ด ์ž‘์—…์—์„œ ์šฐ์ˆ˜ํ•œ ์„ฑ๋Šฅ์„ ๋ณด์—ฌ์ฃผ๊ณ , DAPO๋Š” ๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ์˜ ๊ฐ•ํ™”ํ•™์Šต ์‹œ์Šคํ…œ์„ ํ†ตํ•ด ๋ณต์žกํ•œ ์ถ”๋ก  ๋Šฅ๋ ฅ์„ ๊ฐ•ํ™”ํ•˜๋Š” ๊ธฐ๋ฒ•์„ ์ ์šฉํ•˜๋ฉฐ, SmolDocling์€ ์ดˆ์†Œํ˜• ๋น„์ „-์–ธ์–ด ๋ชจ๋ธ์„ ํ™œ์šฉํ•˜์—ฌ ๋ฌธ์„œ์˜ ๋‚ด์šฉ, ๊ตฌ์กฐ, ๊ณต๊ฐ„ ์ •๋ณด๋ฅผ ํ•œ ๋ฒˆ์— ๋ณ€ํ™˜ํ•˜๋Š” ๊ธฐ์ˆ ์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.

๋น„๋””์˜ค ์ƒ์„ฑ ๋ฐ ์ดํ•ด ๋ถ„์•ผ์—์„œ๋Š” ReCamMaster๊ฐ€ ๋‹จ์ผ ๋น„๋””์˜ค์˜ ์นด๋ฉ”๋ผ ๊ฒฝ๋กœ๋ฅผ ์กฐ์ ˆํ•ด ์ƒˆ๋กœ์šด ๋น„๋””์˜ค๋ฅผ ์ƒ์„ฑํ•˜๋Š” ๋ฐฉ๋ฒ•์„ ์ œ์‹œํ•˜๊ณ , DropletVideo๋Š” ๋‹ค์ˆ˜์˜ ๋™์  ์นด๋ฉ”๋ผ ์›€์ง์ž„๊ณผ ์ƒ์„ธ ์บก์…˜์„ ํฌํ•จํ•˜๋Š” ๋ฐ์ดํ„ฐ์…‹๊ณผ ๊ธฐ๋ฒ•์„ ํ†ตํ•ด ์‹œ๊ณต๊ฐ„์  ์ผ๊ด€์„ฑ์„ ์œ ์ง€ํ•˜๋Š” ์ž์—ฐ์Šค๋Ÿฌ์šด ๋น„๋””์˜ค ์ƒ์„ฑ์„ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•˜๋ฉฐ, Impossible Videos๋Š” ๋ถˆ๊ฐ€๋Šฅํ•˜๊ฑฐ๋‚˜ ๋ฐ˜ํ˜„์‹ค์ ์ธ ๋น„๋””์˜ค ์ฝ˜ํ…์ธ ๋ฅผ ์ƒ์„ฑํ•˜๊ณ  ์ด๋ฅผ ์ดํ•ดํ•˜๋Š” ๋ชจ๋ธ์˜ ์„ฑ๋Šฅ์„ ํ‰๊ฐ€ํ•˜๊ธฐ ์œ„ํ•œ ์ƒˆ๋กœ์šด ํ‰๊ฐ€ ์ฒด๊ณ„๋ฅผ ๋งˆ๋ จํ•˜์˜€์Šต๋‹ˆ๋‹ค.

ํ™•์‚ฐ ๋ชจ๋ธ ๋ฐ 3D ์ƒ์„ฑ ๋ถ„์•ผ์—์„œ๋Š” PLADIS๊ฐ€ ํฌ์†Œ ์–ดํ…์…˜ ๊ธฐ๋ฒ•์„ ํ™œ์šฉํ•˜์—ฌ ํ…์ŠคํŠธ-ํˆฌ-์ด๋ฏธ์ง€ ํ™•์‚ฐ ๋ชจ๋ธ์˜ ์–ดํ…์…˜ ์„ฑ๋Šฅ์„ ๊ฐœ์„ ํ•˜๋Š” ๋ฐฉ๋ฒ•์„ ์ œ์•ˆํ•˜๊ณ , One-Step Residual Shifting Diffusion์€ ์ด๋ฏธ์ง€ ์ดˆํ•ด์ƒ๋„๋ฅผ ์œ„ํ•œ ์ฆ๋ฅ˜ ๊ธฐ๋ฐ˜ ํ™•์‚ฐ ๋ชจ๋ธ๋กœ ๋‹จ์ผ ๋‹จ๊ณ„ ๋ณต์›์„ ํ†ตํ•ด ๊ณ„์‚ฐ ๋น„์šฉ์„ ์ค„์ด๋ฉด์„œ ์„ฑ๋Šฅ์„ ํ–ฅ์ƒ์‹œํ‚ค๋ฉฐ, DeepMesh๋Š” ๊ฐ•ํ™”ํ•™์Šต ๊ธฐ๋ฐ˜ ์˜คํ† ๋ฆฌ๊ทธ๋ ˆ์‹œ๋ธŒ ๋ฐฉ๋ฒ•์„ ์ด์šฉํ•ด 3D ๋ฉ”์‹œ๋ฅผ ์ƒ์„ฑํ•˜์—ฌ ๋ณต์žกํ•œ ์„ธ๋ถ€ ๋ฌ˜์‚ฌ์™€ ์ •๋ฐ€ํ•œ ํ† ํด๋กœ์ง€๋ฅผ ๊ตฌํ˜„ํ•˜๊ณ , FlashVDM์€ Vecset Diffusion Model์—์„œ VAE์™€ DiT์˜ ๋””์ฝ”๋”ฉ ์†๋„๋ฅผ ํฌ๊ฒŒ ํ–ฅ์ƒ์‹œ์ผœ ๋น ๋ฅธ 3D ํ˜•ํƒœ ์ƒ์„ฑ์„ ์‹คํ˜„ํ•˜๋ฉฐ, Infinite Mobility๋Š” ์ ˆ์ฐจ์  ์ƒ์„ฑ ๊ธฐ๋ฒ•์„ ์ ์šฉํ•ด ๊ณ ์ถฉ์‹ค๋„์˜ ๊ด€์ ˆํ˜• 3D ๊ฐ์ฒด๋ฅผ ํ•ฉ์„ฑํ•˜๋Š” ๋ฐฉ๋ฒ•์„ ๊ฐœ๋ฐœํ•˜์˜€์Šต๋‹ˆ๋‹ค.

๋กœ๋ด‡ ๋ฐ ์ž„๋ฒ ๋””๋“œ ์—์ด์ „ํŠธ ๋ถ„์•ผ์—์„œ๋Š” Being-0๊ฐ€ ๋น„์ „-์–ธ์–ด ๋ชจ๋ธ๊ณผ ๋ชจ๋“ˆ์‹ ์Šคํ‚ฌ ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ๋ฅผ ๊ฒฐํ•ฉํ•˜์—ฌ ๋ณต์žกํ•œ ์ž„๋ฒ ๋””๋“œ ์ž‘์—…๊ณผ ์‹ค์‹œ๊ฐ„ ์ œ์–ด๊ฐ€ ํ•„์š”ํ•œ ํœด๋จธ๋…ธ์ด๋“œ ๋กœ๋ด‡ ์—์ด์ „ํŠธ๋ฅผ ๊ตฌํ˜„ํ•จ์œผ๋กœ์จ ์ž์œจ ๋กœ๋ด‡ ๋ถ„์•ผ์˜ ๋ฐœ์ „์„ ์ด๋Œ๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค.

์–ธ์–ด ๋ชจ๋ธ ๋ฐ ๋น„์ „-์–ธ์–ด ๋ชจ๋ธ

RWKV-7 "Goose" with Expressive Dynamic State Evolution

Paper, Project

RWKV-7 "Goose"๋Š” ์ƒˆ๋กœ์šด ์‹œํ€€์Šค ๋ชจ๋ธ๋ง ์•„ํ‚คํ…์ฒ˜์ž…๋‹ˆ๋‹ค. ์ด ๋ชจ๋ธ์€ 30์–ต ํŒŒ๋ผ๋ฏธํ„ฐ ๊ทœ๋ชจ์—์„œ ๋‹ค๊ตญ์–ด ์ž‘์—…์— ๋Œ€ํ•ด ์ตœ์ฒจ๋‹จ ์„ฑ๋Šฅ์„ ๋‹ฌ์„ฑํ•˜์˜€์œผ๋ฉฐ, ๋‹ค๋ฅธ ๋ชจ๋ธ๋ณด๋‹ค ํ›จ์”ฌ ์ ์€ ํ•™์Šต ํ† ํฐ์œผ๋กœ๋„ ์˜์–ด ์ž‘์—…์—์„œ ์šฐ์ˆ˜ํ•œ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ž…๋‹ˆ๋‹ค. ๊ฐ ํ† ํฐ ์ฒ˜๋ฆฌ ์‹œ ์ƒ์ˆ˜ ๋ฉ”๋ชจ๋ฆฌ์™€ ์ƒ์ˆ˜ ์ถ”๋ก  ์‹œ๊ฐ„์„ ์‚ฌ์šฉํ•˜์—ฌ ํšจ์œจ์„ฑ์ด ๋งค์šฐ ๋†’์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ, ๋ฒกํ„ฐ ๊ฐ’ ๊ฒŒ์ดํŒ…๊ณผ ๋ฌธ๋งฅ ๋‚ด ํ•™์Šต๋ฅ ์„ ํฌํ•จํ•œ ์ƒˆ๋กœ์šด ๋ธํƒ€ ๊ทœ์น™ ์ผ๋ฐ˜ํ™” ๋ฐฉ์‹๊ณผ ์™„ํ™”๋œ ๊ฐ’ ๊ต์ฒด ๊ทœ์น™์„ ๋„์ž…ํ•˜์—ฌ, ๋ชจ๋ธ์ด ์ƒํƒœ๋ฅผ ํšจ๊ณผ์ ์œผ๋กœ ์ถ”์ ํ•˜๊ณ  ๋ชจ๋“  ์ •๊ทœ ์–ธ์–ด๋ฅผ ์ธ์‹ํ•  ์ˆ˜ ์žˆ๋„๋ก ์„ค๊ณ„ํ•˜์˜€์Šต๋‹ˆ๋‹ค. ๋”๋ถˆ์–ด, ํ•™์Šต ์‹œ ๋ณ‘๋ ฌ ์ฒ˜๋ฆฌ๊ฐ€ ๊ฐ€๋Šฅํ•˜์—ฌ Transformer ๋ชจ๋ธ์˜ ํ•œ๊ณ„๋ฅผ ๋„˜์–ด์„œ๋Š” ์„ฑ๋Šฅ์„ ๊ตฌํ˜„ํ•˜์˜€์Šต๋‹ˆ๋‹ค. ๋งˆ์ง€๋ง‰์œผ๋กœ, 3.1์กฐ ํ† ํฐ ๊ทœ๋ชจ์˜ ๋Œ€๊ทœ๋ชจ ๋‹ค๊ตญ์–ด ๋ฐ์ดํ„ฐ์…‹์„ ํ™œ์šฉํ•˜์—ฌ 1.9์–ต์—์„œ 29์–ต ํŒŒ๋ผ๋ฏธํ„ฐ์— ์ด๋ฅด๋Š” ๋„ค ๊ฐ€์ง€ ๋ชจ๋ธ์„ ํ•™์Šต์‹œ์ผœ ์—ฐ๊ตฌ์˜ ์žฌํ˜„์„ฑ๊ณผ ๊ฐœ๋ฐฉ์„ฑ์„ ๋†’์˜€์Šต๋‹ˆ๋‹ค.

DAPO: An Open-Source LLM Reinforcement Learning System at Scale

Paper, Project

DAPO๋Š” ๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ(LLM)์˜ ์ถ”๋ก  ๋Šฅ๋ ฅ์„ ๊ฐ•ํ™”ํ•™์Šต์„ ํ†ตํ•ด ๋†’์ด๊ธฐ ์œ„ํ•œ ์˜คํ”ˆ ์†Œ์Šค ์‹œ์Šคํ…œ์ž…๋‹ˆ๋‹ค. ์ตœ์‹  ์–ธ์–ด ๋ชจ๋ธ์€ ๋ณต์žกํ•œ ๋ฌธ์ œ ํ•ด๊ฒฐ์„ ์œ„ํ•ด ์ถ”๋ก  ์Šค์ผ€์ผ๋ง์„ ์ง„ํ–‰ํ•˜์ง€๋งŒ, ๊ฐ•ํ™”ํ•™์Šต ๊ด€๋ จ ์„ธ๋ถ€ ๊ธฐ์ˆ ์ด ๊ณต๊ฐœ๋˜์ง€ ์•Š์•„ ์—ฐ๊ตฌ์ž๋“ค์ด ์žฌํ˜„ํ•˜๋Š” ๋ฐ ์–ด๋ ค์›€์„ ๊ฒช์—ˆ์Šต๋‹ˆ๋‹ค. ์ด์— DAPO๋Š” Decoupled Clip๊ณผ Dynamic Sampling Policy Optimization์ด๋ผ๋Š” ์ƒˆ๋กœ์šด ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ ๋„์ž…ํ•˜์—ฌ, ๋Œ€๊ทœ๋ชจ ๋ชจ๋ธ์˜ ๊ฐ•ํ™”ํ•™์Šต์— ํ•„์š”ํ•œ ๋„ค ๊ฐ€์ง€ ํ•ต์‹ฌ ๊ธฐ๋ฒ•์„ ์ ์šฉํ•˜์˜€์Šต๋‹ˆ๋‹ค. ์ด์™€ ํ•จ๊ป˜, ๊ด€๋ จ ํ•™์Šต ์ฝ”๋“œ์™€ ์ •์ œ๋œ ๋ฐ์ดํ„ฐ์…‹์„ ๊ณต๊ฐœํ•˜์—ฌ ์—ฐ๊ตฌ์˜ ์žฌํ˜„์„ฑ์„ ๋†’์ด๊ณ , ํ–ฅํ›„ ๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ ๊ฐ•ํ™”ํ•™์Šต ์—ฐ๊ตฌ์— ๊ธฐ์—ฌํ•  ์ˆ˜ ์žˆ๋„๋ก ํ•˜์˜€์Šต๋‹ˆ๋‹ค.

SmolDocling: An ultra-compact vision-language model for end-to-end multi-modal document conversion

Paper, Project

SmolDocling์€ ๋ฌธ์„œ์˜ ๋‚ด์šฉ, ๊ตฌ์กฐ, ๊ทธ๋ฆฌ๊ณ  ๊ณต๊ฐ„ ์ •๋ณด๋ฅผ ๋ชจ๋‘ ํฌ๊ด„ํ•˜์—ฌ ๋ณ€ํ™˜ํ•˜๋Š” ์ดˆ์†Œํ˜• ๋น„์ „-์–ธ์–ด ๋ชจ๋ธ์ž…๋‹ˆ๋‹ค. ์ด ๋ชจ๋ธ์€ ํ•œ ํŽ˜์ด์ง€ ์ „์ฒด๋ฅผ ํ•œ ๋ฒˆ์— ์ฒ˜๋ฆฌํ•˜๋ฉฐ, ๋ฌธ์„œ ๋‚ด์˜ ์ฝ”๋“œ, ํ…Œ์ด๋ธ”, ๋ฐฉ์ •์‹, ์ฐจํŠธ ๋“ฑ ๋‹ค์–‘ํ•œ ์š”์†Œ๋“ค์„ ์œ„์น˜ ์ •๋ณด์™€ ํ•จ๊ป˜ ์ •ํ™•ํ•˜๊ฒŒ ์ธ์‹ํ•ฉ๋‹ˆ๋‹ค. ๊ธฐ์กด์˜ ๋ฐฉ์‹์€ ๋Œ€๊ทœ๋ชจ ๊ธฐ์ดˆ ๋ชจ๋ธ์ด๋‚˜ ์—ฌ๋Ÿฌ ๋ชจ๋ธ์„ ์กฐํ•ฉํ•˜๋Š” ๋ณต์žกํ•œ ํŒŒ์ดํ”„๋ผ์ธ์„ ์‚ฌ์šฉํ•˜์˜€์œผ๋‚˜, SmolDocling์€ 2์–ต 5600๋งŒ ํŒŒ๋ผ๋ฏธํ„ฐ ์ •๋„์˜ ๊ฒฝ๋Ÿ‰ ๋ชจ๋ธ๋กœ์„œ๋„ ๋†’์€ ์„ฑ๋Šฅ์„ ๋ณด์ž…๋‹ˆ๋‹ค. ์ถ”๊ฐ€๋กœ, ์ƒˆ๋กœ์šด ๊ณต๊ฐœ ๋ฐ์ดํ„ฐ์…‹์„ ํ™œ์šฉํ•˜์—ฌ ๋ชจ๋ธ์˜ ์„ฑ๋Šฅ์„ ํ–ฅ์ƒ์‹œ์ผฐ์œผ๋ฉฐ, ๊ณ„์‚ฐ ๋น„์šฉ์„ ํฌ๊ฒŒ ์ ˆ๊ฐํ•˜์˜€์Šต๋‹ˆ๋‹ค.

๋น„๋””์˜ค ์ƒ์„ฑ ๋ฐ ์ดํ•ด

ReCamMaster: Camera-Controlled Generative Rendering from A Single Video

Paper, Project

ReCamMaster๋Š” ํ•œ ๊ฐœ์˜ ๋น„๋””์˜ค๋งŒ์œผ๋กœ ์นด๋ฉ”๋ผ์˜ ์›€์ง์ž„์„ ์กฐ์ ˆํ•˜์—ฌ ์ƒˆ๋กœ์šด ๋น„๋””์˜ค๋ฅผ ์ƒ์„ฑํ•˜๋Š” ๋ฐฉ๋ฒ•์ž…๋‹ˆ๋‹ค. ๊ธฐ์กด ์—ฐ๊ตฌ๋Š” ํ…์ŠคํŠธ๋‚˜ ์ด๋ฏธ์ง€ ์กฐ๊ฑด์˜ ๋น„๋””์˜ค ์ƒ์„ฑ์— ์ฃผ๋กœ ์ง‘์ค‘ํ•˜์˜€์œผ๋‚˜, ์ฃผ์–ด์ง„ ๋น„๋””์˜ค์˜ ์นด๋ฉ”๋ผ ๊ฒฝ๋กœ๋ฅผ ์ˆ˜์ •ํ•˜๋Š” ๋ฌธ์ œ๋Š” ์ƒ๋Œ€์ ์œผ๋กœ ๋œ ์—ฐ๊ตฌ๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ์ด ๋ฐฉ๋ฒ•์€ ์—ฌ๋Ÿฌ ํ”„๋ ˆ์ž„์—์„œ ์ผ๊ด€๋œ ์™ธ๊ด€์„ ์œ ์ง€ํ•˜๋ฉด์„œ, ๋™์  ์žฅ๋ฉด์„ ์ƒˆ๋กœ์šด ์นด๋ฉ”๋ผ ๊ฒฝ๋กœ์—์„œ ์ž์—ฐ์Šค๋Ÿฝ๊ฒŒ ์žฌํ˜„ํ•  ์ˆ˜ ์žˆ๋„๋ก ํ•ฉ๋‹ˆ๋‹ค. ์‚ฌ์ „ ํ•™์Šต๋œ ํ…์ŠคํŠธ-ํˆฌ-๋น„๋””์˜ค ๋ชจ๋ธ์˜ ์ƒ์„ฑ ๋Šฅ๋ ฅ์„ ํ™œ์šฉํ•˜๊ณ , ์‹ค์ œ ์ดฌ์˜ ํ™˜๊ฒฝ์˜ ํŠน์„ฑ์„ ๋ฐ˜์˜ํ•œ ๋‹ค์ค‘ ์นด๋ฉ”๋ผ ๋™๊ธฐํ™” ๋น„๋””์˜ค ๋ฐ์ดํ„ฐ์…‹์„ ๊ตฌ์ถ•ํ•˜์—ฌ ๋ชจ๋ธ์˜ ์ผ๋ฐ˜ํ™” ๋Šฅ๋ ฅ์„ ํ–ฅ์ƒ์‹œ์ผฐ์Šต๋‹ˆ๋‹ค. ์‹คํ—˜ ๊ฒฐ๊ณผ, ๋ณธ ๊ธฐ๋ฒ•์€ ๊ธฐ์กด ๋ฐฉ๋ฒ•๋ณด๋‹ค ์šฐ์ˆ˜ํ•œ ์„ฑ๋Šฅ์„ ๋ณด์˜€์œผ๋ฉฐ, ๋น„๋””์˜ค ์•ˆ์ •ํ™”, ์ดˆํ•ด์ƒ๋„ ๋ฐ ์•„์›ƒํŽ˜์ธํŒ… ๋“ฑ ๋‹ค์–‘ํ•œ ์‘์šฉ ๋ถ„์•ผ์— ํ™œ์šฉ๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

DropletVideo: A Dataset and Approach to Explore Integral Spatio-Temporal Consistent Video Generation

Paper, Project

DropletVideo๋Š” ๋น„๋””์˜ค ์ƒ์„ฑ ์‹œ ์‹œ๊ณต๊ฐ„์˜ ์ผ๊ด€์„ฑ์„ ์œ ์ง€ํ•˜๋Š” ๋ฐฉ๋ฒ•์„ ์ œ์‹œํ•˜๋Š” ์—ฐ๊ตฌ์ž…๋‹ˆ๋‹ค. ์ƒ์„ฑ๋œ ๋น„๋””์˜ค๋Š” ๋‹ค์–‘ํ•œ ์‹œ์ ์—์„œ ๊ฐ์ฒด์™€ ์žฅ๋ฉด์˜ ์™ธ๊ด€์ด ์ผ๊ด€๋˜๊ฒŒ ์œ ์ง€๋˜์–ด์•ผ ํ•˜๋ฉฐ, ํ”Œ๋กฏ์˜ ํƒ€๋‹น์„ฑ๊ณผ ๋…ผ๋ฆฌ์  ์—ฐ์†์„ฑ์„ ๋ณด์žฅํ•ด์•ผ ํ•ฉ๋‹ˆ๋‹ค. ๊ธฐ์กด ์—ฐ๊ตฌ๋Š” ์ฃผ๋กœ ์‹œ๊ฐ„์  ์ผ๊ด€์„ฑ ๋˜๋Š” ๊ณต๊ฐ„์  ์ผ๊ด€์„ฑ์—๋งŒ ์ง‘์ค‘ํ•˜์˜€์œผ๋‚˜, DropletVideo๋Š” ์นด๋ฉ”๋ผ์˜ ์›€์ง์ž„์ด ํ”Œ๋กฏ ์ „๊ฐœ์— ๋ฏธ์น˜๋Š” ์žฅ๊ธฐ์  ์˜ํ–ฅ์„ ๋™์‹œ์— ๊ณ ๋ คํ•ฉ๋‹ˆ๋‹ค. ์ด๋ฅผ ์œ„ํ•ด ๋™์  ์นด๋ฉ”๋ผ ์›€์ง์ž„๊ณผ ๊ฐ์ฒด ํ–‰๋™์„ ํฌํ•จํ•˜๋Š” 1,000๋งŒ ๊ฐœ์˜ ๋น„๋””์˜ค๋กœ ๊ตฌ์„ฑ๋œ ๋ฐ์ดํ„ฐ์…‹์„ ๊ตฌ์ถ•ํ•˜์˜€์œผ๋ฉฐ, ๊ฐ ๋น„๋””์˜ค์—๋Š” ํ‰๊ท  206๋‹จ์–ด์˜ ์ƒ์„ธํ•œ ์„ค๋ช…์ด ๋ถ€์—ฌ๋˜์–ด ์žˆ์Šต๋‹ˆ๋‹ค. ์ด ๋ฐ์ดํ„ฐ๋ฅผ ๋ฐ”ํƒ•์œผ๋กœ ๋ชจ๋ธ์ด ์‹œ๊ณต๊ฐ„์  ์ผ๊ด€์„ฑ์„ ์œ ์ง€ํ•˜๋ฉฐ ์ž์—ฐ์Šค๋Ÿฌ์šด ๋น„๋””์˜ค๋ฅผ ์ƒ์„ฑํ•  ์ˆ˜ ์žˆ๋„๋ก ํ•™์Šตํ•˜์˜€์Šต๋‹ˆ๋‹ค.

Impossible Videos

Paper, Project

Impossible Videos๋Š” ๊ธฐ์กด ํ•ฉ์„ฑ ๋น„๋””์˜ค๊ฐ€ ํ˜„์‹ค์„ ๋ชจ๋ฐฉํ•˜๋Š” ๋ฐ ๊ทธ์ณค๋˜ ์ ์„ ๋ณด์™„ํ•˜์—ฌ, ๋ถˆ๊ฐ€๋Šฅํ•˜๊ฑฐ๋‚˜ ๋ฐ˜์‚ฌ์‹ค์ , ๋ฐ˜ํ˜„์‹ค์ ์ธ ๋น„๋””์˜ค๋ฅผ ์ƒ์„ฑํ•˜๊ณ  ์ด๋ฅผ ํ‰๊ฐ€ํ•˜๋Š” ์—ฐ๊ตฌ์ž…๋‹ˆ๋‹ค. ๋ณธ ์—ฐ๊ตฌ๋Š” ๋‘ ๊ฐ€์ง€ ์ฃผ์š” ์งˆ๋ฌธ์„ ๋‹ค๋ฃน๋‹ˆ๋‹ค. ์ฒซ์งธ, ํ˜„์žฌ์˜ ๋น„๋””์˜ค ์ƒ์„ฑ ๋ชจ๋ธ์ด ์ฃผ์–ด์ง„ ํ”„๋กฌํ”„ํŠธ์— ๋”ฐ๋ผ ๋ถˆ๊ฐ€๋Šฅํ•œ ๋น„๋””์˜ค ์ฝ˜ํ…์ธ ๋ฅผ ํšจ๊ณผ์ ์œผ๋กœ ์ƒ์„ฑํ•  ์ˆ˜ ์žˆ๋Š”์ง€, ๋‘˜์งธ, ๋น„๋””์˜ค ์ดํ•ด ๋ชจ๋ธ์ด ๋ถˆ๊ฐ€๋Šฅํ•œ ๋น„๋””์˜ค๋ฅผ ์ •ํ™•ํ•˜๊ฒŒ ํ•ด์„ํ•  ์ˆ˜ ์žˆ๋Š”์ง€์ž…๋‹ˆ๋‹ค. ์ด๋ฅผ ์œ„ํ•ด 4๊ฐœ์˜ ์˜์—ญ๊ณผ 14๊ฐœ์˜ ๋ฒ”์ฃผ๋กœ ๊ตฌ์„ฑ๋œ ์ƒˆ๋กœ์šด ํ‰๊ฐ€ ์ฒด๊ณ„๋ฅผ ๋งˆ๋ จํ•˜์˜€์œผ๋ฉฐ, ๋ชจ๋ธ์˜ ์ฐฝ์˜์„ฑ๊ณผ ์ถ”๋ก  ๋Šฅ๋ ฅ์„ ์ข…ํ•ฉ์ ์œผ๋กœ ํ‰๊ฐ€ํ•˜์˜€์Šต๋‹ˆ๋‹ค.

ํ™•์‚ฐ ๋ชจ๋ธ ๋ฐ 3D ์ƒ์„ฑ

PLADIS: Pushing the Limits of Attention in Diffusion Models at Inference Time by Leveraging Sparsity

Paper, Project

PLADIS๋Š” ํ…์ŠคํŠธ-ํˆฌ-์ด๋ฏธ์ง€ ํ™•์‚ฐ ๋ชจ๋ธ์—์„œ ์–ดํ…์…˜ ๋ฉ”์ปค๋‹ˆ์ฆ˜์˜ ํ•œ๊ณ„๋ฅผ ๊ทน๋ณตํ•˜๊ธฐ ์œ„ํ•œ ์ƒˆ๋กœ์šด ๋ฐฉ๋ฒ•์ž…๋‹ˆ๋‹ค. ๊ธฐ์กด ํ™•์‚ฐ ๋ชจ๋ธ์€ Classifier-Free Guidance์™€ ๊ฐ™์€ ๊ธฐ๋ฒ•์„ ํ†ตํ•ด ๊ณ ํ’ˆ์งˆ ์ด๋ฏธ์ง€๋ฅผ ์ƒ์„ฑํ•˜์ง€๋งŒ, ์ถ”๊ฐ€ ํ•™์Šต์ด๋‚˜ ์‹ ๊ฒฝ๋ง ํ•จ์ˆ˜ ํ‰๊ฐ€๊ฐ€ ํ•„์š”ํ•˜์—ฌ ํšจ์œจ์„ฑ์ด ๋–จ์–ด์ง€๋Š” ๋ฌธ์ œ๊ฐ€ ์žˆ์—ˆ์Šต๋‹ˆ๋‹ค. PLADIS๋Š” ํฌ์†Œ ์–ดํ…์…˜์„ ์ด์šฉํ•˜์—ฌ ์ถ”๋ก  ์‹œ ์ถ”๊ฐ€ ํ•™์Šต ์—†์ด ์ฟผ๋ฆฌ์™€ ํ‚ค ๊ฐ„์˜ ์ƒ๊ด€๊ด€๊ณ„๋ฅผ ๊ณ„์‚ฐํ•˜๋Š” ๋ฐฉ๋ฒ•์„ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค. ์ด ๋ฐฉ์‹์€ ํ…์ŠคํŠธ์™€ ์ด๋ฏธ์ง€ ๊ฐ„์˜ ์ •๋ ฌ์„ ๊ฐœ์„ ํ•˜๊ณ , ๋‹ค์–‘ํ•œ ๊ฐ€์ด๋˜์Šค ๊ธฐ๋ฒ•๊ณผ๋„ ์›ํ™œํ•˜๊ฒŒ ํ†ตํ•ฉ๋˜์–ด ๋ชจ๋ธ์˜ ์ƒ์„ฑ ํ’ˆ์งˆ์„ ๋†’์ž…๋‹ˆ๋‹ค. ์‹คํ—˜ ๊ฒฐ๊ณผ, PLADIS๋Š” ํ…์ŠคํŠธ ์ •๋ ฌ๊ณผ ์ธ๊ฐ„ ์„ ํ˜ธ๋„ ํ‰๊ฐ€์—์„œ ํ˜„์ €ํ•œ ๊ฐœ์„  ํšจ๊ณผ๋ฅผ ๋ณด์˜€์Šต๋‹ˆ๋‹ค.

One-Step Residual Shifting Diffusion for Image Super-Resolution via Distillation

Paper

์ด๋ฏธ์ง€ ์ดˆํ•ด์ƒ๋„(SR)๋ฅผ ์œ„ํ•œ ํ™•์‚ฐ ๋ชจ๋ธ์€ ๊ณ ํ’ˆ์งˆ ์ด๋ฏธ์ง€๋ฅผ ์ƒ์„ฑํ•˜๋Š” ๋ฐ ํšจ๊ณผ์ ์ด์ง€๋งŒ, ๊ณ„์‚ฐ ๋น„์šฉ์ด ๋งค์šฐ ๋งŽ์ด ๋“ญ๋‹ˆ๋‹ค. ์ผ๋ถ€ ๊ธฐ์กด ๋ฐฉ๋ฒ•์€ ํ˜„์‹ค์ ์ธ ์„ธ๋ถ€ ๋ฌ˜์‚ฌ๋ฅผ ์ƒ์„ฑํ•˜์ง€ ๋ชปํ•˜๊ฑฐ๋‚˜ ์ž˜๋ชป๋œ ๊ตฌ์กฐ๋ฅผ ๋งŒ๋“ค์–ด๋‚ด๋Š” ๋ฌธ์ œ๊ฐ€ ์žˆ์—ˆ์Šต๋‹ˆ๋‹ค. ์ด์— ๋ณธ ์—ฐ๊ตฌ์—์„œ๋Š” ResShift ๋ชจ๋ธ์˜ ์„ฑ๋Šฅ์„ ๊ฐœ์„ ํ•˜๊ธฐ ์œ„ํ•ด ์ฆ๋ฅ˜ ๊ธฐ๋ฐ˜ ๋ฐฉ๋ฒ•์ธ One-Step Residual Shifting Diffusion์„ ๋„์ž…ํ•˜์˜€์Šต๋‹ˆ๋‹ค. ์ด ๋ฐฉ๋ฒ•์€ ํ•™์ƒ ๋„คํŠธ์›Œํฌ๊ฐ€ ์ƒ์„ฑํ•œ ์ด๋ฏธ์ง€๊ฐ€, ์ƒˆ๋กœ ํ•™์Šต๋œ ๊ฐ€์งœ ResShift ๋ชจ๋ธ์— ์˜ํ•ด ๊ต์‚ฌ ๋ชจ๋ธ๊ณผ ์ผ์น˜ํ•˜๋„๋ก ํ•™์Šต์‹œํ‚ค๋Š” ๋ฐฉ์‹์ž…๋‹ˆ๋‹ค. ๊ทธ ๊ฒฐ๊ณผ, ๋‹จ ํ•œ ๋ฒˆ์˜ ๋‹จ๊ณ„๋กœ ์ด๋ฏธ์ง€๋ฅผ ๋ณต์›ํ•  ์ˆ˜ ์žˆ์–ด ๊ณ„์‚ฐ ๋น„์šฉ์„ ํฌ๊ฒŒ ์ค„์ด๋ฉด์„œ ๊ธฐ์กด ๋ฐฉ๋ฒ•๋ณด๋‹ค ๋›ฐ์–ด๋‚œ ์„ฑ๋Šฅ์„ ๋‹ฌ์„ฑํ•˜์˜€์Šต๋‹ˆ๋‹ค.

DeepMesh: Auto-Regressive Artist-mesh Creation with Reinforcement Learning

Paper, Project

DeepMesh๋Š” 3D ์• ํ”Œ๋ฆฌ์ผ€์ด์…˜์—์„œ ์ค‘์š”ํ•œ ์‚ผ๊ฐํ˜• ๋ฉ”์‹œ๋ฅผ ์ƒ์„ฑํ•˜๊ธฐ ์œ„ํ•œ ๊ธฐ๋ฒ•์ž…๋‹ˆ๋‹ค. ๊ธฐ์กด ์˜คํ† ๋ฆฌ๊ทธ๋ ˆ์‹œ๋ธŒ ๋ฐฉ๋ฒ•์€ ์ •์  ํ† ํฐ์„ ์ˆœ์ฐจ์ ์œผ๋กœ ์˜ˆ์ธกํ•˜์—ฌ ๋ฉ”์‹œ๋ฅผ ์ƒ์„ฑํ•˜์ง€๋งŒ, ์ƒ์„ฑ๋˜๋Š” ๋ฉ”์‹œ์˜ ๋ฉด ์ˆ˜๊ฐ€ ์ œํ•œ๋˜๊ณ  ๋ถˆ์™„์ „ํ•  ์ˆ˜ ์žˆ๋Š” ๋ฌธ์ œ๊ฐ€ ์žˆ์—ˆ์Šต๋‹ˆ๋‹ค. DeepMesh๋Š” ์ƒˆ๋กœ์šด ํ† ํฌ๋‚˜์ด์ œ์ด์…˜ ์•Œ๊ณ ๋ฆฌ์ฆ˜๊ณผ ํšจ์œจ์ ์ธ ๋ฐ์ดํ„ฐ ์ฒ˜๋ฆฌ ์ „๋žต์„ ๋„์ž…ํ•˜์˜€์œผ๋ฉฐ, ๊ฐ•ํ™”ํ•™์Šต์„ ํ†ตํ•ด ์ธ๊ฐ„ ํ‰๊ฐ€์™€ 3D ์ง€ํ‘œ๋ฅผ ๊ฒฐํ•ฉํ•œ ๊ธฐ์ค€์œผ๋กœ ๋ชจ๋ธ์„ ํ•™์Šต์‹œ์ผฐ์Šต๋‹ˆ๋‹ค. ์ด๋กœ ์ธํ•ด ๋ณต์žกํ•œ ์„ธ๋ถ€ ๋ฌ˜์‚ฌ์™€ ์ •๋ฐ€ํ•œ ํ† ํด๋กœ์ง€๋ฅผ ๊ฐ–์ถ˜ 3D ๋ฉ”์‹œ๋ฅผ ์ƒ์„ฑํ•  ์ˆ˜ ์žˆ๊ฒŒ ๋˜์—ˆ์œผ๋ฉฐ, ๊ธฐ์กด ๊ธฐ๋ฒ•๋ณด๋‹ค ์šฐ์ˆ˜ํ•œ ์„ฑ๋Šฅ์„ ๋ณด์ž…๋‹ˆ๋‹ค.

Unleashing Vecset Diffusion Model for Fast Shape Generation

Paper, Project

FlashVDM์€ Vecset Diffusion Model(VDM)์„ ๊ธฐ๋ฐ˜์œผ๋กœ ํ•œ 3D ํ˜•ํƒœ ์ƒ์„ฑ์—์„œ ๋ฐœ์ƒํ•˜๋Š” ๋А๋ฆฐ ๋””์ฝ”๋”ฉ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด ๊ฐœ๋ฐœ๋œ ๊ธฐ๋ฒ•์ž…๋‹ˆ๋‹ค. ๊ธฐ์กด์˜ 3D ์ƒ์„ฑ ๋ชจ๋ธ์€ ๊ณ ํ•ด์ƒ๋„ ํ˜•ํƒœ๋ฅผ ์ƒ์„ฑํ•  ์ˆ˜ ์žˆ์œผ๋‚˜, VAE ๋””์ฝ”๋”ฉ๊ณผ ํ™•์‚ฐ ์ƒ˜ํ”Œ๋ง ๊ณผ์ •์—์„œ ์†๋„ ์ €ํ•˜ ๋ฌธ์ œ๊ฐ€ ์žˆ์—ˆ์Šต๋‹ˆ๋‹ค. FlashVDM์€ DiT์™€ VAE์˜ ๋””์ฝ”๋”ฉ ๊ณผ์ •์„ ๋Œ€ํญ ๊ฐ€์†ํ™”ํ•˜๋Š” ์ƒˆ๋กœ์šด ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ ๋„์ž…ํ•˜์˜€์Šต๋‹ˆ๋‹ค. DiT์˜ ๊ฒฝ์šฐ, ์ถ”๋ก  ๋‹จ๊ณ„ ์ˆ˜๋ฅผ ์ตœ์†Œํ™”ํ•˜๋ฉด์„œ๋„ ์•ˆ์ •์ ์ธ ํ’ˆ์งˆ์„ ์œ ์ง€ํ•  ์ˆ˜ ์žˆ๋„๋ก ์„ค๊ณ„๋˜์—ˆ๊ณ , VAE๋Š” ํšจ์œจ์ ์ธ ๋””์ฝ”๋” ๊ตฌ์กฐ๋ฅผ ํ†ตํ•ด ๊ณ„์‚ฐ ๋น„์šฉ์„ ํฌ๊ฒŒ ์ค„์˜€์Šต๋‹ˆ๋‹ค. ์ด๋กœ ์ธํ•ด 3D ํ˜•ํƒœ์˜ ์žฌ๊ตฌ์„ฑ๊ณผ ์ƒ์„ฑ ์ž‘์—…์—์„œ ๊ธฐ์กด ๊ธฐ๋ฒ•๋ณด๋‹ค ํ›จ์”ฌ ๋น ๋ฅธ ์†๋„์™€ ์šฐ์ˆ˜ํ•œ ์„ฑ๋Šฅ์„ ๋‹ฌ์„ฑํ•˜์˜€์Šต๋‹ˆ๋‹ค.

Infinite Mobility: Scalable High-Fidelity Synthesis of Articulated Objects via Procedural Generation

Paper, Project

Infinite Mobility๋Š” ๋ฐ์ดํ„ฐ ๊ธฐ๋ฐ˜์ด๋‚˜ ์‹œ๋ฎฌ๋ ˆ์ด์…˜์— ์˜์กดํ–ˆ๋˜ ๊ธฐ์กด ๊ด€์ ˆํ˜• ๊ฐ์ฒด ์ƒ์„ฑ ๋ฐฉ๋ฒ•์˜ ํ•œ๊ณ„๋ฅผ ๊ทน๋ณตํ•˜๊ธฐ ์œ„ํ•ด ๊ฐœ๋ฐœ๋œ ๋ฐฉ๋ฒ•์ž…๋‹ˆ๋‹ค. ๋ณธ ๊ธฐ๋ฒ•์€ ์ ˆ์ฐจ์  ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ ์‚ฌ์šฉํ•˜์—ฌ ๊ณ ์ถฉ์‹ค๋„์˜ ๊ด€์ ˆํ˜• ๊ฐ์ฒด๋ฅผ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ๋ฌผ๋ฆฌ์  ํŠน์„ฑ๊ณผ ๋ฉ”์‹œ ํ’ˆ์งˆ ๋ฉด์—์„œ ์ธ๊ฐ„ ์ฃผ์„ ๋ฐ์ดํ„ฐ์…‹์— ๋ฒ„๊ธˆ๊ฐ€๋Š” ๊ฒฐ๊ณผ๋ฅผ ์–ป์„ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์‚ฌ์šฉ์ž ํ‰๊ฐ€์™€ ์ •๋Ÿ‰์  ์‹คํ—˜ ๊ฒฐ๊ณผ, ์ด ๋ฐฉ๋ฒ•์€ ์ตœ์‹  ๊ธฐ์ˆ ๋“ค๊ณผ ๋น„๊ตํ•˜์—ฌ ์šฐ์ˆ˜ํ•œ ์„ฑ๋Šฅ์„ ๋ณด์˜€์œผ๋ฉฐ, ์ƒ์„ฑ๋œ ๊ฐ์ฒด ๋ฐ์ดํ„ฐ๋Š” ๋‹ค๋ฅธ ์ƒ์„ฑ ๋ชจ๋ธ์˜ ํ•™์Šต ์ž๋ฃŒ๋กœ๋„ ํ™œ์šฉ๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

๋กœ๋ด‡ ๋ฐ ์ž„๋ฒ ๋””๋“œ ์—์ด์ „ํŠธ

Being-0: A Humanoid Robotic Agent with Vision-Language Models and Modular Skills

Paper, Project

Being-0๋Š” ํœด๋จธ๋…ธ์ด๋“œ ๋กœ๋ด‡์ด ์‹ค์ œ ํ™˜๊ฒฝ์—์„œ ์ž์œจ์ ์œผ๋กœ ๋ณต์žกํ•œ ์ž‘์—…์„ ์ˆ˜ํ–‰ํ•  ์ˆ˜ ์žˆ๋„๋ก ์„ค๊ณ„๋œ ์—์ด์ „ํŠธ ์‹œ์Šคํ…œ์ž…๋‹ˆ๋‹ค. ์ด ์‹œ์Šคํ…œ์€ ๋น„์ „-์–ธ์–ด ๋ชจ๋ธ์„ ์ด์šฉํ•ด ๊ณ ์ˆ˜์ค€ ์ธ์ง€ ๊ธฐ๋Šฅ(์ง€์‹œ ์ดํ•ด, ์ž‘์—… ๊ณ„ํš, ์ถ”๋ก  ๋“ฑ)์„ ๋‹ด๋‹นํ•˜๋ฉฐ, ๋ชจ๋“ˆ์‹ ์Šคํ‚ฌ ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ๋ฅผ ํ†ตํ•ด ์ €์ˆ˜์ค€ ๋™์ž‘(์ด๋™, ์กฐ์ž‘ ๋“ฑ)์„ ์•ˆ์ •์ ์œผ๋กœ ์ˆ˜ํ–‰ํ•ฉ๋‹ˆ๋‹ค. ํŠนํžˆ, ๊ฒฝ๋Ÿ‰ ๋น„์ „-์–ธ์–ด ๋ชจ๋ธ ๊ธฐ๋ฐ˜์˜ Connector ๋ชจ๋“ˆ์ด ์–ธ์–ด๋กœ ๋œ ๋ช…๋ น์„ ์‹ค์ œ ์‹คํ–‰ ๊ฐ€๋Šฅํ•œ ์Šคํ‚ฌ ๋ช…๋ น์œผ๋กœ ๋ณ€ํ™˜ํ•˜์—ฌ, ๋กœ๋ด‡์˜ ์ด๋™๊ณผ ์กฐ์ž‘์„ ๋™์ ์œผ๋กœ ์กฐ์œจํ•ฉ๋‹ˆ๋‹ค. ๋ชจ๋“  ๊ตฌ์„ฑ ์š”์†Œ๋Š” ์ €๋น„์šฉ ์˜จ๋ณด๋“œ ์ปดํ“จํŒ… ์žฅ์น˜์—์„œ ๊ตฌ๋™ํ•  ์ˆ˜ ์žˆ๋„๋ก ์„ค๊ณ„๋˜์–ด, ์‹ค๋‚ด ํ™˜๊ฒฝ์—์„œ ๋ณต์žกํ•œ ์ž‘์—…์„ ํšจ์œจ์ ์œผ๋กœ ์ˆ˜ํ–‰ํ•˜๋Š” ๋ฐ ์„ฑ๊ณตํ•˜์˜€์Šต๋‹ˆ๋‹ค.

profile
XR๊ณผ AI์— ๊ด€์‹ฌ์ด ๋งŽ์€ Sky ์ž…๋‹ˆ๋‹ค.

0๊ฐœ์˜ ๋Œ“๊ธ€