[2025/W50] ๐Ÿค— Weekly AI Research

Skyยท2025๋…„ 12์›” 12์ผ

Weekly AI Research Digest

๋ชฉ๋ก ๋ณด๊ธฐ
84/89

์ •๋ฐ€ํ•œ ์‹œ๊ณต๊ฐ„ ์ œ์–ด์™€ ์„œ์‚ฌ์  ์ผ๊ด€์„ฑ์„ ๊ฐ•ํ™”ํ•˜์—ฌ ๋ชฐ์ž…๊ฐ์„ ๋†’์ธ ์ฐจ์„ธ๋Œ€ ๋น„๋””์˜ค ๋ฐ 3D ์ƒ์„ฑ ๊ธฐ์ˆ ์˜ ๊ณ ๋„ํ™”
๋ณ‘๋ ฌ ์ถ”๋ก  ๋„์ž…๊ณผ ์—ฐ์‚ฐ ํšจ์œจ์„ฑ ์ตœ์ ํ™”๋ฅผ ํ†ตํ•ด ๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ์˜ ์„ฑ๋Šฅ ํ•œ๊ณ„๋ฅผ ๊ทน๋ณตํ•˜๋Š” ์•„ํ‚คํ…์ฒ˜ ํ˜์‹ 

Wan-Move: Motion-controllable Video Generation via Latent Trajectory Guidance

Paper, Project
Wan-Move๋Š” ๋น„๋””์˜ค ์ƒ์„ฑ ๋ชจ๋ธ์— ์ •๋ฐ€ํ•œ ๋™์ž‘ ์ œ์–ด ๊ธฐ๋Šฅ์„ ๋ถ€์—ฌํ•˜๋Š” ๊ฐ„๋‹จํ•˜๊ณ  ํ™•์žฅ ๊ฐ€๋Šฅํ•œ ํ”„๋ ˆ์ž„์›Œํฌ๋กœ, ๊ธฐ์กด ๋ฐฉ๋ฒ•๋“ค์˜ ๊ฑฐ์นœ ์ œ์–ด ์ž…๋„์™€ ๋‚ฎ์€ ํ™•์žฅ์„ฑ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด ๊ณ ์•ˆ๋˜์—ˆ๋‹ค. ์ด ๋ฐฉ๋ฒ•์˜ ํ•ต์‹ฌ ์•„์ด๋””์–ด๋Š” ๊ฐ์ฒด์˜ ์›€์ง์ž„์„ ๋ฐ€์ง‘๋œ ์  ๊ถค์ (dense point trajectories)์œผ๋กœ ํ‘œํ˜„ํ•˜๊ณ , ์ด๋ฅผ ์ž ์žฌ ๊ณต๊ฐ„(latent space)์— ํˆฌ์˜ํ•˜์—ฌ ์ฒซ ํ”„๋ ˆ์ž„์˜ ํŠน์ง•์„ ๊ถค์ ์— ๋”ฐ๋ผ ์ „ํŒŒํ•จ์œผ๋กœ์จ ์•„ํ‚คํ…์ฒ˜ ๋ณ€๊ฒฝ ์—†์ด ๊ธฐ์กด ์ด๋ฏธ์ง€-๋น„๋””์˜ค ๋ชจ๋ธ(์˜ˆ: Wan-I2V-14B)์— ํ†ตํ•ฉ ๊ฐ€๋Šฅํ•œ ๋™์ž‘ ์ธ์‹ ํŠน์ง• ๋งต์„ ์ƒ์„ฑํ•˜๋Š” ๊ฒƒ์ด๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ๋ณ„๋„์˜ ๋ณด์กฐ ๋™์ž‘ ์ธ์ฝ”๋” ์—†์ด๋„ ๋ฏธ์„ธ ์กฐ์ •์ด ์šฉ์ดํ•˜๋ฉฐ, ์‚ฌ์šฉ์ž ์—ฐ๊ตฌ ๊ฒฐ๊ณผ Kling 1.5 Pro์˜ ๋ชจ์…˜ ๋ธŒ๋Ÿฌ์‹œ ๊ธฐ๋Šฅ๊ณผ ์œ ์‚ฌํ•œ ์ˆ˜์ค€์˜ ์ œ์–ด ๋Šฅ๋ ฅ์„ ๊ฐ–์ถ˜ 5์ดˆ ๊ธธ์ด์˜ 480p ๋น„๋””์˜ค๋ฅผ ์ƒ์„ฑํ•  ์ˆ˜ ์žˆ์Œ์ด ์ž…์ฆ๋˜์—ˆ๊ณ , ๋”๋ถˆ์–ด ๋Œ€๊ทœ๋ชจ ๋ฐ์ดํ„ฐ์™€ ์ •๋ฐ€ํ•œ ์ฃผ์„์„ ํฌํ•จํ•œ MoveBench ๋ฒค์น˜๋งˆํฌ๋ฅผ ํ†ตํ•ด ๊ทธ ์šฐ์ˆ˜์„ฑ์„ ๊ฒ€์ฆํ•˜์˜€๋‹ค.

Visionary: The World Model Carrier Built on WebGPU-Powered Gaussian Splatting Platform

Paper, Project
Visionary๋Š” 3D Gaussian Splatting(3DGS)๊ณผ ๋ฉ”์‹œ ๋ Œ๋”๋ง์„ ์œ„ํ•œ ๊ฐœ๋ฐฉํ˜• ์›น ๋„ค์ดํ‹ฐ๋ธŒ ํ”Œ๋žซํผ์œผ๋กœ, ๊ธฐ์กด ๋ทฐ์–ด๋“ค์ด ๊ฐ€์ง„ ๋ฌด๊ฒ๊ณ  ์ œํ•œ์ ์ธ ๋ฐฐํฌ ํ™˜๊ฒฝ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด WebGPU ๊ธฐ๋ฐ˜ ๋ Œ๋”๋Ÿฌ์™€ ํ”„๋ ˆ์ž„๋ณ„ ONNX ์ถ”๋ก  ๊ธฐ๋Šฅ์„ ํ†ตํ•ฉํ•˜์—ฌ ๊ฐœ๋ฐœ๋˜์—ˆ๋‹ค. ์ด ํ”Œ๋žซํผ์€ ํ‘œ์ค€ํ™”๋œ ๊ฐ€์šฐ์‹œ์•ˆ ์ƒ์„ฑ์ž ๊ณ„์•ฝ(Gaussian Generator contract)์„ ๋„์ž…ํ•˜์—ฌ ๋‹จ์ˆœํ•œ 3DGS ๋ Œ๋”๋ง๋ฟ๋งŒ ์•„๋‹ˆ๋ผ ๋งค ํ”„๋ ˆ์ž„ ๊ฐ€์šฐ์‹œ์•ˆ์„ ์ƒ์„ฑํ•˜๊ฑฐ๋‚˜ ์—…๋ฐ์ดํŠธํ•˜๋Š” ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ ํ”Œ๋Ÿฌ๊ทธ ์•ค ํ”Œ๋ ˆ์ด ๋ฐฉ์‹์œผ๋กœ ์ง€์›ํ•˜๋ฉฐ, ํ”ผ๋“œํฌ์›Œ๋“œ ์ƒ์„ฑ ํ›„์ฒ˜๋ฆฌ๋ฅผ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•œ๋‹ค. ๋˜ํ•œ three.js ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ์™€์˜ ํ†ตํ•ฉ์„ ์ง€์›ํ•˜๋Š” ๊ฐ„๊ฒฐํ•œ TypeScript API๋ฅผ ์ œ๊ณตํ•˜์—ฌ ๊ธฐ์กด ์›น ์• ํ”Œ๋ฆฌ์ผ€์ด์…˜์— ์‰ฝ๊ฒŒ ์ ์šฉํ•  ์ˆ˜ ์žˆ๊ณ , GPU ๊ธฐ๋ฐ˜ ์ •๋ ฌ์„ ํ†ตํ•ด ๊ธฐ์กด ์›น ๋ทฐ์–ด๋ณด๋‹ค ๋›ฐ์–ด๋‚œ ๋ Œ๋”๋ง ํšจ์œจ์„ฑ์„ ๋ณด์ด๋ฉฐ MLP ๊ธฐ๋ฐ˜ 3DGS, 4DGS ๋“ฑ ๋‹ค์–‘ํ•œ ๋ชจ๋ธ์„ ๋ธŒ๋ผ์šฐ์ €์—์„œ ์ง์ ‘ ์‹คํ–‰ํ•  ์ˆ˜ ์žˆ๊ฒŒ ํ•˜์—ฌ 3DGS ๊ธฐ์ˆ ์˜ ์ ‘๊ทผ์„ฑ๊ณผ ์žฌํ˜„์„ฑ์„ ํฌ๊ฒŒ ๋‚ฎ์ถ”์—ˆ๋‹ค.

Native Parallel Reasoner: Reasoning in Parallelism via Self-Distilled Reinforcement Learning

Paper, Project
Native Parallel Reasoner(NPR)๋Š” ๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ(LLM)์ด ์™ธ๋ถ€์˜ ์ง€๋„ ์—†์ด ์Šค์Šค๋กœ ๋ณ‘๋ ฌ ์ถ”๋ก  ๋Šฅ๋ ฅ์„ ์ง„ํ™”์‹œํ‚ฌ ์ˆ˜ ์žˆ๋„๋ก ๋•๋Š” ํ”„๋ ˆ์ž„์›Œํฌ๋กœ, ์ˆœ์ฐจ์ ์ธ ๋ชจ๋ฐฉ ํ•™์Šต์—์„œ ๋ฒ—์–ด๋‚˜ ์ง„์ •ํ•œ ๋ณ‘๋ ฌ ์ธ์ง€ ๋Šฅ๋ ฅ์œผ๋กœ ์ „ํ™˜ํ•˜๊ฒŒ ํ•œ๋‹ค. NPR์€ ์ฝœ๋“œ ์Šคํƒ€ํŠธ ํ˜•์‹ ๋ฐœ๊ฒฌ์—์„œ ์œ„์ƒ ์ œ์•ฝ์œผ๋กœ ์ด์–ด์ง€๋Š” ์ž๊ฐ€ ์ฆ๋ฅ˜ ์ ์ง„์  ํ•™์Šต ํŒจ๋Ÿฌ๋‹ค์ž„, ์‹คํ–‰ ๊ทธ๋ž˜ํ”„ ๋‚ด์—์„œ ๋ถ„๊ธฐ ์ •์ฑ…์„ ์ตœ์ ํ™”ํ•˜์—ฌ ์‹œํ–‰์ฐฉ์˜ค๋ฅผ ํ†ตํ•ด ์ ์‘ํ˜• ๋ถ„ํ•ด๋ฅผ ํ•™์Šตํ•˜๋Š” ๋ณ‘๋ ฌ ์ธ์‹ ์ •์ฑ… ์ตœ์ ํ™”(PAPO) ์•Œ๊ณ ๋ฆฌ์ฆ˜, ๊ทธ๋ฆฌ๊ณ  SGLang์˜ ๋ฉ”๋ชจ๋ฆฌ ๊ด€๋ฆฌ ๋ฐ ํ๋ฆ„ ์ œ์–ด๋ฅผ ์žฌ์„ค๊ณ„ํ•˜์—ฌ ์•ˆ์ •์ ์ธ ๋Œ€๊ทœ๋ชจ ๋ณ‘๋ ฌ RL ํ•™์Šต์„ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•˜๋Š” ๊ฒฌ๊ณ ํ•œ NPR ์—”์ง„์ด๋ผ๋Š” ์„ธ ๊ฐ€์ง€ ํ•ต์‹ฌ ํ˜์‹ ์„ ํ†ตํ•ด ๊ตฌํ˜„๋œ๋‹ค. Qwen3-4B ๋ชจ๋ธ์— ์ ์šฉํ–ˆ์„ ๋•Œ 8๊ฐœ์˜ ์ถ”๋ก  ๋ฒค์น˜๋งˆํฌ์—์„œ ์ตœ๋Œ€ 24.5%์˜ ์„ฑ๋Šฅ ํ–ฅ์ƒ๊ณผ 4.6๋ฐฐ์˜ ์ถ”๋ก  ์†๋„ ๊ฐœ์„ ์„ ๋‹ฌ์„ฑํ–ˆ์œผ๋ฉฐ, ๊ธฐ์กด ๋ฐฉ์‹๊ณผ ๋‹ฌ๋ฆฌ 100% ์ง„์ •ํ•œ ๋ณ‘๋ ฌ ์‹คํ–‰์„ ๋ณด์—ฌ์ฃผ๋ฉฐ ํšจ์œจ์ ์ด๊ณ  ํ™•์žฅ ๊ฐ€๋Šฅํ•œ ์—์ด์ „ํŠธ ์ถ”๋ก ์˜ ์ƒˆ๋กœ์šด ํ‘œ์ค€์„ ์ œ์‹œํ•˜์˜€๋‹ค.

TwinFlow: Realizing One-step Generation on Large Models with Self-adversarial Flows

Paper, Project
TwinFlow๋Š” ๋Œ€๊ทœ๋ชจ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ƒ์„ฑ ๋ชจ๋ธ์˜ ์ถ”๋ก  ํšจ์œจ์„ฑ์„ ๊ทน๋Œ€ํ™”ํ•˜๊ธฐ ์œ„ํ•ด ๊ณ ์•ˆ๋œ ๊ฐ„๋‹จํ•˜๊ณ  ํšจ๊ณผ์ ์ธ ํ”„๋ ˆ์ž„์›Œํฌ๋กœ, ๊ณ ์ •๋œ ๊ต์‚ฌ ๋ชจ๋ธ์ด๋‚˜ ๋ถˆ์•ˆ์ •ํ•œ ํ‘œ์ค€ ์ ๋Œ€์  ๋„คํŠธ์›Œํฌ(GAN) ํ•™์Šต ์—†์ด ๋‹จ 1๋‹จ๊ณ„(1-NFE)๋งŒ์œผ๋กœ ๊ณ ํ’ˆ์งˆ ์ด๋ฏธ์ง€๋ฅผ ์ƒ์„ฑํ•  ์ˆ˜ ์žˆ๊ฒŒ ํ•œ๋‹ค. ๊ธฐ์กด์˜ ์ฆ๋ฅ˜ ๊ธฐ๋ฐ˜ ๋ฐฉ๋ฒ•๋“ค์ด ๋ฐ˜๋ณต์ ์ธ ์ ˆ์ฐจ๋ฅผ ์š”๊ตฌํ•˜๊ฑฐ๋‚˜ ์ ์€ ๋‹จ๊ณ„์—์„œ ์„ฑ๋Šฅ์ด ๊ธ‰๊ฒฉํžˆ ์ €ํ•˜๋˜๋Š” ๋‹จ์ ์„ ๊ทน๋ณตํ•˜๊ธฐ ์œ„ํ•ด ์ œ์•ˆ๋˜์—ˆ์œผ๋ฉฐ, ํ…์ŠคํŠธ-์ด๋ฏธ์ง€ ์ž‘์—…์—์„œ SANA-Sprint์™€ ๊ฐ™์€ ๊ฐ•๋ ฅํ•œ ๋ฒ ์ด์Šค๋ผ์ธ์„ ๋Šฅ๊ฐ€ํ•˜๋Š” 0.83์˜ GenEval ์ ์ˆ˜๋ฅผ ๊ธฐ๋กํ•˜์˜€๋‹ค. ๋˜ํ•œ Qwen-Image-20B์™€ ๊ฐ™์€ ๋Œ€๊ทœ๋ชจ ๋ชจ๋ธ์— ๋Œ€ํ•œ ์ „์ฒด ํŒŒ๋ผ๋ฏธํ„ฐ ํ•™์Šต์„ ํ†ตํ•ด ํ™•์žฅ์„ฑ์„ ์ž…์ฆํ•˜์˜€๊ณ , 1-NFE๋งŒ์œผ๋กœ ๊ธฐ์กด 100-NFE ๋ชจ๋ธ์˜ ์„ฑ๋Šฅ์— ํ•„์ ํ•˜๋Š” ๊ฒฐ๊ณผ๋ฅผ ๋ณด์—ฌ์ฃผ์–ด ๊ณ„์‚ฐ ๋น„์šฉ์„ 100๋ฐฐ ์ ˆ๊ฐํ•˜๋ฉด์„œ๋„ ํ’ˆ์งˆ ์ €ํ•˜๋ฅผ ์ตœ์†Œํ™”ํ•˜๋Š” ์„ฑ๊ณผ๋ฅผ ๋‹ฌ์„ฑํ•˜์˜€๋‹ค.

StereoWorld: Geometry-Aware Monocular-to-Stereo Video Generation

Paper, Project
StereoWorld๋Š” ๋‹จ์•ˆ ๋น„๋””์˜ค๋ฅผ ๊ณ ํ’ˆ์งˆ ์Šคํ…Œ๋ ˆ์˜ค ๋น„๋””์˜ค๋กœ ๋ณ€ํ™˜ํ•˜๊ธฐ ์œ„ํ•œ ์—”๋“œํˆฌ์—”๋“œ ํ”„๋ ˆ์ž„์›Œํฌ๋กœ, ์‚ฌ์ „ ํ•™์Šต๋œ ๋น„๋””์˜ค ์ƒ์„ฑ ๋ชจ๋ธ์„ ์žฌํ™œ์šฉํ•˜์—ฌ ๋น„์šฉ ํšจ์œจ์ ์ด๊ณ  ์•„ํ‹ฐํŒฉํŠธ๊ฐ€ ์ ์€ ์Šคํ…Œ๋ ˆ์˜ค ์ฝ˜ํ…์ธ ๋ฅผ ์ œ์ž‘ํ•œ๋‹ค. ์ด ๋ชจ๋ธ์€ ๋‹จ์•ˆ ๋น„๋””์˜ค ์ž…๋ ฅ์„ ์กฐ๊ฑด์œผ๋กœ ์‚ฌ์šฉํ•˜๋ฉด์„œ ๊ธฐํ•˜ํ•™์  ์ธ์‹ ์ •๊ทœํ™”(geometry-aware regularization)๋ฅผ ํ†ตํ•ด 3D ๊ตฌ์กฐ์  ์ถฉ์‹ค๋„๋ฅผ ๋ณด์žฅํ•˜๊ณ , ์‹œ๊ณต๊ฐ„ ํƒ€์ผ๋ง(spatio-temporal tiling) ๊ธฐ๋ฒ•์„ ํ†ตํ•ฉํ•˜์—ฌ ๊ณ ํ•ด์ƒ๋„ ํ•ฉ์„ฑ์„ ํšจ์œจ์ ์œผ๋กœ ์ˆ˜ํ–‰ํ•œ๋‹ค. ๋˜ํ•œ ๋Œ€๊ทœ๋ชจ ํ•™์Šต๊ณผ ํ‰๊ฐ€๋ฅผ ์œ„ํ•ด ์ž์—ฐ์Šค๋Ÿฌ์šด ์ธ๊ฐ„ ๋™๊ณต ๊ฐ„ ๊ฑฐ๋ฆฌ(IPD)์— ๋งž์ถฐ ์ •๋ ฌ๋œ 1,100๋งŒ ํ”„๋ ˆ์ž„ ์ด์ƒ์˜ ๊ณ ํ™”์งˆ ์Šคํ…Œ๋ ˆ์˜ค ๋น„๋””์˜ค ๋ฐ์ดํ„ฐ์…‹์„ ๊ตฌ์ถ•ํ•˜์˜€์œผ๋ฉฐ, ์‹คํ—˜ ๊ฒฐ๊ณผ ๊ธฐ์กด ๋ฐฉ๋ฒ•๋“ค๋ณด๋‹ค ์‹œ๊ฐ์  ์ถฉ์‹ค๋„์™€ ๊ธฐํ•˜ํ•™์  ์ผ๊ด€์„ฑ์ด ๋›ฐ์–ด๋‚œ ์Šคํ…Œ๋ ˆ์˜ค ๋น„๋””์˜ค๋ฅผ ์ƒ์„ฑํ•จ์„ ์ž…์ฆํ•˜์˜€๋‹ค.

Beyond Real: Imaginary Extension of Rotary Position Embeddings for Long-Context LLMs

Paper, Project
Beyond Real์€ ๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ(LLM)์˜ ๊ธด ๋ฌธ๋งฅ ์˜์กด์„ฑ ๋ชจ๋ธ๋ง์„ ๊ฐ•ํ™”ํ•˜๊ธฐ ์œ„ํ•ด ๊ธฐ์กด ํšŒ์ „ ์œ„์น˜ ์ž„๋ฒ ๋”ฉ(RoPE)์„ ํ™•์žฅํ•œ ๋ฐฉ๋ฒ•์œผ๋กœ, ํ‘œ์ค€ ๊ตฌํ˜„์—์„œ ์–ดํ…์…˜ ์ ์ˆ˜ ๊ณ„์‚ฐ ์‹œ ๋ฒ„๋ ค์ง€๋˜ ๋ณต์†Œ์ˆ˜ ๋‚ด์ ์˜ ํ—ˆ์ˆ˜ ์„ฑ๋ถ„์„ ์žฌ๋„์ž…ํ•˜๋Š” ๋ฐ ์ดˆ์ ์„ ๋งž์ถ˜๋‹ค. ์ด ๋ฐฉ๋ฒ•์€ ์œ„์ƒ ์ •๋ณด๋ฅผ ํฌํ•จํ•œ ํ—ˆ์ˆ˜ ์„ฑ๋ถ„์„ ํ™œ์šฉํ•˜์—ฌ ์ด์ค‘ ์„ฑ๋ถ„ ์–ดํ…์…˜ ์ ์ˆ˜๋ฅผ ์ƒ์„ฑํ•จ์œผ๋กœ์จ ์œ„์น˜ ์ •๋ณด์˜ ์†์‹ค์„ ๋ง‰๊ณ  ๊ด€๊ณ„์  ์„ธ๋ถ€ ์‚ฌํ•ญ์„ ๋ณด์กดํ•˜์—ฌ ๊ธด ๋ฌธ๋งฅ ๋ชจ๋ธ๋ง ์„ฑ๋Šฅ์„ ํ–ฅ์ƒ์‹œํ‚จ๋‹ค. ์ด๋ก ์  ๋ฐ ๊ฒฝํ—˜์  ๊ฒ€์ฆ์„ ํ†ตํ•ด ์ด ์ ‘๊ทผ๋ฒ•์ด ๊ธด ๋ฌธ๋งฅ ๋‚ด์˜ ์˜์กด์„ฑ์„ ๋” ์ž˜ ๋ชจ๋ธ๋งํ•จ์„ ํ™•์ธํ•˜์˜€์œผ๋ฉฐ, ๋‹ค์–‘ํ•œ ๊ธด ๋ฌธ๋งฅ ์–ธ์–ด ๋ชจ๋ธ๋ง ๋ฒค์น˜๋งˆํฌ ํ‰๊ฐ€์—์„œ ๋ฌธ๋งฅ ๊ธธ์ด๊ฐ€ ๊ธธ์–ด์งˆ์ˆ˜๋ก ํ‘œ์ค€ RoPE ๋Œ€๋น„ ์„ฑ๋Šฅ ํ–ฅ์ƒ ํšจ๊ณผ๊ฐ€ ๋šœ๋ ทํ•˜๊ฒŒ ๋‚˜ํƒ€๋‚จ์„ ์ž…์ฆํ•˜์˜€๋‹ค.

Preserving Source Video Realism: High-Fidelity Face Swapping for Cinematic Quality

Paper, Project
LivingSwap์€ ์˜ํ™” ๋ฐ ์—”ํ„ฐํ…Œ์ธ๋จผํŠธ ์ œ์ž‘์„ ์œ„ํ•œ ๊ณ ์ถฉ์‹ค๋„ ๋น„๋””์˜ค ์–ผ๊ตด ๊ต์ฒด ๋ชจ๋ธ๋กœ, ์†Œ์Šค ๋น„๋””์˜ค์˜ ํ’๋ถ€ํ•œ ์‹œ๊ฐ์  ์†์„ฑ์„ ํ™œ์šฉํ•˜์—ฌ ๊ธด ์‹œํ€€์Šค์—์„œ๋„ ๋†’์€ ํ’ˆ์งˆ๊ณผ ์‹œ๊ฐ„์  ์ผ๊ด€์„ฑ์„ ์œ ์ง€ํ•˜๋„๋ก ์„ค๊ณ„๋˜์—ˆ๋‹ค. ์ด ๋ชจ๋ธ์€ ํ‚คํ”„๋ ˆ์ž„์„ ์กฐ๊ฑด ์‹ ํ˜ธ๋กœ ์‚ฌ์šฉํ•˜์—ฌ ๋ชฉํ‘œ ์ •์ฒด์„ฑ์„ ์ฃผ์ž…ํ•จ์œผ๋กœ์จ ์œ ์—ฐํ•œ ํŽธ์ง‘์„ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•˜๊ณ , ๋น„๋””์˜ค ์ฐธ์กฐ ์•ˆ๋‚ด์™€ ๊ฒฐํ•ฉ๋œ ์‹œ๊ฐ„์  ์Šคํ‹ฐ์นญ(temporal stitching) ๊ธฐ์ˆ ์„ ํ†ตํ•ด ์•ˆ์ •์ ์ธ ์ •์ฒด์„ฑ ๋ณด์กด๊ณผ ๊ณ ํ•ด์ƒ๋„ ์žฌ๊ตฌ์„ฑ์„ ์ˆ˜ํ–‰ํ•œ๋‹ค. ๋˜ํ•œ ์ฐธ์กฐ ๊ธฐ๋ฐ˜ ํ•™์Šต์„ ์œ„ํ•ด ๋ฐ์ดํ„ฐ๊ฐ€ ๋ถ€์กฑํ•œ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๊ณ ์ž Face2Face๋ผ๋Š” ์Œ๋ฐฉํ–ฅ ์–ผ๊ตด ๊ต์ฒด ๋ฐ์ดํ„ฐ์…‹์„ ๊ตฌ์ถ•ํ•˜์—ฌ ์‹ ๋ขฐํ•  ์ˆ˜ ์žˆ๋Š” ์ •๋‹ต ๊ฐ๋…(ground-truth supervision)์„ ์ œ๊ณตํ•˜์˜€์œผ๋ฉฐ, ์‹คํ—˜์„ ํ†ตํ•ด ์†Œ์Šค ๋น„๋””์˜ค์˜ ํ‘œ์ •, ์กฐ๋ช…, ์›€์ง์ž„์„ ์ž์—ฐ์Šค๋Ÿฝ๊ฒŒ ์œ ์ง€ํ•˜๋ฉด์„œ ๋ชฉํ‘œ ์–ผ๊ตด๋กœ ์™„๋ฒฝํ•˜๊ฒŒ ํ†ตํ•ฉํ•˜๋Š” ์ตœ์‹  ์„ฑ๋Šฅ์„ ๋ณด์—ฌ์ฃผ์—ˆ๋‹ค.

Unified Video Editing with Temporal Reasoner

Paper, Project
VideoCoF๋Š” ์‚ฌ๊ณ ์˜ ์‚ฌ์Šฌ(Chain-of-Thought)์—์„œ ์˜๊ฐ์„ ๋ฐ›์€ ํ”„๋ ˆ์ž„์˜ ์‚ฌ์Šฌ(Chain-of-Frames) ์ ‘๊ทผ ๋ฐฉ์‹์„ ํ†ตํ•ด ๊ธฐ์กด ๋น„๋””์˜ค ํŽธ์ง‘ ๋ชจ๋ธ๋“ค์˜ ๋งˆ์Šคํฌ ์˜์กด์„ฑ๊ณผ ๊ณต๊ฐ„์  ๋‹จ์„œ ๋ถ€์กฑ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๋Š” ํ†ตํ•ฉ ๋น„๋””์˜ค ํŽธ์ง‘ ํ”„๋ ˆ์ž„์›Œํฌ๋‹ค. ์ด ๋ฐฉ์‹์€ ๋น„๋””์˜ค ํ™•์‚ฐ ๋ชจ๋ธ์ด ๋ชฉํ‘œ ๋น„๋””์˜ค ํ† ํฐ์„ ์ƒ์„ฑํ•˜๊ธฐ ์ „์— ํŽธ์ง‘ ์˜์—ญ์— ๋Œ€ํ•œ ์ถ”๋ก  ํ† ํฐ(edit-region latents)์„ ๋จผ์ € ์˜ˆ์ธกํ•˜๋„๋ก ๊ฐ•์ œํ•˜๋Š” ๋ณด๊ณ , ์ถ”๋ก ํ•˜๊ณ , ํŽธ์ง‘ํ•˜๋Š” ์ ˆ์ฐจ๋ฅผ ๋”ฐ๋ฅด๋ฉฐ, ์ด๋ฅผ ํ†ตํ•ด ์‚ฌ์šฉ์ž ๋งˆ์Šคํฌ ์—†์ด๋„ ์ •๋ฐ€ํ•œ ์˜์—ญ ์ง€์ •๊ณผ ์„ธ๋ฐ€ํ•œ ํŽธ์ง‘์„ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•œ๋‹ค. ๋˜ํ•œ ์ถ”๋ก  ํ† ํฐ์„ ํ™œ์šฉํ•œ RoPE ์ •๋ ฌ ์ „๋žต์„ ๋„์ž…ํ•˜์—ฌ ๋™์ž‘ ์ผ์น˜์„ฑ์„ ๋ณด์žฅํ•˜๊ณ  ํ•™์Šต๋œ ๊ธธ์ด๋ฅผ ์ดˆ๊ณผํ•˜๋Š” ์˜์ƒ ์ƒ์„ฑ๊นŒ์ง€ ์ง€์›ํ•˜๋ฉฐ, 5๋งŒ ์Œ์˜ ์ ์€ ๋ฐ์ดํ„ฐ๋งŒ์œผ๋กœ๋„ VideoCoF-Bench์—์„œ ์ตœ๊ณ  ์„ฑ๋Šฅ์„ ๋‹ฌ์„ฑํ•˜์—ฌ ๊ทธ ํšจ์œจ์„ฑ๊ณผ ํšจ๊ณผ๋ฅผ ์ž…์ฆํ•˜์˜€๋‹ค.

OneStory: Coherent Multi-Shot Video Generation with Adaptive Memory

Paper, Project
OneStory๋Š” ์—ฌ๋Ÿฌ ์ˆ์œผ๋กœ ๊ตฌ์„ฑ๋œ ์ผ๊ด€๋œ ์„œ์‚ฌ๋ฅผ ์ƒ์„ฑํ•˜๊ธฐ ์œ„ํ•œ ๋ฉ€ํ‹ฐ ์ˆ ๋น„๋””์˜ค ์ƒ์„ฑ(MSV) ๋ชจ๋ธ๋กœ, ๊ธฐ์กด ๋ฐฉ๋ฒ•๋“ค์ด ๊ฒช๋Š” ์žฅ๊ธฐ์ ์ธ ์ˆ ๊ฐ„ ๋ฌธ๋งฅ ๋ชจ๋ธ๋ง์˜ ์–ด๋ ค์›€์„ ๊ทน๋ณตํ•˜๊ธฐ ์œ„ํ•ด ์ „์—ญ์ ์ด๋ฉด์„œ๋„ ์••์ถ•์ ์ธ ๋ฌธ๋งฅ ๊ธฐ์–ต ๋ฐฉ์‹์„ ์ œ์•ˆํ•œ๋‹ค. ์ด ๋ชจ๋ธ์€ MSV๋ฅผ ๋‹ค์Œ ์ˆ ์ƒ์„ฑ ์ž‘์—…์œผ๋กœ ์žฌ์ •์˜ํ•˜์—ฌ ์ž๊ธฐํšŒ๊ท€์ ์œผ๋กœ ์ˆ์„ ํ•ฉ์„ฑํ•˜๋ฉฐ, ์ด์ „ ์ˆ์—์„œ ์ •๋ณด๋Ÿ‰์ด ๋งŽ์€ ํ”„๋ ˆ์ž„์„ ์„ ๋ณ„ํ•˜์—ฌ ์˜๋ฏธ์ ์œผ๋กœ ์—ฐ๊ด€๋œ ์ „์—ญ ๋ฉ”๋ชจ๋ฆฌ๋ฅผ ๊ตฌ์ถ•ํ•˜๋Š” ํ”„๋ ˆ์ž„ ์„ ํƒ ๋ชจ๋“ˆ๊ณผ ์ค‘์š”๋„ ๊ธฐ๋ฐ˜ ํŒจ์น˜ํ™”๋ฅผ ํ†ตํ•ด ์••์ถ•๋œ ๋ฌธ๋งฅ์„ ์ƒ์„ฑํ•˜๋Š” ์ ์‘ํ˜• ์ปจ๋””์…”๋„ˆ(Adaptive Conditioner)๋ฅผ ๋„์ž…ํ•˜์˜€๋‹ค. ๋˜ํ•œ ์‹ค์ œ ์Šคํ† ๋ฆฌํ…”๋ง ํŒจํ„ด์„ ๋ฐ˜์˜ํ•œ 6๋งŒ ๊ฐœ์˜ ๊ณ ํ’ˆ์งˆ ๋ฉ€ํ‹ฐ ์ˆ ๋ฐ์ดํ„ฐ์…‹์œผ๋กœ ์‚ฌ์ „ ํ•™์Šต๋œ I2V ๋ชจ๋ธ์„ ๋ฏธ์„ธ ์กฐ์ •ํ•จ์œผ๋กœ์จ, ํ…์ŠคํŠธ ๋ฐ ์ด๋ฏธ์ง€ ์กฐ๊ฑด ํ™˜๊ฒฝ ๋ชจ๋‘์—์„œ ๋‹ค์–‘ํ•˜๊ณ  ๋ณต์žกํ•œ ์žฅ๋ฉด๋“ค์— ๊ฑธ์ณ ์„œ์‚ฌ์  ์ผ๊ด€์„ฑ์ด ๋›ฐ์–ด๋‚œ ๊ธด ํ˜•์‹์˜ ๋น„๋””์˜ค๋ฅผ ์ƒ์„ฑํ•˜๋Š” ๋ฐ ์„ฑ๊ณตํ•˜์˜€๋‹ค.

profile
XR๊ณผ AI์— ๊ด€์‹ฌ์ด ๋งŽ์€ Sky ์ž…๋‹ˆ๋‹ค.

0๊ฐœ์˜ ๋Œ“๊ธ€