[2025/W51] ๐Ÿค— Weekly AI Research

Skyยท2025๋…„ 12์›” 19์ผ

Weekly AI Research Digest

๋ชฉ๋ก ๋ณด๊ธฐ
86/89

์‹œ๊ฐ์  ์ง€๋Šฅ๊ณผ ๋…ผ๋ฆฌ์  ์ถ”๋ก ์˜ ๊ฒฐํ•ฉ์„ ํ†ตํ•œ ์ฐจ์„ธ๋Œ€ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์—์ด์ „ํŠธ ๋ฐ ์„ธ๊ณ„ ๋ชจ๋ธ์˜ ์ง„ํ™”
์žฅ๊ธฐ ๊ธฐ์–ต ์ฒด๊ณ„์™€ ์‹ค์‹œ๊ฐ„ ์ƒํ˜ธ์ž‘์šฉ ์ตœ์ ํ™”๋ฅผ ํ†ตํ•œ ๊ณ ๋„ํ™”๋œ ์ƒ์„ฑํ˜• AI ๊ธฐ์ˆ ์˜ ์‹คํ˜„

Step-GUI Technical Report

Paper, Project
์ด ๋…ผ๋ฌธ์€ AI๊ฐ€ ์Šค๋งˆํŠธํฐ์ด๋‚˜ PC์˜ ํ™”๋ฉด(GUI)์„ ์Šค์Šค๋กœ ์กฐ์ž‘ํ•  ์ˆ˜ ์žˆ๊ฒŒ ๋•๋Š” Step-GUI ๋ชจ๋ธ๊ณผ ํšจ์œจ์ ์ธ ํ•™์Šต ์ฒด๊ณ„๋ฅผ ์ œ์•ˆํ•œ๋‹ค. ๊ธฐ์กด์—๋Š” AI์—๊ฒŒ ํ™”๋ฉด ์กฐ์ž‘์„ ๊ฐ€๋ฅด์น˜๊ธฐ ์œ„ํ•ด ์‚ฌ๋žŒ์ด ์ผ์ผ์ด ๋ฐ์ดํ„ฐ๋ฅผ ๋งŒ๋“ค์–ด์•ผ ํ•ด์„œ ๋น„์šฉ์ด ๋งŽ์ด ๋“ค์—ˆ์œผ๋‚˜, ์—ฐ๊ตฌ์ง„์€ AI๊ฐ€ ์ƒ์„ฑํ•œ ์กฐ์ž‘ ๊ฒฝ๋กœ๋ฅผ ์Šค์Šค๋กœ ํ‰๊ฐ€ํ•˜๊ณ  ๋ณด์ •ํ•˜๋Š” '๋ณด์ • ๋‹จ๊ณ„ ๋ณด์ƒ ์‹œ์Šคํ…œ'์„ ํ†ตํ•ด ๋น„์šฉ์„ 100๋ฐฐ ์ด์ƒ ์ ˆ๊ฐํ•˜๋ฉด์„œ๋„ 90% ์ด์ƒ์˜ ๋†’์€ ์ •ํ™•๋„๋ฅผ ํ™•๋ณดํ–ˆ๋‹ค. ๋˜ํ•œ, ์‚ฌ์šฉ์ž์˜ ๊ฐœ์ธ์ •๋ณด ๋ณดํ˜ธ๋ฅผ ์œ„ํ•ด ๋ฏผ๊ฐํ•œ ๋ฐ์ดํ„ฐ๋Š” ๊ธฐ๊ธฐ ๋‚ด๋ถ€์—์„œ ์ฒ˜๋ฆฌํ•˜๊ณ  ๋ณต์žกํ•œ ๋ช…๋ น๋งŒ ๋ชจ๋ธ์ด ์ˆ˜ํ–‰ํ•˜๋Š” GUI-MCP ํ”„๋กœํ† ์ฝœ๊ณผ ์‹ค์ œ ๋ชจ๋ฐ”์ผ ์‚ฌ์šฉ ํ™˜๊ฒฝ์„ ๋ฐ˜์˜ํ•œ AndroidDaily ๋ฒค์น˜๋งˆํฌ๋ฅผ ํ•จ๊ป˜ ๊ณต๊ฐœํ•˜์—ฌ ์‹ค์šฉ์ ์ธ GUI ์—์ด์ „ํŠธ์˜ ๊ฐ€๋Šฅ์„ฑ์„ ์ œ์‹œํ–ˆ๋‹ค.

MMGR: Multi-Modal Generative Reasoning

Paper, Project
MMGR์€ ๋น„๋””์˜ค ์ƒ์„ฑ AI๊ฐ€ ๋‹จ์ˆœํžˆ ๋ณด๊ธฐ์—๋งŒ ๊ทธ๋Ÿด๋“ฏํ•œ ์˜์ƒ์„ ๋งŒ๋“œ๋Š” ๊ฒƒ์„ ๋„˜์–ด, ๋ฌผ๋ฆฌ ๋ฒ•์น™์ด๋‚˜ ๋…ผ๋ฆฌ์  ์ธ๊ณผ๊ด€๊ณ„๋ฅผ ์ œ๋Œ€๋กœ ์ดํ•ดํ•˜๊ณ  ์žˆ๋Š”์ง€ ํ‰๊ฐ€ํ•˜๊ธฐ ์œ„ํ•œ ์ƒˆ๋กœ์šด ๋ฒค์น˜๋งˆํฌ์ด๋‹ค. ์—ฐ๊ตฌ์ง„์€ ๋ฌผ๋ฆฌ, ๋…ผ๋ฆฌ, 3D/2D ๊ณต๊ฐ„, ์‹œ๊ฐ„์ด๋ผ๋Š” 5๊ฐ€์ง€ ํ•ต์‹ฌ ์ถ”๋ก  ๋Šฅ๋ ฅ์„ ๊ธฐ์ค€์œผ๋กœ Sora-2๋‚˜ GPT-4o ๊ฐ™์€ ์ตœ์‹  ๋ชจ๋ธ๋“ค์„ ํ…Œ์ŠคํŠธํ–ˆ์œผ๋ฉฐ, ๊ทธ ๊ฒฐ๊ณผ ๋Œ€๋ถ€๋ถ„์˜ ๋ชจ๋ธ์ด ์‹œ๊ฐ์  ํ’ˆ์งˆ์€ ๋›ฐ์–ด๋‚˜์ง€๋งŒ ๋ณต์žกํ•œ ๋…ผ๋ฆฌ ๊ตฌ์กฐ๋‚˜ ์žฅ๊ธฐ์ ์ธ ๊ณต๊ฐ„ ๊ณ„ํš์ด ํ•„์š”ํ•œ ๊ณผ์ œ์—์„œ๋Š” ์„ฑ๋Šฅ์ด ํฌ๊ฒŒ ๋–จ์–ด์ง„๋‹ค๋Š” ์ ์„ ๋ฐœ๊ฒฌํ–ˆ๋‹ค. ์ด ์—ฐ๊ตฌ๋Š” ์ƒ์„ฑ ๋ชจ๋ธ์ด ์ง„์ •ํ•œ '์„ธ๊ณ„ ์‹œ๋ฎฌ๋ ˆ์ดํ„ฐ'๋กœ ๊ฑฐ๋“ญ๋‚˜๊ธฐ ์œ„ํ•ด์„œ๋Š” ๋‹จ์ˆœํ•œ ์‹œ๊ฐ์  ๋ชจ๋ฐฉ์„ ๋„˜์–ด ์ธ๊ณผ๊ด€๊ณ„์™€ ๋ฌผ๋ฆฌ์  ์ƒ์‹์„ ๋ฐ˜์˜ํ•˜๋Š” ํ•™์Šต ๋ฐฉํ–ฅ์ด ํ•„์š”ํ•จ์„ ๊ฐ•์กฐํ•œ๋‹ค.

Kling-Omni Technical Report

Paper, Project
Kling-Omni๋Š” ํ…์ŠคํŠธ, ์ด๋ฏธ์ง€, ๋น„๋””์˜ค ๋“ฑ ๋‹ค์–‘ํ•œ ์ž…๋ ฅ์„ ๋™์‹œ์— ์ดํ•ดํ•˜๊ณ  ์ด๋ฅผ ๋ฐ”ํƒ•์œผ๋กœ ์˜ํ™” ๊ฐ™์€ ๊ณ ํ’ˆ์งˆ ์˜์ƒ์„ ๋งŒ๋“ค์–ด๋‚ด๋Š” ํ†ตํ•ฉ ์ƒ์„ฑ ํ”„๋ ˆ์ž„์›Œํฌ์ด๋‹ค. ๊ธฐ์กด ์‹œ์Šคํ…œ๋“ค์ด ์˜์ƒ ์ƒ์„ฑ, ํŽธ์ง‘, ์ถ”๋ก ์„ ๊ฐ๊ฐ ๋ณ„๋„์˜ ๋ชจ๋ธ๋กœ ์ฒ˜๋ฆฌํ–ˆ๋˜ ๊ฒƒ๊ณผ ๋‹ฌ๋ฆฌ, ์ด ๋ชจ๋ธ์€ ๋ชจ๋“  ๊ณผ์ •์„ ํ•˜๋‚˜์˜ ์‹œ์Šคํ…œ ์•ˆ์—์„œ ์œ ๊ธฐ์ ์œผ๋กœ ์—ฐ๊ฒฐํ•˜์—ฌ ์‚ฌ์šฉ์ž์˜ ๋ณต์žกํ•œ ์ง€์‹œ์‚ฌํ•ญ์„ ์ •ํ™•ํ•˜๊ฒŒ ๋ฐ˜์˜ํ•œ ๊ฒฐ๊ณผ๋ฌผ์„ ๋‚ด๋†“๋Š”๋‹ค. ์—ฐ๊ตฌ์ง„์€ ๋Œ€๊ทœ๋ชจ ๋ฐ์ดํ„ฐ ์‹œ์Šคํ…œ๊ณผ ํšจ์œจ์ ์ธ ํ•™์Šต ์ธํ”„๋ผ๋ฅผ ๊ตฌ์ถ•ํ•˜์—ฌ ๋ชจ๋ธ์ด ๋‹จ์ˆœํ•œ ์ฝ˜ํ…์ธ  ์ œ์ž‘ ๋„๊ตฌ๋ฅผ ๋„˜์–ด, ์ฃผ๋ณ€ ํ™˜๊ฒฝ์„ ์ธ์‹ํ•˜๊ณ  ์ƒํ˜ธ์ž‘์šฉํ•  ์ˆ˜ ์žˆ๋Š” '๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์„ธ๊ณ„ ์‹œ๋ฎฌ๋ ˆ์ดํ„ฐ'๋กœ์„œ์˜ ์ž ์žฌ๋ ฅ์„ ๊ฐ–์ถ”๋„๋ก ์„ค๊ณ„ํ–ˆ๋‹ค.

QwenLong-L1.5: Post-Training Recipe for Long-Context Reasoning and Memory Management

Paper, Project
์ด ๋…ผ๋ฌธ์€ ๋ฐฉ๋Œ€ํ•œ ์–‘์˜ ์ •๋ณด๋ฅผ ํ•œ๊บผ๋ฒˆ์— ์ฒ˜๋ฆฌํ•˜๊ณ  ์ถ”๋ก ํ•  ์ˆ˜ ์žˆ๋Š” QwenLong-L1.5 ๋ชจ๋ธ์˜ ๊ฐœ๋ฐœ ๋ฐฉ๋ฒ•๋ก ์„ ๋‹ค๋ฃฌ๋‹ค. ์—ฐ๊ตฌ์ง„์€ ์ˆ˜๋งŽ์€ ๋ฌธ์„œ ์†์— ํฉ์–ด์ง„ ์ •๋ณด๋ฅผ ์—ฐ๊ฒฐํ•ด ๋ณต์žกํ•œ ์งˆ๋ฌธ์— ๋‹ตํ•˜๋Š” ๋Šฅ๋ ฅ์„ ํ‚ค์šฐ๊ธฐ ์œ„ํ•ด ํŠน์ˆ˜ํ•œ ๋ฐ์ดํ„ฐ ํ•ฉ์„ฑ ํŒŒ์ดํ”„๋ผ์ธ์„ ๊ตฌ์ถ•ํ–ˆ์œผ๋ฉฐ, ๊ธด ๋ฌธ๋งฅ ํ•™์Šต ์‹œ ๋ฐœ์ƒํ•˜๋Š” ๋ถˆ์•ˆ์ •์„ฑ์„ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด '์ ์‘ํ˜• ์—”ํŠธ๋กœํ”ผ ์ œ์–ด ์ •์ฑ… ์ตœ์ ํ™”(AEPO)'๋ผ๋Š” ์ƒˆ๋กœ์šด ๊ฐ•ํ™”ํ•™์Šต ๊ธฐ๋ฒ•์„ ๋„์ž…ํ–ˆ๋‹ค. ํŠนํžˆ ๋ฉ”๋ชจ๋ฆฌ ๊ด€๋ฆฌ ๊ธฐ๋Šฅ์„ ๊ฐ•ํ™”ํ•˜์—ฌ ์ตœ๋Œ€ 400๋งŒ ํ† ํฐ ์ด์ƒ์˜ ์ดˆ์žฅ๋ฌธ ๋ฐ์ดํ„ฐ์—์„œ๋„ ๋ง‰ํž˜์—†์ด ์ถ”๋ก ์ด ๊ฐ€๋Šฅํ•˜๊ฒŒ ์„ค๊ณ„๋˜์—ˆ์œผ๋ฉฐ, ์ด๋Š” ๊ณผํ•™์  ์ถ”๋ก ์ด๋‚˜ ๊ธด ๋Œ€ํ™” ๊ธฐ๋ก ๊ด€๋ฆฌ ๋“ฑ ์‹ค์ œ ๋ณต์žกํ•œ ์—…๋ฌด ํ™˜๊ฒฝ์—์„œ ๋›ฐ์–ด๋‚œ ์„ฑ๋Šฅ์„ ๋ฐœํœ˜ํ•œ๋‹ค.

EgoX: Egocentric Video Generation from a Single Exocentric Video

Paper
EgoX๋Š” ์ œ3์ž๊ฐ€ ์ดฌ์˜ํ•œ ์ผ๋ฐ˜์ ์ธ ์˜์ƒ(ํƒ€์ธ์นญ ์‹œ์ )์„ ๋ฐ”ํƒ•์œผ๋กœ, ํ•ด๋‹น ์ƒํ™ฉ ์† ์ฃผ์ธ๊ณต์ด ์ง์ ‘ ๋ณด๋Š” ๋“ฏํ•œ 1์ธ์นญ ์‹œ์ (Ego-centric) ์˜์ƒ์„ ์ƒ์„ฑํ•˜๋Š” ํ˜์‹ ์ ์ธ ๊ธฐ์ˆ ์ด๋‹ค. ์นด๋ฉ”๋ผ์˜ ๊ฐ๋„๊ฐ€ ์™„์ „ํžˆ ๋‹ค๋ฅด๊ณ  ๋ณด์ด์ง€ ์•Š๋Š” ์˜์—ญ๊นŒ์ง€ ๊ทธ๋ ค๋‚ด์•ผ ํ•˜๋Š” ์–ด๋ ค์šด ์ž‘์—…์ด์ง€๋งŒ, ์—ฐ๊ตฌ์ง„์€ ๋น„๋””์˜ค ํ™•์‚ฐ ๋ชจ๋ธ์˜ ์ง€์‹๊ณผ '๊ธฐํ•˜ํ•™ ๊ฐ€์ด๋“œ ์ž๊ธฐ ์ฃผ์˜ ์ง‘์ค‘' ๋ฉ”์ปค๋‹ˆ์ฆ˜์„ ๊ฒฐํ•ฉํ•ด ์‹œ๊ฐ์  ์™œ๊ณก ์—†์ด ์ž์—ฐ์Šค๋Ÿฌ์šด ์˜์ƒ์„ ๋งŒ๋“ค์–ด๋ƒˆ๋‹ค. ์ด ๊ธฐ์ˆ ์„ ํ™œ์šฉํ•˜๋ฉด ํ‰๋ฒ”ํ•œ ์ผ์ƒ ์˜์ƒ์„ ๊ฐ€์ƒํ˜„์‹ค(VR)์ด๋‚˜ ๋ชฐ์ž…ํ˜• ์ฝ˜ํ…์ธ ๋กœ ์†์‰ฝ๊ฒŒ ๋ณ€ํ™˜ํ•  ์ˆ˜ ์žˆ์–ด ์ธ๊ฐ„์˜ ๊ฒฝํ—˜์„ ๋ณด๋‹ค ์ƒ์ƒํ•˜๊ฒŒ ๊ณต์œ ํ•˜๊ณ  ์ดํ•ดํ•˜๋Š” ๋ฐ ํฐ ๋„์›€์„ ์ค„ ์ˆ˜ ์žˆ๋‹ค.

Memory in the Age of AI Agents

Paper, Project
์ด ๋…ผ๋ฌธ์€ AI ์—์ด์ „ํŠธ์˜ ํ•ต์‹ฌ ๋Šฅ๋ ฅ์ธ '๊ธฐ์–ต(Memory)' ์‹œ์Šคํ…œ์˜ ํ˜„์ฃผ์†Œ๋ฅผ ์ •๋ฆฌํ•˜๊ณ  ๋ฏธ๋ž˜ ๋ฐฉํ–ฅ์„ ์ œ์‹œํ•˜๋Š” ์ข…ํ•ฉ ๋ณด๊ณ ์„œ์ด๋‹ค. ์—ฐ๊ตฌ์ง„์€ ๊ธฐ์กด์˜ ๋‹จ์ˆœํ•œ ์ •๋ณด ๊ฒ€์ƒ‰(RAG)์ด๋‚˜ ๋ฌธ๋งฅ ์ž…๋ ฅ ๋ฐฉ์‹๊ณผ ์ฐจ๋ณ„ํ™”๋˜๋Š” ์—์ด์ „ํŠธ๋งŒ์˜ ๊ธฐ์–ต ์‹œ์Šคํ…œ์„ ์ •์˜ํ•˜๊ณ , ์ด๋ฅผ ํ˜•ํƒœ(ํ† ํฐ, ํŒŒ๋ผ๋ฏธํ„ฐ ๋“ฑ), ๊ธฐ๋Šฅ(์‚ฌ์‹ค์ , ๊ฒฝํ—˜์ , ์ž‘์—… ๊ธฐ์–ต), ๋™์—ญํ•™(ํ˜•์„ฑ, ์ง„ํ™”, ์ธ์ถœ)์˜ ์„ธ ๊ฐ€์ง€ ๊ด€์ ์—์„œ ์ฒด๊ณ„์ ์œผ๋กœ ๋ถ„๋ฅ˜ํ–ˆ๋‹ค. ๋˜ํ•œ ํ˜„์žฌ ์‚ฌ์šฉ๋˜๋Š” ๋‹ค์–‘ํ•œ ๊ธฐ์–ต ํ‰๊ฐ€ ๊ธฐ์ค€๊ณผ ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ •๋ฆฌํ•จ๊ณผ ๋™์‹œ์—, ์•ž์œผ๋กœ AI๊ฐ€ ์Šค์Šค๋กœ ๊ธฐ์–ต์„ ๊ด€๋ฆฌํ•˜๊ณ  ๊ฐ•ํ™”ํ•™์Šต๊ณผ ๊ฒฐํ•ฉํ•˜์—ฌ ๋” ์ง€๋Šฅ์ ์œผ๋กœ ๋ฐœ์ „ํ•˜๊ธฐ ์œ„ํ•ด ํ•„์š”ํ•œ ๊ณผ์ œ๋“ค์„ ์ œ์‹œํ•˜๋ฉฐ ํ•™๊ณ„์˜ ์ด์ •ํ‘œ ์—ญํ• ์„ ํ•œ๋‹ค.

Towards Scalable Pre-training of Visual Tokenizers for Generation

Paper, Project
์ƒ์„ฑ AI์˜ ์„ฑ๋Šฅ์„ ๊ฒฐ์ •์ง“๋Š” ํ•ต์‹ฌ ์š”์†Œ์ธ ๋น„์ฃผ์–ผ ํ† ํฌ๋‚˜์ด์ €(VAE ๋“ฑ)์˜ ํ•™์Šต ๋ฐฉ์‹์„ ๊ทผ๋ณธ์ ์œผ๋กœ ๊ฐœ์„ ํ•œ VTP ํ”„๋ ˆ์ž„์›Œํฌ์— ๊ด€ํ•œ ์—ฐ๊ตฌ์ด๋‹ค. ๊ธฐ์กด ๋ฐฉ์‹์€ ์ด๋ฏธ์ง€๋ฅผ ํ”ฝ์…€ ๋‹จ์œ„๋กœ ์ •ํ™•ํ•˜๊ฒŒ ๋ณต์›ํ•˜๋Š” ๋ฐ๋งŒ ์น˜์ค‘ํ•˜์—ฌ ์ •์ž‘ ๊ณ ์ฐจ์›์ ์ธ ์˜๋ฏธ ํŒŒ์•…์—๋Š” ์†Œํ™€ํ–ˆ๋Š”๋ฐ, VTP๋Š” ์ด๋ฏธ์ง€์™€ ํ…์ŠคํŠธ์˜ ๋Œ€์กฐ ํ•™์Šต ๋ฐ ์ž๊ธฐ์ง€๋„ ํ•™์Šต์„ ๊ฒฐํ•ฉํ•ด ๋ชจ๋ธ์ด ์‚ฌ๋ฌผ์˜ ์˜๋ฏธ๋ฅผ ๋” ์ž˜ ์ดํ•ดํ•˜๋„๋ก ์„ค๊ณ„๋˜์—ˆ๋‹ค. ๊ทธ ๊ฒฐ๊ณผ, ํ•™์Šต ์†๋„๋Š” ๊ธฐ์กด๋ณด๋‹ค 4๋ฐฐ ์ด์ƒ ๋นจ๋ผ์กŒ์œผ๋ฉฐ ๋ฐ์ดํ„ฐ์™€ ์—ฐ์‚ฐ๋Ÿ‰์„ ๋Š˜๋ฆด์ˆ˜๋ก ์ƒ์„ฑ ํ’ˆ์งˆ์ด ๋น„๋ก€ํ•ด์„œ ํ–ฅ์ƒ๋˜๋Š” 'ํ™•์žฅ์„ฑ(Scalability)' ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜์—ฌ ์ฐจ์„ธ๋Œ€ ์ด๋ฏธ์ง€ ๋ฐ ๋น„๋””์˜ค ์ƒ์„ฑ ๋ชจ๋ธ์„ ์œ„ํ•œ ๊ฐ•๋ ฅํ•œ ๊ธฐ์ดˆ๋ฅผ ๋งˆ๋ จํ–ˆ๋‹ค.

ReFusion: A Diffusion Large Language Model with Parallel Autoregressive Decoding

Paper, Project
ReFusion์€ ๊ธฐ์กด ๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ(LLM)์˜ ๋А๋ฆฐ ์ƒ์„ฑ ์†๋„์™€ ๋น„ํšจ์œจ์„ฑ์„ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด ํ™•์‚ฐ ๋ชจ๋ธ(Diffusion)์˜ ๋ณ‘๋ ฌ ์ฒ˜๋ฆฌ ๋ฐฉ์‹์„ ์ ‘๋ชฉํ•œ ์ƒˆ๋กœ์šด ๋ชจ๋ธ์ด๋‹ค. '๊ณ„ํš ํ›„ ์ฑ„์šฐ๊ธฐ(Plan-and-infill)' ๋ฐฉ์‹์„ ๋„์ž…ํ•˜์—ฌ, ๋จผ์ € ์ „์ฒด์ ์ธ ๋ฌธ์žฅ์˜ ํ๋ฆ„์„ ๊ณ„ํšํ•œ ๋’ค ์—ฌ๋Ÿฌ ๋‹จ์–ด ๋ฌถ์Œ์„ ๋™์‹œ์— ์ƒ์„ฑํ•จ์œผ๋กœ์จ ๊ธฐ์กด ๋ชจ๋ธ๋ณด๋‹ค ํ‰๊ท  2.3๋ฐฐ ์ด์ƒ ๋น ๋ฅธ ์†๋„๋ฅผ ๊ตฌํ˜„ํ–ˆ๋‹ค. ํŠนํžˆ ๊ณผ๊ฑฐ์˜ ์ •๋ณด๋ฅผ ์ €์žฅํ•˜๋Š” KV ์บ์‹œ๋ฅผ ํšจ์œจ์ ์œผ๋กœ ์žฌ์‚ฌ์šฉํ•˜๋„๋ก ์„ค๊ณ„๋˜์–ด ์—ฐ์‚ฐ ๋น„์šฉ์„ ํš๊ธฐ์ ์œผ๋กœ ๋‚ฎ์ถ”์—ˆ์œผ๋ฉฐ, ์†๋„๊ฐ€ ๋น ๋ฅด๋ฉด์„œ๋„ ๊ธฐ์กด์˜ ๊ฐ•๋ ฅํ•œ ์–ธ์–ด ๋ชจ๋ธ๋“ค์— ๋’ค์ฒ˜์ง€์ง€ ์•Š๋Š” ๋†’์€ ์„ฑ๋Šฅ์„ ๋ณด์—ฌ์ค€๋‹ค.

LongVie 2: Multimodal Controllable Ultra-Long Video World Model

Paper, Project
์ด ๋…ผ๋ฌธ์€ ์ตœ๋Œ€ 5๋ถ„ ๊ธธ์ด์— ๋‹ฌํ•˜๋Š” ๊ณ ํ’ˆ์งˆ ์˜์ƒ์„ ์ผ๊ด€์„ฑ ์žˆ๊ฒŒ ์ƒ์„ฑํ•  ์ˆ˜ ์žˆ๋Š” LongVie 2 ๋ชจ๋ธ์„ ์†Œ๊ฐœํ•œ๋‹ค. ์—ฐ๊ตฌ์ง„์€ ์˜์ƒ์˜ ์กฐ์ž‘ ๊ฐ€๋Šฅ์„ฑ, ์žฅ๊ธฐ์ ์ธ ์‹œ๊ฐ์  ํ’ˆ์งˆ, ์‹œ๊ฐ„์  ์ผ๊ด€์„ฑ์ด๋ผ๋Š” ์„ธ ๊ฐ€์ง€ ๋ชฉํ‘œ๋ฅผ ๋‹ฌ์„ฑํ•˜๊ธฐ ์œ„ํ•ด 3๋‹จ๊ณ„ ํ•™์Šต ๊ณผ์ •์„ ๊ฑฐ์ณค์œผ๋ฉฐ, ํŠนํžˆ ์ด์ „ ์žฅ๋ฉด์˜ ๋งฅ๋ฝ์„ ๋‹ค์Œ ์žฅ๋ฉด์— ์ •ํ™•ํ•˜๊ฒŒ ์ „๋‹ฌํ•˜๋Š” '์ด๋ ฅ ๋ฌธ๋งฅ ๊ฐ€์ด๋“œ' ๊ธฐ์ˆ ์„ ํ†ตํ•ด ๊ธด ์‹œ๊ฐ„ ๋™์•ˆ ์˜์ƒ์ด ๊นจ์ง€์ง€ ์•Š๊ฒŒ ์œ ์ง€ํ–ˆ๋‹ค. ๋”๋ถˆ์–ด ์‹ค์ œ์™€ ๊ฐ€์ƒ ํ™˜๊ฒฝ์„ ์•„์šฐ๋ฅด๋Š” 1๋ถ„ ์ด์ƒ์˜ ๊ณ ํ•ด์ƒ๋„ ์˜์ƒ ๋ฒค์น˜๋งˆํฌ์ธ LongVGenBench๋ฅผ ๊ตฌ์ถ•ํ•˜์—ฌ ์žฅ๊ธฐ ์˜์ƒ ์ƒ์„ฑ ๋ถ„์•ผ์˜ ์ƒˆ๋กœ์šด ํ‘œ์ค€์„ ์„ธ์› ๋‹ค.

Video Reality Test: Can AI-Generated ASMR Videos fool VLMs and Humans?

Paper, Project
Video Reality Test๋Š” ์‹œ๊ฐ๊ณผ ์ฒญ๊ฐ์ด ์•„์ฃผ ์„ธ๋ฐ€ํ•˜๊ฒŒ ๊ฒฐํ•ฉ๋œ ASMR ์˜์ƒ์„ ํ™œ์šฉํ•ด AI๊ฐ€ ๋งŒ๋“  ์˜์ƒ์ด ์–ผ๋งˆ๋‚˜ ์ง„์งœ ๊ฐ™์€์ง€๋ฅผ ํŒ๋ณ„ํ•˜๋Š” ํฅ๋ฏธ๋กœ์šด ์—ฐ๊ตฌ์ด๋‹ค. ์—ฐ๊ตฌ์ง„์€ ๋ฌผ์ฒด๋ฅผ ๋งŒ์ง€๊ฑฐ๋‚˜ ๋‘๋“œ๋ฆฌ๋Š” ๋ฏธ์„ธํ•œ ๋™์ž‘๊ณผ ์†Œ๋ฆฌ๊ฐ€ ์ผ์น˜ํ•ด์•ผ ํ•˜๋Š” ASMR์˜ ํŠน์„ฑ์„ ์ด์šฉํ•ด ์ธ๊ฐ„๊ณผ AI ๋ชจ๋ธ(VLM)์ด ์ง„์งœ์™€ ๊ฐ€์งœ ์˜์ƒ์„ ๊ตฌ๋ถ„ํ•  ์ˆ˜ ์žˆ๋Š”์ง€ ์‹คํ—˜ํ–ˆ๋‹ค. ์‹คํ—˜ ๊ฒฐ๊ณผ, ์ตœ์‹  ์ƒ์„ฑ ๋ชจ๋ธ์ธ Veo3.1์€ ์ธ๊ฐ„ ์ „๋ฌธ๊ฐ€์กฐ์ฐจ ์†์ผ ์ •๋„๋กœ ์ •๊ตํ•œ ์˜์ƒ์„ ๋งŒ๋“ค์–ด๋ƒˆ์œผ๋ฉฐ, ์ตœ๊ฐ•์˜ ๋ถ„์„ ๋ชจ๋ธ์ธ Gemini 2.5-Pro์กฐ์ฐจ ๊ตฌ๋ถ„ ์ •ํ™•๋„๊ฐ€ 56%์— ๊ทธ์ณ AI ์ƒ์„ฑ ์˜์ƒ์˜ ํƒ์ง€๊ฐ€ ์ ์  ๋” ์–ด๋ ค์›Œ์ง€๊ณ  ์žˆ์Œ์„ ์‹œ์‚ฌํ–ˆ๋‹ค.

WorldPlay: Towards Long-Term Geometric Consistency for Real-Time Interactive World Modeling

Paper, Project
WorldPlay๋Š” ์‚ฌ์šฉ์ž์˜ ํ‚ค๋ณด๋“œ๋‚˜ ๋งˆ์šฐ์Šค ์ž…๋ ฅ์— ๋”ฐ๋ผ ์‹ค์‹œ๊ฐ„์œผ๋กœ 720p ํ•ด์ƒ๋„์˜ ์˜์ƒ์„ ์ƒ์„ฑํ•˜๋ฉฐ ๋ฐ˜์‘ํ•˜๋Š” ์‹ค์‹œ๊ฐ„ ๋Œ€ํ™”ํ˜• ์„ธ๊ณ„ ์‹œ๋ฎฌ๋ ˆ์ดํ„ฐ์ด๋‹ค. ๊ธฐ์กด์˜ ์‹ค์‹œ๊ฐ„ ์˜์ƒ ์ƒ์„ฑ ๋ชจ๋ธ๋“ค์€ ์‹œ๊ฐ„์ด ์ง€๋‚ ์ˆ˜๋ก ๊ณต๊ฐ„ ๊ตฌ์กฐ๊ฐ€ ๋’คํ‹€๋ฆฌ๋Š” ๋ฌธ์ œ๊ฐ€ ์žˆ์—ˆ์œผ๋‚˜, ์ด ๋ชจ๋ธ์€ '์žฌ๊ตฌ์„ฑ๋œ ๋ฌธ๋งฅ ๋ฉ”๋ชจ๋ฆฌ' ๊ธฐ์ˆ ์„ ํ†ตํ•ด ์•„์ฃผ ์˜ค๋ž˜์ „ ์žฅ๋ฉด์˜ ๊ธฐํ•˜ํ•™์  ์ •๋ณด๊นŒ์ง€ ๊ธฐ์–ตํ•˜์—ฌ ์ผ๊ด€์„ฑ์„ ์œ ์ง€ํ•œ๋‹ค. ๋˜ํ•œ '๋ฌธ๋งฅ ๊ฐ•์ œ(Context Forcing)'๋ผ๋Š” ์ง€์‹ ์ฆ๋ฅ˜ ๊ธฐ๋ฒ•์„ ์ ์šฉํ•ด ์„ฑ๋Šฅ ์ €ํ•˜ ์—†์ด๋„ ์ดˆ๋‹น 24ํ”„๋ ˆ์ž„(FPS)์˜ ๋น ๋ฅธ ์†๋„๋ฅผ ํ™•๋ณดํ•จ์œผ๋กœ์จ, ๊ฒŒ์ž„์ด๋‚˜ ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ํ™˜๊ฒฝ์—์„œ ์‹ค์‹œ๊ฐ„์œผ๋กœ ์ƒํ˜ธ์ž‘์šฉ ๊ฐ€๋Šฅํ•œ ๊ฐ€์ƒ ์„ธ๊ณ„๋ฅผ ๊ตฌํ˜„ํ•˜๋Š” ๋ฐ ์„ฑ๊ณตํ–ˆ๋‹ค.

profile
XR๊ณผ AI์— ๊ด€์‹ฌ์ด ๋งŽ์€ Sky ์ž…๋‹ˆ๋‹ค.

0๊ฐœ์˜ ๋Œ“๊ธ€