[2025/W42] ๐Ÿค— Weekly AI Research

Skyยท2025๋…„ 10์›” 17์ผ

Weekly AI Research Digest

๋ชฉ๋ก ๋ณด๊ธฐ
68/89

ํ•ฉ์„ฑ ๋ฐ์ดํ„ฐ ๊ธฐ๋ฐ˜ LLM๋ถ€ํ„ฐ ์–‘์žํ™” ๊ฐ•ํ™”ํ•™์Šต, ํ”ฝ์…€ยท3Dยท์˜ด๋‹ˆ๋ชจ๋‹ฌ ์ƒ์„ฑ ๋ชจ๋ธ์˜ ํ˜์‹ 
๋ฐ์Šคํฌํ†ฑ ๋ฐ์ดํ„ฐ ์ „์ด์™€ ๊ณต๊ฐ„ ๊ฐ•์ œ๋ฅผ ํ†ตํ•œ ๋กœ๋ด‡ AI์˜ ์ง„ํ™”, ๊ทธ๋ฆฌ๊ณ  ๋ฉ€ํ‹ฐ ์—์ด์ „ํŠธ ํ‰๊ฐ€ ์ฒด๊ณ„ ๊ตฌ์ถ•

QeRL: Beyond Efficiency -- Quantization-enhanced Reinforcement Learning for LLMs

Paper, Project
QeRL์€ ๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ(LLM)์˜ ๊ฐ•ํ™”ํ•™์Šต(RL)์ด ์š”๊ตฌํ•˜๋Š” ๋ง‰๋Œ€ํ•œ ์ž์› ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด NVFP4 ์–‘์žํ™”์™€ LoRA๋ฅผ ๊ฒฐํ•ฉํ•œ ํ”„๋ ˆ์ž„์›Œํฌ๋‹ค. ์ด ๋ฐฉ์‹์€ RL์˜ ๋กค์•„์›ƒ ๋‹จ๊ณ„๋ฅผ 1.5๋ฐฐ ์ด์ƒ ๊ฐ€์†ํ•˜๊ณ  ๋ฉ”๋ชจ๋ฆฌ ์˜ค๋ฒ„ํ—ค๋“œ๋ฅผ ์ค„์ผ ๋ฟ๋งŒ ์•„๋‹ˆ๋ผ, ์–‘์žํ™” ๊ณผ์ •์—์„œ ๋ฐœ์ƒํ•˜๋Š” ๋…ธ์ด์ฆˆ๋ฅผ ํ™œ์šฉํ•ด ์ •์ฑ… ์—”ํŠธ๋กœํ”ผ๋ฅผ ๋†’์—ฌ ๋ชจ๋ธ์˜ ํƒํ—˜ ๋Šฅ๋ ฅ์„ ๊ฐ•ํ™”ํ•œ๋‹ค. ์ ์‘ํ˜• ์–‘์žํ™” ๋…ธ์ด์ฆˆ(AQN) ๋ฉ”์ปค๋‹ˆ์ฆ˜์œผ๋กœ ํƒํ—˜์„ ์ตœ์ ํ™”ํ•˜๋ฉฐ, ๋‹จ์ผ H100 GPU์—์„œ 32B ๋ชจ๋ธ์˜ RL ํ›ˆ๋ จ์„ ์ตœ์ดˆ๋กœ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ–ˆ๊ณ , ์ฃผ์š” ์ˆ˜ํ•™ ๋ฒค์น˜๋งˆํฌ์—์„œ ์ „์ฒด ํŒŒ๋ผ๋ฏธํ„ฐ ๋ฏธ์„ธ์กฐ์ •๊ณผ ๋™๋“ฑํ•œ ์„ฑ๋Šฅ์„ ๋‹ฌ์„ฑํ•จ์œผ๋กœ์จ ํšจ์œจ์„ฑ๊ณผ ํšจ๊ณผ์„ฑ์„ ๋ชจ๋‘ ์ž…์ฆํ–ˆ๋‹ค.

Diffusion Transformers with Representation Autoencoders

Paper, Project
์ด ๋…ผ๋ฌธ์€ ๋””ํ“จ์ „ ํŠธ๋žœ์Šคํฌ๋จธ(DiT)์˜ ์ด๋ฏธ์ง€ ์ƒ์„ฑ ์„ฑ๋Šฅ์„ ๋†’์ด๊ธฐ ์œ„ํ•ด ๊ธฐ์กด์˜ VAE ์˜คํ† ์ธ์ฝ”๋”๋ฅผ ์˜๋ฏธ์ ์œผ๋กœ ํ’๋ถ€ํ•œ ํ‘œํ˜„์„ ํ•™์Šตํ•˜๋Š” ํ‘œํ˜„ ์˜คํ† ์ธ์ฝ”๋”(RAE)๋กœ ๋Œ€์ฒดํ•˜๋Š” ๋ฐฉ๋ฒ•์„ ์ œ์•ˆํ•œ๋‹ค. RAE๋Š” DINO์™€ ๊ฐ™์€ ์‚ฌ์ „ ํ›ˆ๋ จ๋œ ํ‘œํ˜„ ์ธ์ฝ”๋”์™€ ํ›ˆ๋ จ๋œ ๋””์ฝ”๋”๋ฅผ ๊ฒฐํ•ฉํ•˜์—ฌ ๊ณ ํ’ˆ์งˆ์˜ ์ด๋ฏธ์ง€ ๋ณต์›๊ณผ ํ’๋ถ€ํ•œ ์ž ์žฌ ๊ณต๊ฐ„์„ ์ œ๊ณตํ•˜๋ฉฐ, ๊ณ ์ฐจ์› ์ž ์žฌ ๊ณต๊ฐ„์—์„œ ๋ฐœ์ƒํ•˜๋Š” ์–ด๋ ค์›€์„ ์ด๋ก ์— ๊ธฐ๋ฐ˜ํ•œ ํ•ด๊ฒฐ์ฑ…์œผ๋กœ ๊ทน๋ณตํ–ˆ๋‹ค. ๊ทธ ๊ฒฐ๊ณผ, ๋ณด์กฐ์ ์ธ ์†์‹ค ํ•จ์ˆ˜ ์—†์ด๋„ ๋” ๋น ๋ฅธ ์ˆ˜๋ ด์„ ๋‹ฌ์„ฑํ•˜๊ณ  ImageNet ๋ฒค์น˜๋งˆํฌ์—์„œ ์ตœ๊ณ  ์ˆ˜์ค€์˜ FID ์ ์ˆ˜๋ฅผ ๊ธฐ๋กํ•จ์œผ๋กœ์จ RAE๊ฐ€ DiT ํ›ˆ๋ จ์˜ ์ƒˆ๋กœ์šด ํ‘œ์ค€์ด ๋˜์–ด์•ผ ํ•จ์„ ์ฃผ์žฅํ•œ๋‹ค.

Spatial Forcing: Implicit Spatial Representation Alignment for Vision-language-action Model

Paper, Project
๊ณต๊ฐ„ ๊ฐ•์ œ(SF)๋Š” ์‹œ๊ฐ-์–ธ์–ด-ํ–‰๋™(VLA) ๋ชจ๋ธ์ด ๊นŠ์ด ๋งต๊ณผ ๊ฐ™์€ ๋ช…์‹œ์ ์ธ 3D ๋ฐ์ดํ„ฐ ์—†์ด๋„ 3D ๊ณต๊ฐ„ ์ดํ•ด ๋Šฅ๋ ฅ์„ ๊ฐ–์ถ”๋„๋ก ํ•˜๋Š” ์ƒˆ๋กœ์šด ์ •๋ ฌ ์ „๋žต์ด๋‹ค. ์ด ๋ฐฉ๋ฒ•์€ VLA ๋ชจ๋ธ์˜ ์ค‘๊ฐ„ ์‹œ๊ฐ ์ž„๋ฒ ๋”ฉ์„ ์‚ฌ์ „ ํ›ˆ๋ จ๋œ 3D ํŒŒ์šด๋ฐ์ด์…˜ ๋ชจ๋ธ์˜ ๊ธฐํ•˜ํ•™์  ํ‘œํ˜„๊ณผ ์ •๋ ฌ์‹œ์ผœ, ๋ชจ๋ธ์ด ํ–‰๋™ ์ •๋ฐ€๋„๋ฅผ ๋†’์ด๋Š” ๋ฐ ํ•„์š”ํ•œ ํ’๋ถ€ํ•œ ๊ณต๊ฐ„ ์ •๋ณด๋ฅผ ์•”์‹œ์ ์œผ๋กœ ์ธ์ฝ”๋”ฉํ•˜๋„๋ก ์œ ๋„ํ•œ๋‹ค. ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ๋ฐ ์‹ค์ œ ๋กœ๋ด‡ ์‹คํ—˜์—์„œ SF๋Š” ๊ธฐ์กด 2D ๋ฐ 3D ๊ธฐ๋ฐ˜ ๋ชจ๋ธ๋“ค์„ ๋Šฅ๊ฐ€ํ•˜๋Š” ์ตœ๊ณ  ์„ฑ๋Šฅ์„ ๋‹ฌ์„ฑํ–ˆ์œผ๋ฉฐ, ํ›ˆ๋ จ ์†๋„๋ฅผ ์ตœ๋Œ€ 3.8๋ฐฐ ๊ฐ€์†ํ•˜๊ณ  ๋ฐ์ดํ„ฐ ํšจ์œจ์„ฑ์„ ๊ฐœ์„ ํ•˜๋Š” ํšจ๊ณผ๋ฅผ ๋ณด์˜€๋‹ค.

D2E: Scaling Vision-Action Pretraining on Desktop Data for Transfer to Embodied AI

Paper, Project
D2E๋Š” ์‹ค์ œ ๋กœ๋ด‡ ๋ฐ์ดํ„ฐ ์ˆ˜์ง‘์˜ ๋†’์€ ๋น„์šฉ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด, ๊ฒŒ์ž„๊ณผ ๊ฐ™์€ ๋ฐ์Šคํฌํ†ฑ ํ™˜๊ฒฝ์˜ ์ƒํ˜ธ์ž‘์šฉ ๋ฐ์ดํ„ฐ๋ฅผ ๋กœ๋ด‡ AI ์‚ฌ์ „ ํ›ˆ๋ จ์— ํ™œ์šฉํ•˜๋Š” ํ”„๋ ˆ์ž„์›Œํฌ๋‹ค. ์ด ํ”„๋ ˆ์ž„์›Œํฌ๋Š” ๋‹ค์–‘ํ•œ ๋ฐ์Šคํฌํ†ฑ ๋ฐ์ดํ„ฐ๋ฅผ ํ‘œ์ค€ํ™”ํ•˜๊ณ  ์••์ถ•ํ•˜๋Š” OWA ํˆดํ‚ท, ์ฒ˜์Œ ๋ณด๋Š” ๊ฒŒ์ž„์—์„œ๋„ ์ผ๋ฐ˜ํ™” ์„ฑ๋Šฅ์ด ๋›ฐ์–ด๋‚œ Generalist-IDM, ๊ทธ๋ฆฌ๊ณ  ๋ฐ์Šคํฌํ†ฑ์—์„œ ํ•™์Šต๋œ ํ‘œํ˜„์„ ์‹ค์ œ ๋กœ๋ด‡ ์กฐ์ž‘ ๋ฐ ํƒ์ƒ‰ ์ž‘์—…์œผ๋กœ ์ „์ด์‹œํ‚ค๋Š” VAPT๋กœ ๊ตฌ์„ฑ๋œ๋‹ค. 1,300์‹œ๊ฐ„ ์ด์ƒ์˜ ๋ฐ์Šคํฌํ†ฑ ๋ฐ์ดํ„ฐ๋ฅผ ํ™œ์šฉํ•œ ์‹คํ—˜์—์„œ ๋†’์€ ์„ฑ๊ณต๋ฅ ์„ ๊ธฐ๋กํ•˜๋ฉฐ, ๋””์ง€ํ„ธ ํ™˜๊ฒฝ์˜ ๊ฐ๊ฐ-์šด๋™ ๋Šฅ๋ ฅ์ด ๋ฌผ๋ฆฌ์  ๋กœ๋ด‡ ์ž‘์—…์œผ๋กœ ์˜๋ฏธ ์žˆ๊ฒŒ ์ „์ด๋  ์ˆ˜ ์žˆ์Œ์„ ์ž…์ฆํ–ˆ๋‹ค.

Thinking with Camera: A Unified Multimodal Model for Camera-Centric Understanding and Generation

Paper, Project
Puffin์€ ๊ณต๊ฐ„ ์ง€๋Šฅ์˜ ํ•ต์‹ฌ์ธ ์นด๋ฉ”๋ผ ์ค‘์‹ฌ์˜ ์ดํ•ด์™€ ์ƒ์„ฑ์„ ํ•˜๋‚˜์˜ ๋ชจ๋ธ๋กœ ํ†ตํ•ฉํ•˜์—ฌ, ์ž„์˜์˜ ์‹œ์ ์—์„œ ์žฅ๋ฉด์„ ํ•ด์„ํ•˜๊ณ  ์ƒ์„ฑํ•˜๋Š” ํ†ตํ•ฉ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๋ชจ๋ธ์ด๋‹ค. ์ด ๋ชจ๋ธ์€ '์นด๋ฉ”๋ผ๋ฅผ ์–ธ์–ด์ฒ˜๋Ÿผ ์ทจ๊ธ‰'ํ•˜๋Š” ์ƒˆ๋กœ์šด ํŒจ๋Ÿฌ๋‹ค์ž„์„ ๋„์ž…ํ•˜์—ฌ, ๊ณต๊ฐ„์  ์‹œ๊ฐ ๋‹จ์„œ์™€ ์‚ฌ์ง„ ์šฉ์–ด๋ฅผ ์ •๋ ฌํ•˜๊ณ  ๊ธฐํ•˜ํ•™์  ๋งฅ๋ฝ์„ ์ถ”๋ก ํ•˜๊ฒŒ ํ•œ๋‹ค. 4๋ฐฑ๋งŒ ๊ฐœ์˜ ์‹œ๊ฐ-์–ธ์–ด-์นด๋ฉ”๋ผ ๋ฐ์ดํ„ฐ์…‹์œผ๋กœ ํ›ˆ๋ จ๋œ Puffin์€ ์ „๋ฌธํ™”๋œ ๊ธฐ์กด ๋ชจ๋ธ๋“ค๋ณด๋‹ค ๋›ฐ์–ด๋‚œ ์„ฑ๋Šฅ์„ ๋ณด์ด๋ฉฐ, ๊ณต๊ฐ„์  ์ƒ์ƒ์ด๋‚˜ ์‚ฌ์ง„ ์ดฌ์˜ ๊ฐ€์ด๋˜์Šค์™€ ๊ฐ™์€ ๋‹ค์–‘ํ•œ ๊ต์ฐจ ์‹œ์  ์ž‘์—…์œผ๋กœ ์ผ๋ฐ˜ํ™”๋  ์ˆ˜ ์žˆ๋Š” ์ž ์žฌ๋ ฅ์„ ๋ณด์—ฌ์ฃผ์—ˆ๋‹ค.

Advancing End-to-End Pixel Space Generative Modeling via Self-supervised Pre-training

Paper, Project
์ด ๋…ผ๋ฌธ์€ ํ›ˆ๋ จ์ด ์–ด๋ ต๊ณ  ์„ฑ๋Šฅ์ด ๋‚ฎ์•˜๋˜ ํ”ฝ์…€ ๊ณต๊ฐ„ ์ƒ์„ฑ ๋ชจ๋ธ๊ณผ ์ž ์žฌ ๊ณต๊ฐ„ ๋ชจ๋ธ ๊ฐ„์˜ ๊ฒฉ์ฐจ๋ฅผ ํ•ด์†Œํ•˜๋Š” ์ƒˆ๋กœ์šด 2๋‹จ๊ณ„ ํ›ˆ๋ จ ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ œ์•ˆํ•œ๋‹ค. 1๋‹จ๊ณ„์—์„œ ์ธ์ฝ”๋”๋ฅผ ์ž๊ธฐ์ง€๋„ ๋ฐฉ์‹์œผ๋กœ ์‚ฌ์ „ ํ›ˆ๋ จํ•˜์—ฌ ์ด๋ฏธ์ง€์˜ ์˜๋ฏธ ์žˆ๋Š” ์ •๋ณด๋ฅผ ํฌ์ฐฉํ•˜๊ฒŒ ํ•˜๊ณ , 2๋‹จ๊ณ„์—์„œ ์ด ์ธ์ฝ”๋”๋ฅผ ๋””์ฝ”๋”์™€ ๊ฒฐํ•ฉํ•˜์—ฌ ์ „์ฒด ๋ชจ๋ธ์„ ๋ฏธ์„ธ ์กฐ์ •ํ•œ๋‹ค. ์ด ์ ‘๊ทผ๋ฒ•์„ ํ†ตํ•ด ImageNet์—์„œ ๊ธฐ์กด ํ”ฝ์…€ ๊ณต๊ฐ„ ๋ชจ๋ธ์„ ์••๋„ํ•˜๋Š” ์ƒ์„ฑ ํ’ˆ์งˆ๊ณผ ํšจ์œจ์„ฑ์„ ๋‹ฌ์„ฑํ–ˆ์œผ๋ฉฐ, ํŠนํžˆ ์‚ฌ์ „ ํ›ˆ๋ จ๋œ VAE ์—†์ด ๊ณ ํ•ด์ƒ๋„ ์ด๋ฏธ์ง€์—์„œ ์ง์ ‘ ์ผ๊ด€์„ฑ ๋ชจ๋ธ์„ ์„ฑ๊ณต์ ์œผ๋กœ ํ›ˆ๋ จํ•œ ์ตœ์ดˆ์˜ ์„ฑ๊ณผ๋ฅผ ๊ฑฐ๋‘์—ˆ๋‹ค.

Scaling Language-Centric Omnimodal Representation Learning

Paper, Project
์ด ์—ฐ๊ตฌ๋Š” ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ(MLLM) ๊ธฐ๋ฐ˜ ์ž„๋ฒ ๋”ฉ์˜ ์šฐ์ˆ˜์„ฑ์ด ์ƒ์„ฑ์  ์‚ฌ์ „ ํ›ˆ๋ จ ๋‹จ๊ณ„์—์„œ ์ด๋ฏธ ๋‹ฌ์„ฑ๋œ '์•”๋ฌต์  ๊ต์ฐจ ๋ชจ๋‹ฌ ์ •๋ ฌ' ๋•๋ถ„์ด๋ผ๊ณ  ์ฃผ์žฅํ•˜๋ฉฐ, ์ด๋ฅผ ๋ฐ”ํƒ•์œผ๋กœ ์–ธ์–ด ์ค‘์‹ฌ ์˜ด๋‹ˆ๋ชจ๋‹ฌ ์ž„๋ฒ ๋”ฉ(LCO-Emb) ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ œ์•ˆํ•œ๋‹ค. ๋˜ํ•œ, ๋ชจ๋ธ์˜ ์ƒ์„ฑ ๋Šฅ๋ ฅ์ด ํ–ฅ์ƒ๋ ์ˆ˜๋ก ํ‘œํ˜„ ๋Šฅ๋ ฅ๋„ ํ•จ๊ป˜ ํ–ฅ์ƒ๋œ๋‹ค๋Š” '์ƒ์„ฑ-ํ‘œํ˜„ ์Šค์ผ€์ผ๋ง ๋ฒ•์น™(GRSL)'์„ ๋ฐœ๊ฒฌํ•˜๊ณ  ์ด๋ก ์ ์œผ๋กœ ์ฆ๋ช…ํ–ˆ๋‹ค. LCO-Emb๋Š” ๋‹ค์–‘ํ•œ ๋ฒค์น˜๋งˆํฌ์—์„œ ์ตœ๊ณ  ์ˆ˜์ค€์˜ ์„ฑ๋Šฅ์„ ๋‹ฌ์„ฑํ–ˆ์œผ๋ฉฐ, ์ด๋ฅผ ํ†ตํ•ด ์ƒ์„ฑ ๋Šฅ๋ ฅ ํ–ฅ์ƒ์ด ํ‘œํ˜„์˜ ์งˆ์„ ๋†’์ด๋Š” ํšจ๊ณผ์ ์ธ ํŒจ๋Ÿฌ๋‹ค์ž„์ž„์„ ์ž…์ฆํ–ˆ๋‹ค.

Robot Learning: A Tutorial

Paper, Project
์ด ๋ฌธ์„œ๋Š” ํ˜„๋Œ€ ๋กœ๋ด‡ ํ•™์Šต ๋ถ„์•ผ์˜ ์ง€ํ˜•๋„๋ฅผ ์ œ์‹œํ•˜๋Š” ํŠœํ† ๋ฆฌ์–ผ๋กœ, ๋จธ์‹ ๋Ÿฌ๋‹์˜ ๋ฐœ์ „์œผ๋กœ ์ธํ•ด ๊ณ ์ „์ ์ธ ๋ชจ๋ธ ๊ธฐ๋ฐ˜ ๋ฐฉ์‹์—์„œ ๋ฐ์ดํ„ฐ ๊ธฐ๋ฐ˜ ํ•™์Šต ํŒจ๋Ÿฌ๋‹ค์ž„์œผ๋กœ ์ „ํ™˜๋˜๋Š” ํ๋ฆ„์„ ๋‹ค๋ฃฌ๋‹ค. ๊ฐ•ํ™”ํ•™์Šต๊ณผ ํ–‰๋™ ๋ณต์ œ ๊ฐ™์€ ๊ธฐ์ดˆ ์›๋ฆฌ๋ถ€ํ„ฐ ๋‹ค์–‘ํ•œ ์ž‘์—…๊ณผ ํ™˜๊ฒฝ์— ์ ์šฉ ๊ฐ€๋Šฅํ•œ ์ผ๋ฐ˜ํ™”๋œ ์–ธ์–ด ์กฐ๊ฑด ๋ชจ๋ธ๊นŒ์ง€ ํญ๋„“์€ ์ฃผ์ œ๋ฅผ ์•„์šฐ๋ฅธ๋‹ค. ์ด ํŠœํ† ๋ฆฌ์–ผ์€ ์—ฐ๊ตฌ์ž์™€ ์‹ค๋ฌด์ž๋“ค์ด ๋กœ๋ด‡ ํ•™์Šต ๋ถ„์•ผ์— ๊ธฐ์—ฌํ•˜๋Š” ๋ฐ ํ•„์š”ํ•œ ๊ฐœ๋…์  ์ดํ•ด์™€ ํ•จ๊ป˜, lerobot ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ๋ฅผ ํ†ตํ•ด ๊ตฌํ˜„๋œ ์‹ค์šฉ์ ์ธ ์˜ˆ์ œ๋ฅผ ์ œ๊ณตํ•˜๋Š” ๊ฒƒ์„ ๋ชฉํ‘œ๋กœ ํ•œ๋‹ค.

Agentic Entropy-Balanced Policy Optimization

Paper, Project
AEPO๋Š” ์›น ์—์ด์ „ํŠธ์˜ ๊ฐ•ํ™”ํ•™์Šต ์‹œ ์—”ํŠธ๋กœํ”ผ ์‹ ํ˜ธ์— ๊ณผ๋„ํ•˜๊ฒŒ ์˜์กดํ•˜์—ฌ ๋ฐœ์ƒํ•˜๋Š” ํ›ˆ๋ จ ๋ถ•๊ดด ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด ์ œ์•ˆ๋œ ์ƒˆ๋กœ์šด ์ตœ์ ํ™” ์•Œ๊ณ ๋ฆฌ์ฆ˜์ด๋‹ค. ์ด ์•Œ๊ณ ๋ฆฌ์ฆ˜์€ ๋กค์•„์›ƒ ๋‹จ๊ณ„์—์„œ ์—”ํŠธ๋กœํ”ผ๋ฅผ ์‚ฌ์ „ ๋ชจ๋‹ˆํ„ฐ๋งํ•˜์—ฌ ์ƒ˜ํ”Œ๋ง ์˜ˆ์‚ฐ์„ ๋™์ ์œผ๋กœ ํ• ๋‹นํ•˜๊ณ , ์ •์ฑ… ์—…๋ฐ์ดํŠธ ๋‹จ๊ณ„์—์„œ๋Š” ์—”ํŠธ๋กœํ”ผ๊ฐ€ ๋†’์€ ํ† ํฐ์˜ ๊ทธ๋ž˜๋””์–ธํŠธ๋ฅผ ๋ณด์กด ๋ฐ ์žฌ์กฐ์ •ํ•˜์—ฌ ํ•™์Šต์˜ ์•ˆ์ •์„ฑ์„ ๋†’์ธ๋‹ค. 14๊ฐœ์˜ ์–ด๋ ค์šด ์›น ์—์ด์ „ํŠธ ๋ฐ์ดํ„ฐ์…‹์—์„œ ๊ธฐ์กด 7๊ฐœ์˜ ์ฃผ๋ฅ˜ ๊ฐ•ํ™”ํ•™์Šต ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ ์ผ๊ด€๋˜๊ฒŒ ๋Šฅ๊ฐ€ํ•˜๋Š” ์„ฑ๋Šฅ์„ ๋ณด์ด๋ฉฐ, ์ ์€ ์ƒ˜ํ”Œ๋งŒ์œผ๋กœ๋„ ๋†’์€ ์„ฑ๊ณต๋ฅ ์„ ๋‹ฌ์„ฑํ•˜๋Š” ํ™•์žฅ์„ฑ์„ ์ž…์ฆํ–ˆ๋‹ค.

FlashWorld: High-quality 3D Scene Generation within Seconds

Paper, Project
FlashWorld๋Š” ๋‹จ์ผ ์ด๋ฏธ์ง€๋‚˜ ํ…์ŠคํŠธ๋กœ๋ถ€ํ„ฐ ๋‹จ ๋ช‡ ์ดˆ ๋งŒ์— 3D ์žฅ๋ฉด์„ ์ƒ์„ฑํ•˜๋Š” ๋ชจ๋ธ๋กœ, ๊ธฐ์กด ๋ฐฉ์‹๋ณด๋‹ค 10๋ฐฐ์—์„œ 100๋ฐฐ ๋น ๋ฅด๋ฉด์„œ๋„ ์šฐ์ˆ˜ํ•œ ๋ Œ๋”๋ง ํ’ˆ์งˆ์„ ์ž๋ž‘ํ•œ๋‹ค. ์ด ๋ชจ๋ธ์€ ๋‹ค์ค‘ ์‹œ์  ์ด๋ฏธ์ง€๋ฅผ ์ƒ์„ฑํ•˜๋ฉฐ ๋™์‹œ์— 3D ๊ฐ€์šฐ์‹œ์•ˆ ํ‘œํ˜„์„ ์ง์ ‘ ์ƒ์„ฑํ•˜๋Š” 3D ์ง€ํ–ฅ ๋ฐฉ์‹์„ ์‚ฌ์šฉํ•˜๋˜, ๊ณ ํ’ˆ์งˆ ๋‹ค์ค‘ ์‹œ์  ๋ชจ๋“œ์˜ ๊ฒฐ๊ณผ ๋ถ„ํฌ๋ฅผ 3D ์ง€ํ–ฅ ๋ชจ๋“œ์— ์ฆ๋ฅ˜ํ•˜๋Š” '๊ต์ฐจ ๋ชจ๋“œ ํ›„์ฒ˜๋ฆฌ ํ›ˆ๋ จ'์„ ํ†ตํ•ด ์‹œ๊ฐ์  ํ’ˆ์งˆ ์ €ํ•˜ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ–ˆ๋‹ค. ๊ทธ ๊ฒฐ๊ณผ, 3D ์ผ๊ด€์„ฑ์„ ์œ ์ง€ํ•˜๋ฉด์„œ๋„ ๋น ๋ฅธ ์†๋„์™€ ๋†’์€ ํ’ˆ์งˆ์„ ๋ชจ๋‘ ๋‹ฌ์„ฑํ•˜๋Š” ๋ฐ ์„ฑ๊ณตํ–ˆ๋‹ค.

profile
XR๊ณผ AI์— ๊ด€์‹ฌ์ด ๋งŽ์€ Sky ์ž…๋‹ˆ๋‹ค.

0๊ฐœ์˜ ๋Œ“๊ธ€