[2025/W26] ๐Ÿค— Weekly AI Research

Skyยท2025๋…„ 6์›” 27์ผ

Weekly AI Research Digest

๋ชฉ๋ก ๋ณด๊ธฐ
36/89

์ œ๋กœ์ƒท ํŒŒ๋ผ๋ฏธํ„ฐ ์ƒ์„ฑ, ์ด๋ฏธ์ง€ ์ƒ์„ฑ, ๋ฌธ์„œ ์ดํ•ด, ์ดˆ์žฅ๋ฌธ ์ƒ์„ฑ์˜ ํ˜์‹ ์  ์ ‘๊ทผ๋ฒ•
์ƒํ˜ธ์ž‘์šฉํ˜• ๊ฒŒ์ž„ ์›”๋“œ์™€ 3D ์• ๋‹ˆ๋ฉ”์ด์…˜๊นŒ์ง€ ๋‹ค์–‘ํ•œ ๋„๋ฉ”์ธ์˜ AI ๊ธฐ์ˆ  ๋ฐœ์ „

TL;DR

  1. Drag-and-Drop LLMs: ๊ฐœ๋ณ„ ๊ณผ์ œ๋งˆ๋‹ค ํŒŒ์ธํŠœ๋‹ํ•˜๋Š” ๋Œ€์‹ , ํ”„๋กฌํ”„ํŠธ๋งŒ์œผ๋กœ ๋ชจ๋ธ์˜ ๊ฐ€์ค‘์น˜๋ฅผ ์ง์ ‘ ์ƒ์„ฑํ•˜์—ฌ ํ•™์Šต ๋น„์šฉ์„ ํš๊ธฐ์ ์œผ๋กœ ์ค„์ธ๋‹ค.

  2. Light of Normals: ์กฐ๋ช…๊ณผ ํ‘œ๋ฉด ํ˜•์ƒ ํŠน์ง•์„ ๋ถ„๋ฆฌํ•˜๋Š” ํ†ตํ•ฉ๋œ ํ‘œํ˜„ ๋ฐฉ์‹์„ ํ†ตํ•ด ์ž„์˜์˜ ์กฐ๋ช… ํ™˜๊ฒฝ์—์„œ๋„ ๋ฌผ์ฒด์˜ 3์ฐจ์› ํ‘œ๋ฉด์„ ์ •ํ™•ํ•˜๊ฒŒ ๋ณต์›ํ•œ๋‹ค.

  3. Vision-Guided Chunking Is All You Need: ๋Œ€๊ทœ๋ชจ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๋ชจ๋ธ์„ ์ด์šฉํ•ด ๋ฌธ์„œ์˜ ์‹œ๊ฐ์  ๊ตฌ์กฐ๊นŒ์ง€ ์ดํ•ดํ•˜๋ฉฐ ๋ถ„ํ• ํ•จ์œผ๋กœ์จ RAG ์‹œ์Šคํ…œ์˜ ์ •ํ™•๋„๋ฅผ ํ–ฅ์ƒ์‹œํ‚จ๋‹ค.

  4. OmniGen2: ํ…์ŠคํŠธ์™€ ์ด๋ฏธ์ง€์— ๋Œ€ํ•œ ๋””์ฝ”๋”ฉ ๊ฒฝ๋กœ๋ฅผ ๋ถ„๋ฆฌํ•œ ๋‹ค๋ชฉ์  ์ƒ์„ฑ ๋ชจ๋ธ๋กœ, ํ…์ŠคํŠธ-์ด๋ฏธ์ง€ ๋ณ€ํ™˜ ๋ฐ ํŽธ์ง‘ ๋“ฑ ๋‹ค์–‘ํ•œ ์ž‘์—…์„ ํ•˜๋‚˜์˜ ๋ชจ๋ธ๋กœ ์ฒ˜๋ฆฌํ•œ๋‹ค.

  5. ShareGPT-4o-Image: GPT-4o์˜ ์ด๋ฏธ์ง€ ์ƒ์„ฑ ๋Šฅ๋ ฅ์„ ๋ชจ๋ฐฉํ•œ ๋Œ€๊ทœ๋ชจ ๋ฐ์ดํ„ฐ์…‹์„ ๊ตฌ์ถ• ๋ฐ ๊ณต๊ฐœํ•˜์—ฌ ๊ณ ํ’ˆ์งˆ ์ด๋ฏธ์ง€ ์ƒ์„ฑ ๊ธฐ์ˆ ์˜ ๋Œ€์ค‘ํ™”๋ฅผ ์ด๋ˆ๋‹ค.

  6. JarvisArt: ์‚ฌ์šฉ์ž์˜ ์˜๋„๋ฅผ ํŒŒ์•…ํ•˜๊ณ  ์ „๋ฌธ๊ฐ€์šฉ ์‚ฌ์ง„ ํŽธ์ง‘ ๋„๊ตฌ๋ฅผ ์ง์ ‘ ์ œ์–ดํ•˜์—ฌ ์ง€๋Šฅ์ ์ธ ์‚ฌ์ง„ ๋ณด์ • ์ž‘์—…์„ ์ˆ˜ํ–‰ํ•˜๋Š” ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์—์ด์ „ํŠธ์ด๋‹ค.

  7. PAROAttention: ์–ดํ…์…˜ ํŒจํ„ด์„ ํ•˜๋“œ์›จ์–ด ์นœํ™”์ ์œผ๋กœ ์žฌ๋ฐฐ์—ดํ•˜์—ฌ, ์‹œ๊ฐ ์ƒ์„ฑ ๋ชจ๋ธ์˜ ํ’ˆ์งˆ ์ €ํ•˜ ์—†์ด ๊ณ„์‚ฐ ํšจ์œจ๊ณผ ์†๋„๋ฅผ ํฌ๊ฒŒ ํ–ฅ์ƒ์‹œํ‚จ๋‹ค.

  8. Matrix-Game: ๋ฐฉ๋Œ€ํ•œ ๊ฒŒ์ž„ ํ”Œ๋ ˆ์ด ๋ฐ์ดํ„ฐ๋กœ ํ•™์Šตํ•˜์—ฌ, ์‚ฌ์šฉ์ž์˜ ํ–‰๋™์— ์‹ค์‹œ๊ฐ„์œผ๋กœ ๋ฐ˜์‘ํ•˜๋Š” ๊ณ ํ’ˆ์งˆ์˜ ์ƒํ˜ธ์ž‘์šฉํ˜• ๊ฒŒ์ž„ ์„ธ๊ณ„๋ฅผ ์ƒ์„ฑํ•˜๋Š” ํŒŒ์šด๋ฐ์ด์…˜ ๋ชจ๋ธ์ด๋‹ค.

  9. AnimaX: ๋น„๋””์˜ค์˜ ์›€์ง์ž„ ์ •๋ณด๋ฅผ 3D ํฌ์ฆˆ์— ์ ‘๋ชฉํ•˜๋Š” ํ™•์‚ฐ ๋ชจ๋ธ์„ ํ†ตํ•ด, ์–ด๋–ค ๋ผˆ๋Œ€ ๊ตฌ์กฐ๋ฅผ ๊ฐ€์ง„ 3D ์บ๋ฆญํ„ฐ๋ผ๋„ ์ž์—ฐ์Šค๋Ÿฝ๊ฒŒ ์• ๋‹ˆ๋ฉ”์ด์…˜ํ™”ํ•œ๋‹ค.

  10. LongWriter-Zero: ๋ณ„๋„์˜ ๋ฐ์ดํ„ฐ ์—†์ด ๊ฐ•ํ™”ํ•™์Šต๋งŒ์„ ์ด์šฉํ•ด ์–ธ์–ด ๋ชจ๋ธ์ด ์Šค์Šค๋กœ ์ดˆ์žฅ๋ฌธ์˜ ๊ณ ํ’ˆ์งˆ ํ…์ŠคํŠธ๋ฅผ ์ƒ์„ฑํ•˜๋„๋ก ํ•™์Šต์‹œํ‚จ๋‹ค.

Drag-and-Drop LLMs: Zero-Shot Prompt-to-Weights

Paper, Project
๊ฐœ๋ณ„ ์ž‘์—…๋งˆ๋‹ค ๋ณ„๋„์˜ ์ตœ์ ํ™” ๊ณผ์ • ์—†์ด ํ”„๋กฌํ”„ํŠธ๋งŒ์œผ๋กœ ๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ์˜ ๊ฐ€์ค‘์น˜๋ฅผ ์ง์ ‘ ์ƒ์„ฑํ•˜๋Š” ์ƒˆ๋กœ์šด ํŒจ๋Ÿฌ๋‹ค์ž„์„ ์ œ์•ˆํ•œ๋‹ค. ์ด ๊ธฐ์ˆ ์€ ํ…์ŠคํŠธ ์ธ์ฝ”๋”๋กœ ํ”„๋กฌํ”„ํŠธ๋ฅผ ์กฐ๊ฑด ์ž„๋ฒ ๋”ฉ์œผ๋กœ ๋ณ€ํ™˜ํ•˜๊ณ , ์ด๋ฅผ ๋””์ฝ”๋”๊ฐ€ LoRA ํ–‰๋ ฌ๋กœ ๋ฐ”๊พธ์–ด ๋ชจ๋ธ์„ ์—…๋ฐ์ดํŠธํ•œ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ๊ธฐ์กด ํŒŒ์ธํŠœ๋‹๋ณด๋‹ค ์˜ค๋ฒ„ํ—ค๋“œ๋ฅผ ์ตœ๋Œ€ 12,000๋ฐฐ ๋‚ฎ์ถ”๊ณ , ์ฒ˜์Œ ์ ‘ํ•˜๋Š” ๋ฒค์น˜๋งˆํฌ์—์„œ๋„ ํ‰๊ท  30% ๋†’์€ ์„ฑ๋Šฅ ํ–ฅ์ƒ์„ ๋‹ฌ์„ฑํ•˜๋ฉฐ ๊ฐ•๋ ฅํ•œ ์ผ๋ฐ˜ํ™” ์„ฑ๋Šฅ์„ ์ž…์ฆํ•œ๋‹ค.

Light of Normals: Unified Feature Representation for Universal Photometric Stereo

Paper, Project
์ž„์˜์˜ ์กฐ๋ช… ์•„๋ž˜์—์„œ ๊ฐ์ฒด์˜ ํ‘œ๋ฉด ์ •๋ณด๋ฅผ ๋ณต์›ํ•˜๋Š” '๋ณดํŽธ์  ๊ด‘๋„ ์Šคํ…Œ๋ ˆ์˜ค' ๊ธฐ์ˆ ์˜ ๊ทผ๋ณธ์ ์ธ ๋ฌธ์ œ๋ฅผ ๋‹ค๋ฃฌ๋‹ค. ๊ธฐ์กด ๊ธฐ์ˆ ์€ ์กฐ๋ช… ๋ณ€ํ™”์™€ ํ‘œ๋ฉด ํ˜•์ƒ์˜ ํŠน์ง•์ด ๋’ค์„ž์ด๊ณ  ๋ฏธ์„ธํ•œ ๊ธฐํ•˜ํ•™์  ๋””ํ…Œ์ผ์„ ๋†“์น˜๋Š” ํ•œ๊ณ„๊ฐ€ ์žˆ์—ˆ๋‹ค. ์ด ์—ฐ๊ตฌ๋Š” ์กฐ๋ช…๊ณผ ํ‘œ๋ฉด ๋ฒ•์„ ์„ ๋ถ„๋ฆฌํ•˜๋Š” ํ†ตํ•ฉ๋œ ํŠน์ง• ํ‘œํ˜„์„ ํ•™์Šตํ•˜์—ฌ, ์กฐ๋ช… ๋ณ€ํ™”์— ๊ฐ•์ธํ•˜๊ณ  ๋ณต์žกํ•œ ํ‘œ๋ฉด ๊ตฌ์กฐ๊นŒ์ง€ ์ •ํ™•ํ•˜๊ฒŒ ๋ณต์›ํ•˜๋Š” ๊ฒƒ์„ ๋ชฉํ‘œ๋กœ ํ•œ๋‹ค.

Vision-Guided Chunking Is All You Need: Enhancing RAG with Multimodal Document Understanding

Paper
๊ธฐ์กด RAG(Retrieval-Augmented Generation) ์‹œ์Šคํ…œ์˜ ํ•œ๊ณ„๋ฅผ ์ง€์ ํ•œ๋‹ค. ํ…์ŠคํŠธ ๊ธฐ๋ฐ˜ ๋ฌธ์„œ ๋ถ„ํ•  ๋ฐฉ์‹์€ ์—ฌ๋Ÿฌ ํŽ˜์ด์ง€์— ๊ฑธ์นœ ํ‘œ๋‚˜ ์ด๋ฏธ์ง€, ๋ฌธ๋งฅ์  ์—ฐ๊ฒฐ์„ฑ์„ ์ œ๋Œ€๋กœ ์ฒ˜๋ฆฌํ•˜์ง€ ๋ชปํ•œ๋‹ค. ์ด์— ๋Œ€ํ•œ ํ•ด๊ฒฐ์ฑ…์œผ๋กœ, ๋Œ€๊ทœ๋ชจ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๋ชจ๋ธ(LMM)์„ ํ™œ์šฉํ•ด ๋ฌธ์„œ์˜ ์‹œ๊ฐ์  ๊ตฌ์กฐ์™€ ํ…์ŠคํŠธ ์˜๋ฏธ๋ฅผ ๋™์‹œ์— ์ดํ•ดํ•˜๋Š” '๋น„์ „ ๊ฐ€์ด๋“œ ๋ถ„ํ• ' ๋ฐฉ์‹์„ ์ œ์‹œํ•œ๋‹ค. ์ด ์ ‘๊ทผ๋ฒ•์€ ์—ฌ๋Ÿฌ ํŽ˜์ด์ง€์˜ ํ‘œ๋‚˜ ์ด๋ฏธ์ง€๋„ ์ •ํ™•ํžˆ ์ฒ˜๋ฆฌํ•˜๋ฉฐ, ๊ธฐ์กด RAG ์‹œ์Šคํ…œ๋ณด๋‹ค ๋†’์€ ์ •ํ™•๋„์™€ ์˜๋ฏธ์  ์ผ๊ด€์„ฑ์„ ๋ณด์ธ๋‹ค.

OmniGen2: Exploration to Advanced Multimodal Generation

Paper, Project
ํ…์ŠคํŠธ-์ด๋ฏธ์ง€ ๋ณ€ํ™˜, ์ด๋ฏธ์ง€ ํŽธ์ง‘ ๋“ฑ ๋‹ค์–‘ํ•œ ์ƒ์„ฑ ์ž‘์—…์„ ํ•˜๋‚˜์˜ ๋ชจ๋ธ๋กœ ์ฒ˜๋ฆฌํ•˜๋Š” ๋‹ค๋ชฉ์  ์ƒ์„ฑ ๋ชจ๋ธ์ด๋‹ค. ์ด ๋ชจ๋ธ์˜ ํ•ต์‹ฌ ํŠน์ง•์€ ํ…์ŠคํŠธ์™€ ์ด๋ฏธ์ง€์— ๋Œ€ํ•ด ๋ถ„๋ฆฌ๋œ ๋””์ฝ”๋”ฉ ๊ฒฝ๋กœ๋ฅผ ์‚ฌ์šฉํ•œ๋‹ค๋Š” ์ ์ด๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ๊ธฐ์กด ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๋ชจ๋ธ์˜ ํ…์ŠคํŠธ ์ƒ์„ฑ ๋Šฅ๋ ฅ์€ ๋ณด์กดํ•˜๋ฉด์„œ ์ด๋ฏธ์ง€ ์ƒ์„ฑ ๊ธฐ๋Šฅ์„ ํšจ๊ณผ์ ์œผ๋กœ ํ†ตํ•ฉํ–ˆ๋‹ค. OmniGen2๋Š” ์—ฌ๋Ÿฌ ๋ฒค์น˜๋งˆํฌ์—์„œ ๊ฒฝ์Ÿ๋ ฅ ์žˆ๋Š” ์„ฑ๋Šฅ์„ ๋‹ฌ์„ฑํ–ˆ์œผ๋ฉฐ, ํŠนํžˆ ์ด๋ฏธ์ง€ ์ผ๊ด€์„ฑ์„ ํ‰๊ฐ€ํ•˜๋Š” ์ƒˆ๋กœ์šด ๋ฒค์น˜๋งˆํฌ 'OmniContext'๋ฅผ ์ž์ฒด์ ์œผ๋กœ ์ œ์•ˆํ•˜๊ณ  ์ตœ๊ณ  ์ˆ˜์ค€์˜ ์„ฑ๋Šฅ์„ ๊ธฐ๋กํ–ˆ๋‹ค.

ShareGPT-4o-Image: Aligning Multimodal Models with GPT-4o-Level Image Generation

Paper, Project
๋น„๊ณต๊ฐœ ๋ชจ๋ธ์ธ GPT-4o์˜ ๋›ฐ์–ด๋‚œ ์ด๋ฏธ์ง€ ์ƒ์„ฑ ๋Šฅ๋ ฅ์„ ์˜คํ”ˆ์†Œ์Šค ์ปค๋ฎค๋‹ˆํ‹ฐ์— ํ™•์‚ฐ์‹œํ‚ค๋Š” ๊ฒƒ์„ ๋ชฉํ‘œ๋กœ ํ•œ๋‹ค. ์ด๋ฅผ ์œ„ํ•ด GPT-4o๋กœ ์ƒ์„ฑํ•œ 9๋งŒ์—ฌ ๊ฐœ์˜ ์ด๋ฏธ์ง€ ๋ฐ์ดํ„ฐ์…‹ 'ShareGPT-4o-Image'๋ฅผ ๊ตฌ์ถ•ํ•˜๊ณ  ๊ณต๊ฐœํ–ˆ๋‹ค. ์ด ๋ฐ์ดํ„ฐ์…‹์„ ๊ธฐ๋ฐ˜์œผ๋กœ 'Janus-4o'๋ผ๋Š” ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๋ชจ๋ธ์„ ๊ฐœ๋ฐœํ–ˆ์œผ๋ฉฐ, ์ด ๋ชจ๋ธ์€ ๋‹จ 6์‹œ๊ฐ„์˜ ์งง์€ ํ•™์Šต๋งŒ์œผ๋กœ ํ…์ŠคํŠธ-์ด๋ฏธ์ง€ ๋ณ€ํ™˜ ๋ฐ ํ…์ŠคํŠธ์™€ ์ด๋ฏธ์ง€๋ฅผ ๋ชจ๋‘ ํ™œ์šฉํ•œ ์ด๋ฏธ์ง€ ์ƒ์„ฑ ์ž‘์—…์—์„œ ์ธ์ƒ์ ์ธ ์„ฑ๋Šฅ์„ ๋‹ฌ์„ฑํ–ˆ๋‹ค.

JarvisArt: Liberating Human Artistic Creativity via an Intelligent Photo Retouching Agent

Paper, Project
์ „๋ฌธ๊ฐ€์šฉ ์‚ฌ์ง„ ํŽธ์ง‘ ๋„๊ตฌ์˜ ๋ณต์žก์„ฑ๊ณผ ๊ธฐ์กด AI ์ž๋™ํ™” ๋„๊ตฌ์˜ ํ•œ๊ณ„ ์‚ฌ์ด์˜ ๊ฐ„๊ทน์„ ๋ฉ”์šฐ๋Š” ๊ฒƒ์„ ๋ชฉํ‘œ๋กœ ํ•œ๋‹ค. ์ด ์—ฐ๊ตฌ๋Š” ์‚ฌ์šฉ์ž์˜ ์˜๋„๋ฅผ ์ดํ•ดํ•˜๊ณ  ์ „๋ฌธ๊ฐ€์ฒ˜๋Ÿผ ์ถ”๋ก ํ•˜๋ฉฐ, 200๊ฐœ ์ด์ƒ์˜ Lightroom ๋„๊ตฌ๋ฅผ ์ง€๋Šฅ์ ์œผ๋กœ ์ œ์–ดํ•˜๋Š” ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์—์ด์ „ํŠธ 'JarvisArt'๋ฅผ ๊ฐœ๋ฐœํ–ˆ๋‹ค. 2๋‹จ๊ณ„ ํ•™์Šต ๊ณผ์ •์„ ํ†ตํ•ด ์ถ”๋ก  ๋ฐ ๋„๊ตฌ ์‚ฌ์šฉ ๋Šฅ๋ ฅ์„ ๊ฐ•ํ™”ํ–ˆ์œผ๋ฉฐ, ์ž์ฒด ๊ฐœ๋ฐœํ•œ ๋ฒค์น˜๋งˆํฌ์—์„œ GPT-4o๋ณด๋‹ค ํ”ฝ์…€ ์ˆ˜์ค€ ์ •ํ™•๋„๊ฐ€ 60% ํ–ฅ์ƒ๋˜๋Š” ๋“ฑ ๋›ฐ์–ด๋‚œ ์„ฑ๋Šฅ๊ณผ ์‚ฌ์šฉ์ž ์นœํ™”์ ์ธ ์ƒํ˜ธ์ž‘์šฉ์„ ์ž…์ฆํ•˜๋ฉฐ ์ง€๋Šฅํ˜• ์‚ฌ์ง„ ํŽธ์ง‘์˜ ์ƒˆ๋กœ์šด ๋ฐฉํ–ฅ์„ ์ œ์‹œํ•œ๋‹ค.

PAROAttention: Pattern-Aware ReOrdering for Efficient Sparse and Quantized Attention in Visual Generation Models

Paper
์‹œ๊ฐ ์ƒ์„ฑ ๋ชจ๋ธ์—์„œ ์–ดํ…์…˜ ๋ฉ”์ปค๋‹ˆ์ฆ˜์ด ์œ ๋ฐœํ•˜๋Š” ๋ง‰๋Œ€ํ•œ ๋ฉ”๋ชจ๋ฆฌ ๋ฐ ๊ณ„์‚ฐ ๋น„์šฉ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•œ๋‹ค. ์ด ์—ฐ๊ตฌ๋Š” ๋ณต์žกํ•œ ์–ดํ…์…˜ ํŒจํ„ด์— ๋งž๋Š” ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ ๊ฐœ๋ฐœํ•˜๋Š” ๋Œ€์‹ , ํ† ํฐ์˜ ์ˆœ์„œ๋ฅผ ์žฌ๋ฐฐ์—ดํ•˜์—ฌ ์–ดํ…์…˜ ํŒจํ„ด ์ž์ฒด๋ฅผ ํ•˜๋“œ์›จ์–ด์— ์นœํ™”์ ์ธ ํ˜•ํƒœ๋กœ ๋‹จ์ˆœํ™”ํ•˜๋Š” 'PARO' ๊ธฐ์ˆ ์„ ์ œ์•ˆํ•œ๋‹ค. ์ด ์ ‘๊ทผ๋ฒ•์„ ํ†ตํ•ด ์–ดํ…์…˜ ๋ฐ€๋„์™€ ๋น„ํŠธ ํญ์„ ํฌ๊ฒŒ ๋‚ฎ์ถ”๋ฉด์„œ๋„ ์›๋ณธ๊ณผ ๊ฑฐ์˜ ๋™์ผํ•œ ํ’ˆ์งˆ์˜ ๊ฒฐ๊ณผ๋ฌผ์„ ์ƒ์„ฑํ•˜๋ฉฐ, ์ „์ฒด ์ง€์—ฐ ์‹œ๊ฐ„์„ ์ตœ๋Œ€ 2.7๋ฐฐ๊นŒ์ง€ ๋‹จ์ถ•์‹œํ‚ค๋Š” ๋ฐ ์„ฑ๊ณตํ–ˆ๋‹ค.

Matrix-Game: Interactive World Foundation Model

Paper, Project
์‚ฌ์šฉ์ž๊ฐ€ ์ง์ ‘ ์ œ์–ด ๊ฐ€๋Šฅํ•œ ๊ฒŒ์ž„ ์„ธ๊ณ„๋ฅผ ์ƒ์„ฑํ•˜๋Š” ์ƒํ˜ธ์ž‘์šฉํ˜• ์›”๋“œ ํŒŒ์šด๋ฐ์ด์…˜ ๋ชจ๋ธ์ด๋‹ค. ์ด ๋ชจ๋ธ์€ 2,700์‹œ๊ฐ„์ด ๋„˜๋Š” ๋ฐฉ๋Œ€ํ•œ ๋งˆ์ธํฌ๋ž˜ํ”„ํŠธ ๊ฒŒ์ž„ ํ”Œ๋ ˆ์ด ๋ฐ์ดํ„ฐ์…‹์„ ๊ธฐ๋ฐ˜์œผ๋กœ ํ•™์Šตํ–ˆ๋‹ค. ์‚ฌ์šฉ์ž์˜ ํ‚ค๋ณด๋“œ ๋ฐ ๋งˆ์šฐ์Šค ์กฐ์ž‘์— ๋”ฐ๋ผ ์บ๋ฆญํ„ฐ์˜ ํ–‰๋™๊ณผ ์นด๋ฉ”๋ผ ์›€์ง์ž„์„ ์ •๋ฐ€ํ•˜๊ฒŒ ์ œ์–ดํ•˜๋ฉด์„œ ๊ณ ํ’ˆ์งˆ์˜ ์ผ๊ด€๋œ ์˜์ƒ์„ ์ƒ์„ฑํ•˜๋Š” ๊ฒƒ์ด ํŠน์ง•์ด๋‹ค. ์ž์ฒด ๊ฐœ๋ฐœํ•œ ๋ฒค์น˜๋งˆํฌ์—์„œ ๊ธฐ์กด ์˜คํ”ˆ์†Œ์Šค ๋ชจ๋ธ๋“ค์„ ๋ชจ๋“  ์ง€ํ‘œ์—์„œ ๋Šฅ๊ฐ€ํ–ˆ์œผ๋ฉฐ, ํŠนํžˆ ์ œ์–ด ๊ฐ€๋Šฅ์„ฑ๊ณผ ๋ฌผ๋ฆฌ์  ์ผ๊ด€์„ฑ ์ธก๋ฉด์—์„œ ๊ฐ•๋ ฅํ•œ ์„ฑ๋Šฅ์„ ๋ณด์ธ๋‹ค.

AnimaX: Animating the Inanimate in 3D with Joint Video-Pose Diffusion Models

Paper, Project
๊ณ ์ •๋œ ๋ผˆ๋Œ€ ๊ตฌ์กฐ์— ์ œ์•ฝ๋˜๊ฑฐ๋‚˜ ์ตœ์ ํ™” ๋น„์šฉ์ด ๋†’์•˜๋˜ ๊ธฐ์กด 3D ์• ๋‹ˆ๋ฉ”์ด์…˜ ๊ธฐ์ˆ ์˜ ํ•œ๊ณ„๋ฅผ ๊ทน๋ณตํ•œ๋‹ค. ์ด ์—ฐ๊ตฌ๋Š” ๋น„๋””์˜ค ํ™•์‚ฐ ๋ชจ๋ธ์˜ ํ’๋ถ€ํ•œ ์›€์ง์ž„ ์ง€์‹๊ณผ ๋ผˆ๋Œ€ ๊ธฐ๋ฐ˜ ์• ๋‹ˆ๋ฉ”์ด์…˜์˜ ์ •๋ฐ€ํ•œ ์ œ์–ด ๊ฐ€๋Šฅ์„ฑ์„ ๊ฒฐํ•ฉํ•œ 'AnimaX' ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ œ์‹œํ•œ๋‹ค. 3D ๋ชจ์…˜์„ ์—ฌ๋Ÿฌ ์‹œ์ ์˜ 2D ํฌ์ฆˆ ๋งต์œผ๋กœ ๋ณ€ํ™˜ํ•˜๊ณ , ๋น„๋””์˜ค์™€ ํฌ์ฆˆ๋ฅผ ํ•จ๊ป˜ ์ƒ์„ฑํ•˜๋Š” ๋ชจ๋ธ์„ ํ•™์Šต์‹œ์ผœ ์ž„์˜์˜ ๋ผˆ๋Œ€๋ฅผ ๊ฐ€์ง„ ๋‹ค์–‘ํ•œ 3D ๋ชจ๋ธ์— ์ƒ๋™๊ฐ ์žˆ๋Š” ์›€์ง์ž„์„ ์ ์šฉํ•œ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ์—ฌ๋Ÿฌ ๋ฒค์น˜๋งˆํฌ์—์„œ ์ผ๋ฐ˜ํ™”, ์›€์ง์ž„ ์ถฉ์‹ค๋„, ํšจ์œจ์„ฑ ๋ชจ๋‘ ์ตœ๊ณ  ์ˆ˜์ค€์˜ ์„ฑ๋Šฅ์„ ๋‹ฌ์„ฑํ–ˆ๋‹ค.

LongWriter-Zero: Mastering Ultra-Long Text Generation via Reinforcement Learning

Paper, Project
๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ(LLM)์ด ๊ฒช๋Š” ์ดˆ์žฅ๋ฌธ ์ƒ์„ฑ์˜ ์–ด๋ ค์›€์„ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด ์ œ์•ˆ๋˜์—ˆ๋‹ค. ๊ธฐ์กด ๋ฐฉ์‹์ด ๋น„์šฉ์ด ๋งŽ์ด ๋“ค๊ณ  ๋ถ€์ž์—ฐ์Šค๋Ÿฌ์šด ์ธ๊ณต ๋ฐ์ดํ„ฐ์— ์˜์กดํ–ˆ๋˜ ๊ฒƒ๊ณผ ๋‹ฌ๋ฆฌ, ์ด ์—ฐ๊ตฌ๋Š” ๊ฐ•ํ™”ํ•™์Šต์„ ํ†ตํ•ด LLM์ด ๋ฐ์ดํ„ฐ ์—†์ด ์Šค์Šค๋กœ ๊ณ ํ’ˆ์งˆ์˜ ๊ธด ๊ธ€์„ ์ƒ์„ฑํ•˜๋„๋ก ์œ ๋„ํ•œ๋‹ค. ๊ธฐ๋ณธ ๋ชจ๋ธ์—์„œ ์‹œ์ž‘ํ•˜์—ฌ ๊ธ€์˜ ๊ณ„ํš ๋ฐ ์ˆ˜์ • ๋Šฅ๋ ฅ์„ ๊ฐ•ํ™”ํ•™์Šต์œผ๋กœ ๊ธธ๋Ÿฌ๋‚ด๋ฉฐ, ๊ธธ์ด ์ œ์–ด, ํ’ˆ์งˆ, ๊ตฌ์กฐ ๋“ฑ์„ ์œ„ํ•œ ํŠน์ˆ˜ ๋ณด์ƒ ๋ชจ๋ธ์„ ํ™œ์šฉํ•œ๋‹ค. ๊ทธ ๊ฒฐ๊ณผ, ์ฃผ์š” ๋ฒค์น˜๋งˆํฌ์—์„œ ๊ธฐ์กด ๋ฐฉ์‹์ด๋‚˜ ํ›จ์”ฌ ๋” ํฐ ๊ทœ๋ชจ์˜ ๋ชจ๋ธ์„ ๋Šฅ๊ฐ€ํ•˜๋Š” ์ตœ๊ณ  ์ˆ˜์ค€์˜ ์„ฑ๋Šฅ์„ ๊ธฐ๋กํ–ˆ๋‹ค.

profile
XR๊ณผ AI์— ๊ด€์‹ฌ์ด ๋งŽ์€ Sky ์ž…๋‹ˆ๋‹ค.

0๊ฐœ์˜ ๋Œ“๊ธ€