[2025/W47] ๐Ÿค— Weekly AI Research

Skyยท2025๋…„ 11์›” 21์ผ

Weekly AI Research Digest

๋ชฉ๋ก ๋ณด๊ธฐ
78/89

์˜ด๋‹ˆ๋ชจ๋‹ฌ MoE์™€ ๋ณ‘๋ ฌ ํ™•์‚ฐ(Diffusion) ๋ชจ๋ธ์„ ํ†ตํ•œ ๊ณ ํ•ด์ƒ๋„ ๋น„๋””์˜คยท3D ์ƒ์„ฑ ๋ฐ ๊ตฌ์กฐ์  ์ดํ•ด์˜ ํ†ตํ•ฉ
๊ฐ•ํ™” ํ•™์Šต(RL), ๋ชจ๋ธ ์ˆ˜ํ•‘(Souping), ์ƒํ˜ธ์ž‘์šฉ ์Šค์ผ€์ผ๋ง์„ ํ†ตํ•œ ๊ณผํ•™์  ๋…ผ๋ฆฌ ๋ฐ ์—ฐ์‚ฐ ํšจ์œจ์„ฑ ๊ทน๋Œ€ํ™”

Kandinsky 5.0: A Family of Foundation Models for Image and Video Generation

Paper, Project
Kandinsky 5.0์€ ๊ณ ํ•ด์ƒ๋„ ์ด๋ฏธ์ง€์™€ 10์ดˆ ๋ถ„๋Ÿ‰์˜ ๋น„๋””์˜ค ํ•ฉ์„ฑ์„ ์œ„ํ•œ ์ตœ์‹  ํŒŒ์šด๋ฐ์ด์…˜ ๋ชจ๋ธ ์ œํ’ˆ๊ตฐ์œผ๋กœ, 6B ํŒŒ๋ผ๋ฏธํ„ฐ์˜ Image Lite, ๋น ๋ฅด๊ณ  ๊ฐ€๋ฒผ์šด 2B ํŒŒ๋ผ๋ฏธํ„ฐ์˜ Video Lite, ๊ทธ๋ฆฌ๊ณ  ๋›ฐ์–ด๋‚œ ๋น„๋””์˜ค ์ƒ์„ฑ ํ’ˆ์งˆ์„ ์ž๋ž‘ํ•˜๋Š” 19B ํŒŒ๋ผ๋ฏธํ„ฐ์˜ Video Pro ๋“ฑ ์„ธ ๊ฐ€์ง€ ํ•ต์‹ฌ ๋ชจ๋ธ๋กœ ๊ตฌ์„ฑ๋œ๋‹ค. ์ด ์—ฐ๊ตฌ๋Š” ๋ฐ์ดํ„ฐ ์ˆ˜์ง‘๋ถ€ํ„ฐ ํ•„ํ„ฐ๋ง, ํด๋Ÿฌ์Šคํ„ฐ๋ง์— ์ด๋ฅด๋Š” ์ „์ฒด ๋ฐ์ดํ„ฐ ํ๋ ˆ์ด์…˜ ๊ณผ์ •์„ ํฌ๊ด„์ ์œผ๋กœ ๊ฒ€ํ† ํ•˜๊ณ , ์ž๊ธฐ ์ง€๋„ ๋ฏธ์„ธ ์กฐ์ •(SFT) ๋ฐ ๊ฐ•ํ™” ํ•™์Šต(RL) ๊ธฐ๋ฐ˜ ์‚ฌํ›„ ํ•™์Šต๊ณผ ๊ฐ™์€ ํ’ˆ์งˆ ํ–ฅ์ƒ ๊ธฐ์ˆ ์„ ์ ์šฉํ•œ ๋‹ค๋‹จ๊ณ„ ํ›ˆ๋ จ ํŒŒ์ดํ”„๋ผ์ธ์„ ์†Œ๊ฐœํ•œ๋‹ค. ๋˜ํ•œ ์ƒˆ๋กœ์šด ์•„ํ‚คํ…์ฒ˜์™€ ์ถ”๋ก  ์ตœ์ ํ™”๋ฅผ ํ†ตํ•ด ๋†’์€ ์ƒ์„ฑ ์†๋„์™€ ์„ฑ๋Šฅ์„ ๋‹ฌ์„ฑํ–ˆ์Œ์„ ์ž…์ฆํ•˜๋ฉฐ, ์—ฐ๊ตฌ ์ปค๋ฎค๋‹ˆํ‹ฐ์˜ ๋ฐœ์ „์„ ์œ„ํ•ด ์ฝ”๋“œ์™€ ํ›ˆ๋ จ ์ฒดํฌํฌ์ธํŠธ๋ฅผ ์˜คํ”ˆ ์†Œ์Šค๋กœ ๊ณต๊ฐœํ•˜์—ฌ ๊ด‘๋ฒ”์œ„ํ•œ ์ƒ์„ฑํ˜• ์• ํ”Œ๋ฆฌ์ผ€์ด์…˜์— ํ™œ์šฉ๋  ์ˆ˜ ์žˆ๋„๋ก ์ง€์›ํ•œ๋‹ค.

MiroThinker: Pushing the Performance Boundaries of Open-Source Research Agents via Model, Context, and Interactive Scaling

Paper, Project
MiroThinker v1.0์€ ๋„๊ตฌ ํ™œ์šฉ ์ถ”๋ก ๊ณผ ์ •๋ณด ํƒ์ƒ‰ ๋Šฅ๋ ฅ์„ ํ–ฅ์ƒ์‹œํ‚ค๊ธฐ ์œ„ํ•ด ์„ค๊ณ„๋œ ์˜คํ”ˆ ์†Œ์Šค ์—ฐ๊ตฌ ์—์ด์ „ํŠธ๋กœ, ๊ธฐ์กด ๋ชจ๋ธ๋“ค์ด ๋ชจ๋ธ ํฌ๊ธฐ๋‚˜ ์ปจํ…์ŠคํŠธ ๊ธธ์ด ํ™•์žฅ์—๋งŒ ์ง‘์ค‘ํ–ˆ๋˜ ๊ฒƒ๊ณผ ๋‹ฌ๋ฆฌ ์—์ด์ „ํŠธ์™€ ํ™˜๊ฒฝ ๊ฐ„์˜ ์ƒํ˜ธ์ž‘์šฉ ํ™•์žฅ์„ ์„ธ ๋ฒˆ์งธ ์„ฑ๋Šฅ ํ–ฅ์ƒ ์ฐจ์›์œผ๋กœ ์ œ์‹œํ•œ๋‹ค. ์ด ๋ชจ๋ธ์€ ๊ฐ•ํ™” ํ•™์Šต์„ ํ†ตํ•ด ํ™˜๊ฒฝ ํ”ผ๋“œ๋ฐฑ๊ณผ ์™ธ๋ถ€ ์ •๋ณด ํš๋“์„ ํ™œ์šฉํ•˜์—ฌ ์˜ค๋ฅ˜๋ฅผ ์ˆ˜์ •ํ•˜๊ณ  ๊ฒฝ๋กœ๋ฅผ ๊ฐœ์„ ํ•˜๋Š” '์ƒํ˜ธ์ž‘์šฉ ์Šค์ผ€์ผ๋ง'์„ ๊ตฌํ˜„ํ–ˆ์œผ๋ฉฐ, 256K ์ปจํ…์ŠคํŠธ ์œˆ๋„์šฐ ๋‚ด์—์„œ ์ตœ๋Œ€ 600ํšŒ์˜ ๋„๊ตฌ ํ˜ธ์ถœ์„ ์ˆ˜ํ–‰ํ•˜์—ฌ ๋ณต์žกํ•œ ์‹ค์ œ ์—ฐ๊ตฌ ์›Œํฌํ”Œ๋กœ์šฐ๋ฅผ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ๋‹ค. GAIA ๋“ฑ 4๊ฐœ ๋ฒค์น˜๋งˆํฌ์—์„œ GPT-5-high์™€ ๊ฐ™์€ ์ƒ์šฉ ๋ชจ๋ธ์— ๊ทผ์ ‘ํ•˜๋Š” ์„ฑ๋Šฅ์„ ๋ณด์—ฌ์ฃผ๋ฉฐ, ๋ชจ๋ธ ์šฉ๋Ÿ‰๊ณผ ์ปจํ…์ŠคํŠธ ๊ธธ์ด๋ฅผ ๋ณด์™„ํ•˜๋Š” ์ƒํ˜ธ์ž‘์šฉ์˜ ๊นŠ์ด๊ฐ€ ์ฐจ์„ธ๋Œ€ ์—ฐ๊ตฌ ์—์ด์ „ํŠธ ๊ตฌ์ถ•์˜ ํ•ต์‹ฌ ์š”์†Œ์ž„์„ ์ž…์ฆํ•œ๋‹ค.

P1: Mastering Physics Olympiads with Reinforcement Learning

Paper, Project
P1์€ ํผ์ฆ ํ’€์ด ์ˆ˜์ค€์„ ๋„˜์–ด ๊ณผํ•™์  ์ถ”๋ก  ๋Šฅ๋ ฅ์„ ๊ฐ–์ถ˜ ๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ(LLM)์„ ๋ชฉํ‘œ๋กœ ๊ฐœ๋ฐœ๋˜์—ˆ์œผ๋ฉฐ, ์˜ค์ง ๊ฐ•ํ™” ํ•™์Šต(RL)๋งŒ์„ ํ†ตํ•ด ํ›ˆ๋ จ๋œ ์˜คํ”ˆ ์†Œ์Šค ๋ฌผ๋ฆฌ ์ถ”๋ก  ๋ชจ๋ธ ์ œํ’ˆ๊ตฐ์ด๋‹ค. ํŠนํžˆ P1-235B-A22B ๋ชจ๋ธ์€ 2025๋…„ ๊ตญ์ œ ๋ฌผ๋ฆฌ ์˜ฌ๋ฆผํ”ผ์•„๋“œ(IPhO)์—์„œ ๊ธˆ๋ฉ”๋‹ฌ ์ˆ˜์ค€์˜ ์„ฑ๋Šฅ์„ ๊ธฐ๋กํ•œ ์ตœ์ดˆ์˜ ์˜คํ”ˆ ์†Œ์Šค ๋ชจ๋ธ์ด๋ฉฐ, PhysicsMinions๋ผ๋Š” ์—์ด์ „ํŠธ ํ”„๋ ˆ์ž„์›Œํฌ์™€ ๊ฒฐํ•ฉํ•˜์—ฌ ์ „์ฒด 1์œ„๋ฅผ ์ฐจ์ง€ํ•˜๋Š” ๋“ฑ ์••๋„์ ์ธ ์„ฑ๊ณผ๋ฅผ ๊ฑฐ๋‘์—ˆ๋‹ค. ์ด๋Ÿฌํ•œ P1 ๋ชจ๋ธ๋“ค์€ ๋ฌผ๋ฆฌ๋ฟ๋งŒ ์•„๋‹ˆ๋ผ ์ˆ˜ํ•™์ด๋‚˜ ์ฝ”๋”ฉ ๊ฐ™์€ ๋‹ค๋ฅธ ์ถ”๋ก  ์ž‘์—…์—์„œ๋„ ๋›ฐ์–ด๋‚œ ์ผ๋ฐ˜ํ™” ์„ฑ๋Šฅ์„ ๋ณด์—ฌ์ฃผ๋ฉฐ, ๊ธฐํ˜ธ์™€ ํ˜„์‹ค์„ ์—ฐ๊ฒฐํ•˜๋Š” ๊ณ ๋„ํ™”๋œ ๋ฌผ๋ฆฌ ๋ฌธ์ œ ํ•ด๊ฒฐ ๋Šฅ๋ ฅ์„ ํ†ตํ•ด AI์˜ ๊ณผํ•™ ์—ฐ๊ตฌ ๊ฐ€๋Šฅ์„ฑ์„ ํฌ๊ฒŒ ํ™•์žฅํ•œ๋‹ค.

Souper-Model: How Simple Arithmetic Unlocks State-of-the-Art LLM Performance

Paper, Project
Souper-Model ์—ฐ๊ตฌ๋Š” ๋™์ผํ•œ ์•„ํ‚คํ…์ฒ˜๋ฅผ ๊ฐ€์ง„ ์—ฌ๋Ÿฌ ๋ชจ๋ธ์˜ ๊ฐ€์ค‘์น˜๋ฅผ ํ‰๊ท ํ™”ํ•˜๋Š” '๋ชจ๋ธ ์ˆ˜ํ•‘(Model Souping)' ๊ธฐ๋ฒ•์„ ๊ฐœ์„ ํ•˜์—ฌ, ์žฌํ•™์Šต ์—†์ด๋„ LLM ์„ฑ๋Šฅ์„ ๋†’์ด๋Š” SoCE(Soup Of Category Experts)๋ผ๋Š” ์ƒˆ๋กœ์šด ์ ‘๊ทผ ๋ฐฉ์‹์„ ์ œ์•ˆํ•œ๋‹ค. ๊ธฐ์กด์˜ ๋‹จ์ˆœ ๊ท ์ผ ํ‰๊ท  ๋ฐฉ์‹๊ณผ ๋‹ฌ๋ฆฌ, ๋ฒค์น˜๋งˆํฌ ์นดํ…Œ๊ณ ๋ฆฌ ๊ฐ„์˜ ์ƒ๊ด€๊ด€๊ณ„๋ฅผ ๋ถ„์„ํ•˜์—ฌ ๊ฐ ๋ถ„์•ผ์˜ '์ „๋ฌธ๊ฐ€' ๋ชจ๋ธ์„ ์‹๋ณ„ํ•˜๊ณ  ์ตœ์ ํ™”๋œ ๋น„๊ท ์ผ ๊ฐ€์ค‘์น˜๋กœ ๊ฒฐํ•ฉํ•จ์œผ๋กœ์จ ์„ฑ๋Šฅ์„ ๊ทน๋Œ€ํ™”ํ•œ๋‹ค. ์ด ๋ฐฉ๋ฒ•์€ ๋‹ค๊ตญ์–ด ๋Šฅ๋ ฅ, ๋„๊ตฌ ํ˜ธ์ถœ, ์ˆ˜ํ•™ ๋“ฑ ๋‹ค์–‘ํ•œ ๋„๋ฉ”์ธ์—์„œ ๊ฒฌ๊ณ ํ•œ ์„ฑ๋Šฅ ํ–ฅ์ƒ์„ ์ž…์ฆํ–ˆ์œผ๋ฉฐ, ํŠนํžˆ ๋ฒ„ํด๋ฆฌ ํ•จ์ˆ˜ ํ˜ธ์ถœ ๋ฆฌ๋”๋ณด๋“œ์—์„œ ์ตœ๊ณ  ์ˆ˜์ค€์˜ ๊ฒฐ๊ณผ๋ฅผ ๋‹ฌ์„ฑํ•˜์—ฌ ๋‹จ์ˆœํ•œ ์‚ฐ์ˆ ์  ๊ฒฐํ•ฉ๋งŒ์œผ๋กœ๋„ ๋ชจ๋ธ ์„ฑ๋Šฅ์„ ํš๊ธฐ์ ์œผ๋กœ ๊ฐœ์„ ํ•  ์ˆ˜ ์žˆ์Œ์„ ๋ณด์—ฌ์ค€๋‹ค.

VIDEOP2R: Video Understanding from Perception to Reasoning

Paper
VideoP2R์€ ๋Œ€๊ทœ๋ชจ ๋น„๋””์˜ค ์–ธ์–ด ๋ชจ๋ธ(LVLM)์˜ ์ถ”๋ก  ๋Šฅ๋ ฅ์„ ํ–ฅ์ƒ์‹œํ‚ค๊ธฐ ์œ„ํ•ด '์ธ์‹'๊ณผ '์ถ”๋ก '์„ ๋ณ„๊ฐœ์˜ ๊ณผ์ •์œผ๋กœ ๋ชจ๋ธ๋งํ•˜๋Š” ์ƒˆ๋กœ์šด ํ”„๋กœ์„ธ์Šค ์ธ์ง€ํ˜• ๊ฐ•ํ™” ๋ฏธ์„ธ ์กฐ์ •(RFT) ํ”„๋ ˆ์ž„์›Œํฌ๋‹ค. ์—ฐ๊ตฌ์ง„์€ ๊ฐ๋… ๋ฏธ์„ธ ์กฐ์ •(SFT) ๋‹จ๊ณ„์—์„œ ๊ณ ํ’ˆ์งˆ์˜ ์ธ์‹ ๋ฐ ์ถ”๋ก  ์—ฐ์‡„ ์‚ฌ๊ณ (CoT) ๋ฐ์ดํ„ฐ์…‹์„ ๊ตฌ์ถ•ํ•˜๊ณ , ๊ฐ•ํ™” ํ•™์Šต(RL) ๋‹จ๊ณ„์—์„œ๋Š” ์ธ์‹๊ณผ ์ถ”๋ก ์— ๋Œ€ํ•ด ๊ฐœ๋ณ„์ ์ธ ๋ณด์ƒ์„ ์ œ๊ณตํ•˜๋Š” PA-GRPO ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ ๋„์ž…ํ–ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด 7๊ฐœ์˜ ๋น„๋””์˜ค ์ถ”๋ก  ๋ฒค์น˜๋งˆํฌ ์ค‘ 6๊ฐœ์—์„œ ์ตœ๊ณ  ์„ฑ๋Šฅ(SotA)์„ ๋‹ฌ์„ฑํ–ˆ์œผ๋ฉฐ, ๋ชจ๋ธ์˜ ์ธ์‹ ์ถœ๋ ฅ์ด ๋‹ค์šด์ŠคํŠธ๋ฆผ ์ถ”๋ก ์— ์ถฉ๋ถ„ํ•œ ์ •๋ณด๋ฅผ ์ œ๊ณตํ•จ์„ ์ž…์ฆํ•˜์—ฌ ๋น„๋””์˜ค ์ดํ•ด ๋ถ„์•ผ์—์„œ ํ”„๋กœ์„ธ์Šค ๋ถ„๋ฆฌ ์ ‘๊ทผ๋ฒ•์˜ ์œ ํšจ์„ฑ์„ ํ™•์ธ์‹œ์ผœ ์ค€๋‹ค.

Uni-MoE-2.0-Omni: Scaling Language-Centric Omnimodal Large Model with Advanced MoE, Training and Data

Paper, Project
Uni-MoE 2.0์€ ์–ธ์–ด ์ค‘์‹ฌ์˜ ๋‹ค์ค‘ ๋ชจ๋‹ฌ ์ดํ•ด, ์ถ”๋ก  ๋ฐ ์ƒ์„ฑ์„ ์œ„ํ•œ ์™„์ „ ์˜คํ”ˆ ์†Œ์Šค ์˜ด๋‹ˆ๋ชจ๋‹ฌ ๋Œ€๊ทœ๋ชจ ๋ชจ๋ธ(OLM)๋กœ, ๋™์  ์šฉ๋Ÿ‰์˜ ์ „๋ฌธ๊ฐ€ ํ˜ผํ•ฉ(MoE) ์„ค๊ณ„์™€ ์ ์ง„์  ํ•™์Šต ์ „๋žต์„ ํ†ตํ•ด ๊ตฌ์ถ•๋˜์—ˆ๋‹ค. ์ด ๋ชจ๋ธ์€ ํ…์ŠคํŠธ, ์ด๋ฏธ์ง€, ์Œ์„ฑ์„ ์•„์šฐ๋ฅด๋Š” ์˜ด๋‹ˆ๋ชจ๋‹ฌ ์ดํ•ด ๋Šฅ๋ ฅ๋ฟ๋งŒ ์•„๋‹ˆ๋ผ ์ด๋ฏธ์ง€์™€ ์Œ์„ฑ ์ƒ์„ฑ ๊ธฐ๋Šฅ๊นŒ์ง€ ๊ฐ–์ถ”๊ณ  ์žˆ์œผ๋ฉฐ, 10๊ฐ€์ง€ ๊ต์ฐจ ๋ชจ๋‹ฌ ์ž…๋ ฅ์— ๋Œ€ํ•ด ๊ณ„์‚ฐ ํšจ์œจ์„ฑ๊ณผ ์„ฑ๋Šฅ์˜ ๊ท ํ˜•์„ ๋งž์ถ˜ ์ƒˆ๋กœ์šด ์•„ํ‚คํ…์ฒ˜๋ฅผ ์ ์šฉํ–ˆ๋‹ค. 85๊ฐœ ๋ฒค์น˜๋งˆํฌ์—์„œ์˜ ๊ด‘๋ฒ”์œ„ํ•œ ํ‰๊ฐ€ ๊ฒฐ๊ณผ, ๋น„๋””์˜ค ์ดํ•ด์™€ ์‹œ์ฒญ๊ฐ ์ถ”๋ก  ๋“ฑ์—์„œ ๊ธฐ์กด ์„ ๋„ ๋ชจ๋ธ์ธ Qwen2.5-Omni๋ฅผ ๋Šฅ๊ฐ€ํ•˜๋Š” ์„ฑ๋Šฅ์„ ๊ธฐ๋กํ•˜์—ฌ ์˜คํ”ˆ ์†Œ์Šค ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๋ชจ๋ธ์˜ ์ƒˆ๋กœ์šด ๊ธฐ์ค€์„ ์ œ์‹œํ•œ๋‹ค.

Think-at-Hard: Selective Latent Iterations to Improve Reasoning Language Models

Paper, Project
Think-at-Hard(TaH)๋Š” LLM์˜ ์ถ”๋ก  ๋Šฅ๋ ฅ์„ ๋†’์ด๊ธฐ ์œ„ํ•ด ๋ชจ๋“  ํ† ํฐ์— ๋Œ€ํ•ด ์ถ”๊ฐ€ ์—ฐ์‚ฐ์„ ์ˆ˜ํ–‰ํ•˜๋Š” ๋Œ€์‹ , ์–ด๋ ต๋‹ค๊ณ  ํŒ๋‹จ๋˜๋Š” ํ† ํฐ์—์„œ๋งŒ ์ž ์žฌ์  ๋ฐ˜๋ณต(latent iteration)์„ ๊นŠ๊ฒŒ ์ˆ˜ํ–‰ํ•˜๋Š” ๋™์  ์‚ฌ๊ณ  ๋ฐฉ์‹์ด๋‹ค. ์—ฐ๊ตฌ์ง„์€ ์‰ฌ์šด ํ† ํฐ์„ ๊ณผ๋„ํ•˜๊ฒŒ ์ˆ˜์ •ํ•˜๋‹ค๊ฐ€ ์˜คํžˆ๋ ค ์˜ค๋ฅ˜๊ฐ€ ๋ฐœ์ƒํ•˜๋Š” '์ž ์žฌ์  ๊ณผ์ž‰ ์‚ฌ๊ณ ' ํ˜„์ƒ์„ ๋ฐœ๊ฒฌํ•˜๊ณ , ๊ฒฝ๋Ÿ‰ ์‹ ๊ฒฝ๋ง ๊ฒฐ์ •๊ธฐ๋ฅผ ํ†ตํ•ด ์ถ”๊ฐ€ ์—ฐ์‚ฐ์ด ํ•„์š”ํ•œ ์‹œ์ ์„ ์„ ๋ณ„์ ์œผ๋กœ ๊ฒฐ์ •ํ•˜๋„๋ก ์„ค๊ณ„ํ–ˆ๋‹ค. ์ด ๋ฐฉ์‹์€ LoRA ๋ชจ๋“ˆ๊ณผ ์ด์ค‘ ์ธ๊ณผ ์ฃผ์˜(duo-causal attention) ๋ฉ”์ปค๋‹ˆ์ฆ˜์„ ํ™œ์šฉํ•˜์—ฌ 94%์˜ ํ† ํฐ์— ๋Œ€ํ•ด์„œ๋Š” ์ถ”๊ฐ€ ์—ฐ์‚ฐ์„ ์ƒ๋žตํ•˜๋ฉด์„œ๋„ ์ถ”๋ก  ์ •ํ™•๋„๋ฅผ 8~12% ํ–ฅ์ƒ์‹œ์ผœ, ํŒŒ๋ผ๋ฏธํ„ฐ ์ฆ๊ฐ€๋ฅผ ์ตœ์†Œํ™”ํ•˜๋ฉด์„œ ํšจ์œจ์ ์œผ๋กœ ๋ชจ๋ธ ์„ฑ๋Šฅ์„ ์ตœ์ ํ™”ํ•œ๋‹ค.

DoPE: Denoising Rotary Position Embedding

Paper
DoPE(Denoising Rotary Position Embedding)๋Š” ํŠธ๋žœ์Šคํฌ๋จธ ๋ชจ๋ธ์˜ ์œ„์น˜ ์ž„๋ฒ ๋”ฉ(RoPE)์ด ๊ฐ€์ง„ ๊ธธ์ด ํ™•์žฅ์„ฑ์˜ ํ•œ๊ณ„๋ฅผ ๊ทน๋ณตํ•˜๊ธฐ ์œ„ํ•ด ์ œ์•ˆ๋œ ํ›ˆ๋ จ์ด ํ•„์š” ์—†๋Š” ๋ฐฉ๋ฒ•๋ก ์ด๋‹ค. ์—ฐ๊ตฌ์ง„์€ ์œ„์น˜ ์ธ์ฝ”๋”ฉ์ด ์ ์šฉ๋œ ์–ดํ…์…˜ ๋งต์„ ๋…ธ์ด์ฆˆ๊ฐ€ ์žˆ๋Š” ํŠน์ง• ๋งต์œผ๋กœ ์žฌํ•ด์„ํ•˜๊ณ , ์ ˆ๋‹จ๋œ ํ–‰๋ ฌ ์—”ํŠธ๋กœํ”ผ๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ์ด์ƒ ์ฃผํŒŒ์ˆ˜ ๋Œ€์—ญ์„ ์ œ๊ฑฐ(denoising)ํ•˜์—ฌ '์–ดํ…์…˜ ์‹ฑํฌ' ํ˜„์ƒ์„ ์™„ํ™”ํ–ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ์ตœ๋Œ€ 64K ํ† ํฐ๊นŒ์ง€ ๋ฌธ๋งฅ ๊ธธ์ด๊ฐ€ ํ™•์žฅ๋œ ์ƒํ™ฉ์—์„œ๋„ ๊ฒ€์ƒ‰ ์ •ํ™•๋„์™€ ์ถ”๋ก  ์•ˆ์ •์„ฑ์„ ํฌ๊ฒŒ ํ–ฅ์ƒ์‹œ์ผฐ์œผ๋ฉฐ, ์œ„์น˜ ์ž„๋ฒ ๋”ฉ์˜ ๋…ธ์ด์ฆˆ ์ œ๊ฑฐ๊ฐ€ ๋ชจ๋ธ์˜ ๊ธธ์ด ์ผ๋ฐ˜ํ™” ์„ฑ๋Šฅ์„ ๋†’์ด๋Š” ๊ฐ„๋‹จํ•˜๋ฉด์„œ๋„ ๊ฐ•๋ ฅํ•œ ํ•ด๊ฒฐ์ฑ…์ž„์„ ๋ณด์—ฌ์ค€๋‹ค.

Reasoning via Video: The First Evaluation of Video Models' Reasoning Abilities through Maze-Solving Tasks

Paper, Project
์ด ์—ฐ๊ตฌ๋Š” ๋น„๋””์˜ค ์ƒ์„ฑ ๋ชจ๋ธ์ด ํ…์ŠคํŠธ ๋ชจ๋ธ์ฒ˜๋Ÿผ ์ถ”๋ก  ๋Šฅ๋ ฅ์„ ๊ฐ€์งˆ ์ˆ˜ ์žˆ๋Š”์ง€ ํƒ๊ตฌํ•˜๋ฉฐ, ์ด๋ฅผ ์ฒด๊ณ„์ ์œผ๋กœ ํ‰๊ฐ€ํ•˜๊ธฐ ์œ„ํ•ด ๋ฏธ๋กœ ์ฐพ๊ธฐ ์ž‘์—…์— ๊ธฐ๋ฐ˜ํ•œ VR-Bench๋ฅผ ์†Œ๊ฐœํ•œ๋‹ค. 7,920๊ฐœ์˜ ์ ˆ์ฐจ์ ์œผ๋กœ ์ƒ์„ฑ๋œ ๋น„๋””์˜ค๋กœ ๊ตฌ์„ฑ๋œ ์ด ๋ฒค์น˜๋งˆํฌ๋ฅผ ํ†ตํ•ด, ์—ฐ๊ตฌ์ง„์€ ๋น„๋””์˜ค ๋ชจ๋ธ์ด ๊ฐ๋… ๋ฏธ์„ธ ์กฐ์ •(SFT)์„ ๊ฑฐ์น˜๋ฉด ๊ณต๊ฐ„์  ๊ณ„ํš๊ณผ ๋‹ค๋‹จ๊ณ„ ์ถ”๋ก ์ด ํ•„์š”ํ•œ ์ž‘์—…์—์„œ ๋›ฐ์–ด๋‚œ ๊ณต๊ฐ„ ์ง€๊ฐ ๋Šฅ๋ ฅ์„ ๋ฐœํœ˜ํ•จ์„ ํ™•์ธํ–ˆ๋‹ค. ํŠนํžˆ ์ถ”๋ก  ์‹œ ๋‹ค์–‘ํ•œ ์ƒ˜ํ”Œ๋ง์„ ์ˆ˜ํ–‰ํ•˜๋Š” ํ…Œ์ŠคํŠธ ์‹œ๊ฐ„ ์Šค์ผ€์ผ๋ง(test-time scaling)์ด ์ถ”๋ก  ์‹ ๋ขฐ๋„๋ฅผ 10~20% ํ–ฅ์ƒ์‹œํ‚จ๋‹ค๋Š” ์‚ฌ์‹ค์„ ๋ฐœ๊ฒฌํ•˜์—ฌ, ๋น„๋””์˜ค ์ƒ์„ฑ์„ ํ†ตํ•œ ๊ณต๊ฐ„ ์ถ”๋ก ์˜ ํ™•์žฅ์„ฑ๊ณผ ์ž ์žฌ๋ ฅ์„ ์ž…์ฆํ•œ๋‹ค.

Part-X-MLLM: Part-aware 3D Multimodal Large Language Model

Paper, Project
Part-X-MLLM์€ ๋‹ค์–‘ํ•œ 3D ์ž‘์—…์„ ๊ตฌ์กฐํ™”๋˜๊ณ  ์‹คํ–‰ ๊ฐ€๋Šฅํ•œ ๋ฌธ๋ฒ•์œผ๋กœ ํ†ตํ•ฉํ•˜์—ฌ ์ฒ˜๋ฆฌํ•˜๋Š” ๊ธฐ๋ณธ 3D ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ์ด๋‹ค. ์ด ๋ชจ๋ธ์€ RGB ํฌ์ธํŠธ ํด๋ผ์šฐ๋“œ์™€ ์ž์—ฐ์–ด ํ”„๋กฌํ”„ํŠธ๋ฅผ ์ž…๋ ฅ๋ฐ›์•„ ๋ถ€ํ’ˆ ์ˆ˜์ค€์˜ ๋ฐ”์šด๋”ฉ ๋ฐ•์Šค, ์˜๋ฏธ ์„ค๋ช…, ํŽธ์ง‘ ๋ช…๋ น ๋“ฑ์„ ํฌํ•จํ•˜๋Š” ์ผ๊ด€๋œ ํ† ํฐ ์‹œํ€€์Šค๋ฅผ ์ƒ์„ฑํ•˜๋ฉฐ, ์ด๋ฅผ ํ†ตํ•ด ๊ธฐํ•˜ํ•™์  ํ•ฉ์„ฑ ์—”์ง„์„ ์ œ์–ดํ•œ๋‹ค. ์ƒ์ง•์  ๊ณ„ํš๊ณผ ๊ธฐํ•˜ํ•™์  ํ•ฉ์„ฑ์„ ๋ถ„๋ฆฌํ•จ์œผ๋กœ์จ ๋‹จ์ผ ์ธํ„ฐํŽ˜์ด์Šค๋กœ ๊ณ ํ’ˆ์งˆ์˜ ๊ตฌ์กฐํ™”๋œ ๊ณ„ํš์„ ์ˆ˜๋ฆฝํ•  ์ˆ˜ ์žˆ๊ฒŒ ๋˜์—ˆ์œผ๋ฉฐ, ๊ทผ๊ฑฐ ์žˆ๋Š” ์งˆ์˜์‘๋‹ต(Q&A), ๊ตฌ์„ฑ์  ์ƒ์„ฑ, ๊ตญ์†Œ ํŽธ์ง‘ ๋“ฑ ๋‹ค์–‘ํ•œ 3D ์ž‘์—…์—์„œ ์ตœ์‹  ์„ฑ๋Šฅ์„ ๋‹ฌ์„ฑํ•œ๋‹ค.

MMaDA-Parallel: Multimodal Large Diffusion Language Models for Thinking-Aware Editing and Generation

Paper, Project
MMaDA-Parallel์€ ๋ณต์žกํ•œ ์ด๋ฏธ์ง€ ์ƒ์„ฑ ์ž‘์—…์—์„œ ๊ธฐ์กด์˜ ์ˆœ์ฐจ์  ์ ‘๊ทผ ๋ฐฉ์‹์ด ์˜ค๋ฅ˜ ์ „ํŒŒ๋กœ ์ธํ•ด ์„ฑ๋Šฅ์ด ์ €ํ•˜๋˜๋Š” ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด ์ œ์•ˆ๋œ ๋ณ‘๋ ฌ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ํ™•์‚ฐ ํ”„๋ ˆ์ž„์›Œํฌ๋‹ค. ํ…์ŠคํŠธ์™€ ์ด๋ฏธ์ง€ ๋ชจ๋‹ฌ๋ฆฌํ‹ฐ๊ฐ€ ๋””๋…ธ์ด์ง•(denoising) ๊ณผ์ • ์ „์ฒด์—์„œ ์ง€์†์ ์ด๊ณ  ์–‘๋ฐฉํ–ฅ์œผ๋กœ ์ƒํ˜ธ์ž‘์šฉํ•˜๋„๋ก ์„ค๊ณ„๋˜์—ˆ์œผ๋ฉฐ, ๊ต์ฐจ ๋ชจ๋‹ฌ ์ผ๊ด€์„ฑ์„ ๊ฐ•ํ™”ํ•˜๊ธฐ ์œ„ํ•ด ์˜๋ฏธ์  ๋ณด์ƒ์„ ์ ์šฉํ•˜๋Š” ๋ณ‘๋ ฌ ๊ฐ•ํ™” ํ•™์Šต(ParaRL) ์ „๋žต์„ ๋„์ž…ํ–ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ์ƒ์„ฑ๋œ ์ถ”๋ก  ๋‚ด์šฉ๊ณผ ์ตœ์ข… ์ด๋ฏธ์ง€ ๊ฐ„์˜ ์ •๋ ฌ ๋ถˆ์ผ์น˜ ๋ฌธ์ œ๋ฅผ ํฌ๊ฒŒ ๊ฐœ์„ ํ•˜์˜€์œผ๋ฉฐ, ParaBench ๋ฒค์น˜๋งˆํฌ์—์„œ ๊ธฐ์กด ์ตœ์‹  ๋ชจ๋ธ๋ณด๋‹ค ๋†’์€ ์ •๋ ฌ ์„ฑ๋Šฅ์„ ๊ธฐ๋กํ•˜์—ฌ ์‚ฌ๊ณ  ์ธ์ง€ํ˜• ์ด๋ฏธ์ง€ ํ•ฉ์„ฑ์˜ ์ƒˆ๋กœ์šด ํŒจ๋Ÿฌ๋‹ค์ž„์„ ์ œ์‹œํ•œ๋‹ค.

profile
XR๊ณผ AI์— ๊ด€์‹ฌ์ด ๋งŽ์€ Sky ์ž…๋‹ˆ๋‹ค.

0๊ฐœ์˜ ๋Œ“๊ธ€