[2025/W17] ๐Ÿค— Weekly AI Research

Skyยท2025๋…„ 4์›” 26์ผ

Weekly AI Research Digest

๋ชฉ๋ก ๋ณด๊ธฐ
18/89

TL;DR

ํ•™์Šต ํŒจ๋Ÿฌ๋‹ค์ž„ ๋ฐ ์ถ”๋ก  ๊ฐ•ํ™” ๋ถ„์•ผ์—์„œ๋Š” ๊ธฐ์กด ๋ชจ๋ธ์— ์ƒˆ๋กœ์šด ์–ธ์–ด ์ง€์‹์„ ํšจ์œจ์ ์œผ๋กœ ํ†ตํ•ฉํ•˜๊ฑฐ๋‚˜(Kuwain), ๊ฐ•ํ™”ํ•™์Šต(RL)์ด ์‹ค์ œ๋กœ LLM์˜ ์ถ”๋ก  ๋Šฅ๋ ฅ์„ ์–ด๋–ป๊ฒŒ ํ–ฅ์ƒ์‹œํ‚ค๋Š”์ง€ ์‹ฌ์ธต ๋ถ„์„ํ•˜๊ณ (RL Reasoning), ํ…Œ์ŠคํŠธ ์‹œ์ (TTRL)์ด๋‚˜ ์™ธ๋ถ€ ์ „๋ฌธ๊ฐ€ ๋ฐ์ดํ„ฐ(LUFFY)๋ฅผ ํ™œ์šฉํ•˜๋Š” ์ƒˆ๋กœ์šด RL ํŒจ๋Ÿฌ๋‹ค์ž„์„ ํƒ๊ตฌํ•˜๋Š” ์—ฐ๊ตฌ๋“ค์ด ์ง„ํ–‰ ์ค‘์ด๋‹ค. ๋˜ํ•œ, ์ง€์‹ ๊ทธ๋ž˜ํ”„ ๊ตฌ์กฐ ์ตœ์ ํ™”(NodeRAG)๋ฅผ ํ†ตํ•ด ๊ฒ€์ƒ‰ ์ฆ๊ฐ• ์ƒ์„ฑ(RAG)์˜ ํšจ์œจ๊ณผ ์„ฑ๋Šฅ์„ ๋†’์ด๋ ค๋Š” ์‹œ๋„๋„ ์ฃผ๋ชฉ๋ฐ›๋Š”๋‹ค.

๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ง€๋Šฅ ํ™•์žฅ ๋ถ„์•ผ์—์„œ๋Š” ์‹œ๊ฐ๊ณผ ์–ธ์–ด๋ฅผ ํ•จ๊ป˜ ์ฒ˜๋ฆฌํ•˜๋Š” ๋Šฅ๋ ฅ์€ ๋”์šฑ ์ •๊ตํ•ด์ง„๋‹ค. ๊ธด ๋น„๋””์˜ค๋‚˜ ๊ณ ํ•ด์ƒ๋„ ์ด๋ฏธ์ง€์— ๋Œ€ํ•œ ์ดํ•ด๋„๋ฅผ ๋†’์ด๊ณ (Eagle 2.5), ์ด๋ฏธ์ง€ ๋‚ด ํŠน์ • ๊ฐ์ฒด๋‚˜ ์˜์—ญ์— ๋Œ€ํ•œ ์ƒ์„ธ ์„ค๋ช…์„ ์ƒ์„ฑํ•˜๋ฉฐ(Describe Anything), ์‚ฌ์šฉ์ž ์š”๊ตฌ์— ๋งž์ถฐ ๊ณ ํ’ˆ์งˆ ์ด๋ฏธ์ง€๋ฅผ ํŽธ์ง‘ํ•˜๋Š”(Step1X-Edit) ๋“ฑ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๋ชจ๋ธ์˜ ํ‘œํ˜„๋ ฅ๊ณผ ์ƒ์„ฑ ๋Šฅ๋ ฅ์„ ํ™•์žฅํ•˜๋Š” ์—ฐ๊ตฌ๋“ค์ด ํ™œ๋ฐœํ•˜๋‹ค.

์—์ด์ „ํŠธ AI์™€ ์›”๋“œ ๋ชจ๋ธ๋ง ๋ถ„์•ผ์—์„œ๋Š” AI๊ฐ€ ํŠน์ • ํ™˜๊ฒฝ์ด๋‚˜ ๋„๊ตฌ๋ฅผ ์ž์œจ์ ์œผ๋กœ ์‚ฌ์šฉํ•˜๋Š” ์—์ด์ „ํŠธ ๊ธฐ์ˆ ๋„ ๋ฐœ์ „ํ•œ๋‹ค. ๋ฐ์Šคํฌํ†ฑ ํ™˜๊ฒฝ์—์„œ์˜ ๋ณต์žกํ•œ ์ž‘์—…์„ ์ž๋™ํ™”ํ•˜๋Š” ์—์ด์ „ํŠธ(UFO2)์˜ ์‹ค์šฉ์„ฑ์„ ๋†’์ด๋Š” ์—ฐ๊ตฌ์™€ ํ•จ๊ป˜, ํ™˜๊ฒฝ์˜ ๋™์—ญํ•™์„ ํ•™์Šตํ•˜๋Š” '์›”๋“œ ๋ชจ๋ธ'์„ ์‹ ๊ฒฝ๋ง๊ณผ ๊ธฐํ˜ธ์  ์ง€์‹์œผ๋กœ ๊ฒฐํ•ฉํ•˜์—ฌ(WALL-E 2.0) ์—์ด์ „ํŠธ์˜ ๊ณ„ํš ๋ฐ ์‹คํ–‰ ๋Šฅ๋ ฅ์„ ๊ทผ๋ณธ์ ์œผ๋กœ ํ–ฅ์ƒ์‹œํ‚ค๋ ค๋Š” ๋…ธ๋ ฅ์ด ์ด๋ฃจ์–ด์ง€๊ณ  ์žˆ๋‹ค.

ํ‰๊ฐ€ ๋ฐฉ๋ฒ•๋ก  ๋ฐ ๋ฒค์น˜๋งˆํ‚น ๋ถ„์•ผ์—์„œ๋Š” AI ๋ชจ๋ธ์˜ ์‹ค์ œ ์—ญ๋Ÿ‰์„ ์ •ํ™•ํ•˜๊ณ  ๊ณต์ •ํ•˜๊ฒŒ ์ธก์ •ํ•˜๋Š” ๊ฒƒ ๋˜ํ•œ ์ค‘์š”ํ•œ ์—ฐ๊ตฌ ์ฃผ์ œ๋‹ค. ์–ธ์–ด์  ํŽธํ–ฅ ์—†์ด ์ˆœ์ˆ˜ํ•œ ์‹œ๊ฐ์  ์ถ”๋ก  ๋Šฅ๋ ฅ์„ ํ‰๊ฐ€ํ•˜๊ธฐ ์œ„ํ•œ ์ƒˆ๋กœ์šด ๋ฒค์น˜๋งˆํฌ(VisuLogic)๊ฐ€ ์ œ์•ˆ๋˜์—ˆ์œผ๋ฉฐ, ๊ธฐ์กด ๋‹ค๊ตญ์–ด ํ‰๊ฐ€ ๋ฐ์ดํ„ฐ์…‹๋“ค์˜ ํ•œ๊ณ„๋ฅผ ๋ถ„์„ํ•˜๊ณ (Bitter Lesson) ๋ฌธํ™”์ , ์–ธ์–ด์  ๋‹ค์–‘์„ฑ์„ ๋ฐ˜์˜ํ•˜๋Š” ๋” ๋‚˜์€ ํ‰๊ฐ€ ์ฒด๊ณ„ ๊ตฌ์ถ•์˜ ํ•„์š”์„ฑ์ด ๊ฐ•์กฐ๋˜๊ณ  ์žˆ๋‹ค.

ํ•™์Šต ํŒจ๋Ÿฌ๋‹ค์ž„ ๋ฐ ์ถ”๋ก  ๊ฐ•ํ™” ๋ถ„์•ผ

Kuwain 1.5B: An Arabic SLM via Language Injection

Paper

์ด ๋…ผ๋ฌธ์€ ์ฃผ๋กœ ์˜์–ด๋กœ ํ›ˆ๋ จ๋œ ๊ธฐ์กด ์†Œ๊ทœ๋ชจ LLM์— ์•„๋ž์–ด๋ฅผ '์ฃผ์ž…'ํ•˜์—ฌ 15์–ต ํŒŒ๋ผ๋ฏธํ„ฐ์˜ 'Kuwain' ๋ชจ๋ธ์„ ํ›ˆ๋ จ์‹œํ‚ค๋Š” ์ƒˆ๋กœ์šด ์–ธ์–ด ํ†ตํ•ฉ ๋ฐฉ๋ฒ•์„ ์ œ์•ˆํ•œ๋‹ค. ์ด ์ ‘๊ทผ๋ฒ•์€ ๊ธฐ์กด ๋ชจ๋ธ์˜ ์ง€์‹์„ ์†์ƒ์‹œํ‚ค์ง€ ์•Š์œผ๋ฉด์„œ ์•„๋ž์–ด ์„ฑ๋Šฅ์„ ํ‰๊ท  8% ํ–ฅ์ƒ์‹œ์ผฐ์œผ๋ฉฐ, ์›๋ณธ ๋ฐ์ดํ„ฐ๋ฅผ ์ตœ์†Œํ•œ์œผ๋กœ ์‚ฌ์šฉํ•˜์—ฌ ์˜์–ด์™€ ์•„๋ž์–ด๋ฅผ ๋ชจ๋‘ ์ง€์›ํ•˜๋Š” ๋ชจ๋ธ์„ ์ฒ˜์Œ๋ถ€ํ„ฐ ํ›ˆ๋ จํ•˜๋Š” ๊ฒƒ๋ณด๋‹ค ๋น„์šฉ ํšจ์œจ์ ์ธ ๋Œ€์•ˆ์„ ์ œ๊ณตํ•˜์—ฌ, ๋Œ€๊ทœ๋ชจ ์žฌํ›ˆ๋ จ ์—†์ด ํŠน์ • ์–ธ์–ด ๋Šฅ๋ ฅ์„ ํšจ์œจ์ ์œผ๋กœ ํ™•์žฅํ•  ์ˆ˜ ์žˆ์Œ์„ ์ž…์ฆํ•œ๋‹ค.

Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?

Paper, Project

์ด ์—ฐ๊ตฌ๋Š” ๋„๋ฆฌ ์•Œ๋ ค์ง„ ๋ฏฟ์Œ๊ณผ ๋‹ฌ๋ฆฌ ๊ฐ•ํ™”ํ•™์Šต(ํŠนํžˆ RLVR)์ด LLM์—๊ฒŒ ๊ธฐ๋ณธ ๋ชจ๋ธ์˜ ๋Šฅ๋ ฅ์„ ๊ทผ๋ณธ์ ์œผ๋กœ ๋„˜์–ด์„œ๋Š” ์ƒˆ๋กœ์šด ์ถ”๋ก  ๋Šฅ๋ ฅ์„ ๋ถ€์—ฌํ•˜์ง€ ๋ชปํ•œ๋‹ค๋Š” ์‚ฌ์‹ค์„ pass@k ์ง€ํ‘œ(ํŠนํžˆ ํฐ k๊ฐ’) ๋ถ„์„์„ ํ†ตํ•ด ๋ฐํ˜€๋‚ธ๋‹ค. RL ํ›ˆ๋ จ์€ ์ƒˆ๋กœ์šด ์ถ”๋ก  ๊ฒฝ๋กœ๋ฅผ ์ฐฝ์กฐํ•˜๊ธฐ๋ณด๋‹ค๋Š” ๊ธฐ๋ณธ ๋ชจ๋ธ์ด ์ด๋ฏธ ์ƒ˜ํ”Œ๋งํ•  ์ˆ˜ ์žˆ๋Š” ๊ฒฝ๋กœ ์ค‘ ๋ณด์ƒ์„ ๋ฐ›์„ ๊ฐ€๋Šฅ์„ฑ์ด ๋†’์€ ๊ฒฝ๋กœ๋ฅผ ๋” ํšจ์œจ์ ์œผ๋กœ ์ฐพ๋„๋ก 'ํŽธํ–ฅ'์‹œํ‚ค๋Š” ์—ญํ• ์„ ํ•˜์ง€๋งŒ, ์ด ๊ณผ์ •์—์„œ ์˜คํžˆ๋ ค ์ถ”๋ก  ๋Šฅ๋ ฅ์˜ ์ „์ฒด ๋ฒ”์œ„๋Š” ์ข์•„์งˆ ์ˆ˜ ์žˆ๋‹ค๋Š” ํ•œ๊ณ„๋ฅผ ์ง€์ ํ•˜๋ฉฐ LLM ์ถ”๋ก  ๋Šฅ๋ ฅ ํ–ฅ์ƒ์„ ์œ„ํ•œ RL์˜ ์—ญํ•  ์žฌ๊ณ  ๋ฐ ์ƒˆ๋กœ์šด ํŒจ๋Ÿฌ๋‹ค์ž„ ๋ชจ์ƒ‰์˜ ํ•„์š”์„ฑ์„ ๊ฐ•์กฐํ•œ๋‹ค.

TTRL: Test-Time Reinforcement Learning

Paper, Project

์ด ๋…ผ๋ฌธ์€ ์ •๋‹ต ๋ผ๋ฒจ์ด ์—†๋Š” ๋ฐ์ดํ„ฐ ํ™˜๊ฒฝ์—์„œ LLM์˜ ์ถ”๋ก  ๋Šฅ๋ ฅ์„ ํ–ฅ์ƒ์‹œํ‚ค๊ธฐ ์œ„ํ•ด, ์‹ค์ œ ์ถ”๋ก (ํ…Œ์ŠคํŠธ) ๋‹จ๊ณ„์—์„œ ๊ฐ•ํ™”ํ•™์Šต์„ ์ ์šฉํ•˜๋Š” ์ƒˆ๋กœ์šด ๋ฐฉ๋ฒ•๋ก  'TTRL(Test-Time Reinforcement Learning)'์„ ์ œ์•ˆํ•œ๋‹ค. TTRL์€ '๋‹ค์ˆ˜๊ฒฐ ํˆฌํ‘œ(Majority Voting)'์™€ ๊ฐ™์€ ํ…Œ์ŠคํŠธ ์‹œ ์Šค์ผ€์ผ๋ง ๊ธฐ๋ฒ•์„ ํ™œ์šฉํ•˜์—ฌ ์ •๋‹ต ์—†์ด๋„ ํšจ๊ณผ์ ์ธ ๋ณด์ƒ ์‹ ํ˜ธ๋ฅผ ์ƒ์„ฑํ•˜๊ณ  ์ด๋ฅผ ๋ฐ”ํƒ•์œผ๋กœ ๋ชจ๋ธ์ด ์Šค์Šค๋กœ ์„ฑ๋Šฅ์„ ๊ฐœ์„ ํ•˜๋„๋ก ์œ ๋„ํ•˜๊ณ , ์‹คํ—˜์„ ํ†ตํ•ด ๋ผ๋ฒจ ์—†๋Š” ๋ฐ์ดํ„ฐ๋งŒ์œผ๋กœ๋„ ํŠน์ • ์ˆ˜ํ•™ ๋ฒค์น˜๋งˆํฌ์—์„œ ๊ด„๋ชฉํ•  ๋งŒํ•œ ์„ฑ๋Šฅ ํ–ฅ์ƒ(์•ฝ 159%)์„ ๋ณด์ด๊ณ  ์ดˆ๊ธฐ ๋ชจ๋ธ์˜ ์„ฑ๋Šฅ ์ƒํ•œ์„ ์„ ๋„˜์–ด ๋ผ๋ฒจ ๊ธฐ๋ฐ˜ ํ›ˆ๋ จ ๋ชจ๋ธ์— ๊ทผ์ ‘ํ•˜๋Š” ๋“ฑ ๋‹ค์–‘ํ•œ ์ž‘์—…์—์„œ์˜ ์ผ๋ฐ˜์ ์ธ ํšจ๊ณผ์™€ ์ž ์žฌ๋ ฅ์„ ์ž…์ฆํ•œ๋‹ค.

Learning to Reason under Off-Policy Guidance

Paper, Project

๊ธฐ์กด '์˜จ-ํด๋ฆฌ์‹œ(on-policy)' ๊ฐ•ํ™”ํ•™์Šต์ด ๋ชจ๋ธ์˜ ์ดˆ๊ธฐ ๋Šฅ๋ ฅ์„ ๋„˜์–ด์„œ๋Š” ์ถ”๋ก  ๋Šฅ๋ ฅ ํš๋“์— ํ•œ๊ณ„๊ฐ€ ์žˆ๋‹ค๋Š” ์ ์„ ์ง€์ ํ•˜๊ณ , ์™ธ๋ถ€์˜ ๋ชจ๋ฒ” ์ถ”๋ก  ์‚ฌ๋ก€('์˜คํ”„-ํด๋ฆฌ์‹œ ์‹œ์—ฐ')์™€ ๋ชจ๋ธ ์ž์ฒด์˜ ํƒ์ƒ‰ ๊ฒฐ๊ณผ('์˜จ-ํด๋ฆฌ์‹œ ๋กค์•„์›ƒ')๋ฅผ ๋™์ ์œผ๋กœ ๊ฒฐํ•ฉํ•˜์—ฌ ํ•™์Šตํ•˜๋Š” 'LUFFY' ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ œ์•ˆํ•œ๋‹ค. LUFFY๋Š” ์ •๊ทœํ™”๋œ ์ค‘์š”๋„ ์ƒ˜ํ”Œ๋ง์„ ํ†ตํ•œ ์ •์ฑ… ํ˜•์„ฑ ๊ธฐ๋ฒ•์„ ๋„์ž…ํ•˜์—ฌ ํ”ผ์ƒ์ ์ธ ๋ชจ๋ฐฉ์„ ๋ฐฉ์ง€ํ•˜๊ณ  ํƒ์ƒ‰์„ ์žฅ๋ คํ•˜๊ณ , ์‹คํ—˜ ๊ฒฐ๊ณผ ์—ฌ๋Ÿฌ ์ˆ˜ํ•™ ๋ฒค์น˜๋งˆํฌ์™€ ๋ถ„ํฌ ์™ธ(OOD) ์ž‘์—…์—์„œ ์ƒ๋‹นํ•œ ์„ฑ๋Šฅ ํ–ฅ์ƒ์„ ๋‹ฌ์„ฑํ•˜๊ณ  ํŠนํžˆ ์ผ๋ฐ˜ํ™” ๋Šฅ๋ ฅ์—์„œ ๋‹จ์ˆœ ๋ชจ๋ฐฉ ํ•™์Šต(SFT)์„ ํฌ๊ฒŒ ๋Šฅ๊ฐ€ํ•จ์œผ๋กœ์จ, ์˜คํ”„-ํด๋ฆฌ์‹œ ์ง€๋„๋ฅผ ํ™œ์šฉํ•œ ํ™•์žฅ ๊ฐ€๋Šฅํ•˜๊ณ  ์ผ๋ฐ˜ํ™” ์„ฑ๋Šฅ์ด ์šฐ์ˆ˜ํ•œ ์ถ”๋ก  ๋ชจ๋ธ ํ›ˆ๋ จ ๋ฐฉ๋ฒ•๋ก ์˜ ๊ฐ€๋Šฅ์„ฑ์„ ์ œ์‹œํ•œ๋‹ค.

NodeRAG: Structuring Graph-based RAG with Heterogeneous Nodes

Paper, Project

๊ธฐ์กด ๊ทธ๋ž˜ํ”„ ๊ธฐ๋ฐ˜ ๊ฒ€์ƒ‰ ์ฆ๊ฐ• ์ƒ์„ฑ(RAG) ๋ฐฉ์‹๋“ค์ด ์ข…์ข… ๊ทธ๋ž˜ํ”„ ๊ตฌ์กฐ ์ž์ฒด์˜ ์„ค๊ณ„์—๋Š” ์†Œํ™€ํ•˜์—ฌ ์ž ์žฌ๋ ฅ์„ ์ถฉ๋ถ„ํžˆ ๋ฐœํœ˜ํ•˜์ง€ ๋ชปํ•œ๋‹ค๋Š” ๋ฌธ์ œ์˜์‹ ํ•˜์—, RAG ์›Œํฌํ”Œ๋กœ์šฐ์— ๊ทธ๋ž˜ํ”„ ๊ธฐ๋ฐ˜ ๋ฐฉ๋ฒ•๋ก ์„ ๋ณด๋‹ค ์›ํ™œํ•˜๊ณ  ํšจ๊ณผ์ ์œผ๋กœ ํ†ตํ•ฉํ•˜๊ธฐ ์œ„ํ•ด ๋‹ค์–‘ํ•œ ์ข…๋ฅ˜์˜ ๋…ธ๋“œ์™€ ๊ด€๊ณ„๋ฅผ ํฌํ•จํ•˜๋Š” '์ด๊ธฐ์ข…(heterogeneous) ๊ทธ๋ž˜ํ”„ ๊ตฌ์กฐ'๋ฅผ ํ•ต์‹ฌ์œผ๋กœ ๋„์ž…ํ•˜๋Š” ๊ทธ๋ž˜ํ”„ ์ค‘์‹ฌ ํ”„๋ ˆ์ž„์›Œํฌ 'NodeRAG'๋ฅผ ์ œ์•ˆํ•œ๋‹ค. NodeRAG๋Š” LLM์˜ ๋Šฅ๋ ฅ๊ณผ ๊ธด๋ฐ€ํ•˜๊ฒŒ ์—ฐ๊ณ„๋˜๋„๋ก ์„ค๊ณ„๋˜์–ด ์ข…๋‹จ ๊ฐ„ ํ”„๋กœ์„ธ์Šค์˜ ํšจ์œจ์„ฑ์„ ๋†’์ด๊ณ , ๊ด‘๋ฒ”์œ„ํ•œ ์‹คํ—˜์„ ํ†ตํ•ด ๊ธฐ์กด GraphRAG ๋ฐ LightRAG ๋Œ€๋น„ ์ธ๋ฑ์‹ฑ/์ฟผ๋ฆฌ ์‹œ๊ฐ„ ๋ฐ ์ €์žฅ ํšจ์œจ์„ฑ๋ฟ๋งŒ ์•„๋‹ˆ๋ผ, ํŠนํžˆ ๋‹ค์ค‘ ํ™‰(multi-hop) ์งˆ์˜์‘๋‹ต ์„ฑ๋Šฅ์—์„œ ๋” ์ ์€ ๊ฒ€์ƒ‰ ํ† ํฐ์œผ๋กœ๋„ ์šฐ์œ„๋ฅผ ๋ณด์ด๋ฉฐ ๊ทธ๋ž˜ํ”„ ๊ธฐ๋ฐ˜ RAG์˜ ์„ฑ๋Šฅ์„ ํ•œ ๋‹จ๊ณ„ ๋Œ์–ด์˜ฌ๋ฆฐ๋‹ค.

๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ง€๋Šฅ ํ™•์žฅ ๋ถ„์•ผ

Eagle 2.5: Boosting Long-Context Post-Training for Frontier Vision-Language Models

Paper, Project

์ด ์—ฐ๊ตฌ๋Š” ๊ธด ๋น„๋””์˜ค ์ดํ•ด์™€ ๊ณ ํ•ด์ƒ๋„ ์ด๋ฏธ์ง€ ์ฒ˜๋ฆฌ์™€ ๊ฐ™์€ '๊ธด ๋งฅ๋ฝ(long-context)' ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ํ•™์Šต ๋Šฅ๋ ฅ์„ ๊ฐ•ํ™”ํ•œ ์ตœ์ฒจ๋‹จ ์‹œ๊ฐ-์–ธ์–ด ๋ชจ๋ธ(VLM) ์ œํ’ˆ๊ตฐ 'Eagle 2.5'๋ฅผ ์†Œ๊ฐœํ•œ๋‹ค. ๋ฌธ๋งฅ์  ๋ฌด๊ฒฐ์„ฑ๊ณผ ์‹œ๊ฐ์  ์„ธ๋ถ€ ์‚ฌํ•ญ์„ ๋ณด์กดํ•˜๋Š” '์ž๋™ ํ’ˆ์งˆ ์ €ํ•˜ ์ƒ˜ํ”Œ๋ง' ๋ฐ '์ด๋ฏธ์ง€ ์˜์—ญ ๋ณด์กด' ๊ธฐ๋ฒ•, ๊ธด ๋งฅ๋ฝ ๋ฐ์ดํ„ฐ ์ฒ˜๋ฆฌ๋ฅผ ์œ„ํ•œ ํšจ์œจ์ ์ธ ํ›ˆ๋ จ ํŒŒ์ดํ”„๋ผ์ธ ์ตœ์ ํ™”, ๊ทธ๋ฆฌ๊ณ  ๊ธด ๋น„๋””์˜ค ์ดํ•ด๋ฅผ ๋•๋Š” ์ƒˆ๋กœ์šด 'Eagle-Video-110K' ๋ฐ์ดํ„ฐ์…‹ ๊ตฌ์ถ•์„ ํ†ตํ•ด ๊ฐœ๋ฐœ๋˜์—ˆ๊ณ , Eagle 2.5-8B ๋ชจ๋ธ์€ ์ฃผ์š” ๊ธด ๋น„๋””์˜ค ๋ฒค์น˜๋งˆํฌ(Video-MME)์—์„œ ์ตœ๊ณ  ์ˆ˜์ค€์˜ ์ƒ์šฉ ๋ฐ ์˜คํ”ˆ์†Œ์Šค ๋ชจ๋ธ๋“ค๊ณผ ๊ฒฌ์ค„ ๋งŒํ•œ ์„ฑ๋Šฅ์„ ๋‹ฌ์„ฑํ•˜์—ฌ ๊ธฐ์กด VLM์˜ ํ•œ๊ณ„๋ฅผ ๊ทน๋ณตํ•˜๋Š” ๊ฐ•๋ ฅํ•œ ์†”๋ฃจ์…˜์„ ์ œ์‹œํ•œ๋‹ค.

Describe Anything: Detailed Localized Image and Video Captioning

Paper, Project

์ด๋ฏธ์ง€๋‚˜ ๋น„๋””์˜ค์˜ ํŠน์ • ์˜์—ญ์— ๋Œ€ํ•ด ์ƒ์„ธํ•˜๊ณ  ์ •ํ™•ํ•œ ์„ค๋ช…์„ ์ƒ์„ฑํ•˜๋Š” '์ƒ์„ธ ์ง€์—ญํ™” ์บก์…”๋‹(DLC)'์ด ์‹œ๊ฐ-์–ธ์–ด ๋ชจ๋ธ์˜ ์ค‘์š” ๊ณผ์ œ์ž„์„ ์ธ์‹ํ•˜์—ฌ, ์ด๋ฅผ ์œ„ํ•ด 'DAM(Describe Anything Model)'์„ ์ œ์•ˆํ•œ๋‹ค. DAM์€ ๋ชฉํ‘œ ์˜์—ญ์˜ ์„ธ๋ถ€ ์ •๋ณด๋ฅผ ๊ณ ํ•ด์ƒ๋„๋กœ ์ธ์ฝ”๋”ฉํ•˜๋Š” '์ดˆ์  ํ”„๋กฌํ”„ํŠธ'์™€ ์ •๋ฐ€ํ•œ ์œ„์น˜ ์ •๋ณด๋ฅผ ์ฃผ๋ณ€ ๋งฅ๋ฝ๊ณผ ํ†ตํ•ฉํ•˜๋Š” '์ง€์—ญํ™”๋œ ๋น„์ „ ๋ฐฑ๋ณธ'์ด๋ผ๋Š” ๋‘ ๊ฐ€์ง€ ํ•ต์‹ฌ ํ˜์‹ ์„ ํ†ตํ•ด ์ง€์—ญ์  ์„ธ๋ถ€ ์‚ฌํ•ญ๊ณผ ์ „์—ญ์  ๋งฅ๋ฝ์„ ๋ชจ๋‘ ํšจ๊ณผ์ ์œผ๋กœ ๋ณด์กดํ•˜๊ณ , ๊ณ ํ’ˆ์งˆ DLC ๋ฐ์ดํ„ฐ ๋ถ€์กฑ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด ์ค€์ง€๋„ํ•™์Šต ๊ธฐ๋ฐ˜ ๋ฐ์ดํ„ฐ ํŒŒ์ดํ”„๋ผ์ธ(DLC-SDP)์„ ๊ฐœ๋ฐœํ•˜๊ณ  ์ฐธ์กฐ ์บก์…˜ ์—†์ด ํ‰๊ฐ€ ๊ฐ€๋Šฅํ•œ DLC-Bench๋ฅผ ๋„์ž…ํ•˜์—ฌ 7๊ฐœ์˜ ๊ด€๋ จ ๋ฒค์น˜๋งˆํฌ์—์„œ ์ตœ๊ณ  ์„ฑ๋Šฅ(SOTA)์„ ๋‹ฌ์„ฑํ–ˆ๋‹ค.

Step1X-Edit: A Practical Framework for General Image Editing

Paper, Project

์ตœ๊ทผ GPT-4o, Gemini Flash ๋“ฑ ์ตœ์ฒจ๋‹จ ๋น„๊ณต๊ฐœ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๋ชจ๋ธ๋“ค์ด ๋›ฐ์–ด๋‚œ ์ด๋ฏธ์ง€ ํŽธ์ง‘ ๋Šฅ๋ ฅ์„ ๋ณด์—ฌ์ฃผ๋Š” ๋ฐ˜๋ฉด ์˜คํ”ˆ์†Œ์Šค ๋ชจ๋ธ๊ณผ์˜ ์„ฑ๋Šฅ ๊ฒฉ์ฐจ๊ฐ€ ํฌ๋‹ค๋Š” ์ ์— ์ฃผ๋ชฉํ•˜๊ณ , ์ด ๊ฐ„๊ทน์„ ๋ฉ”์šฐ๊ธฐ ์œ„ํ•œ ๊ณ ์„ฑ๋Šฅ ์˜คํ”ˆ์†Œ์Šค ์ด๋ฏธ์ง€ ํŽธ์ง‘ ๋ชจ๋ธ 'Step1X-Edit'์„ ๊ฐœ๋ฐœํ•˜๊ณ  ๊ณต๊ฐœํ•œ๋‹ค. Step1X-Edit์€ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ LLM์„ ์‚ฌ์šฉํ•˜์—ฌ ์›๋ณธ ์ด๋ฏธ์ง€์™€ ์‚ฌ์šฉ์ž์˜ ํŽธ์ง‘ ์ง€์‹œ์‚ฌํ•ญ์„ ์ฒ˜๋ฆฌํ•˜๊ณ , ์ถ”์ถœ๋œ ์ž ์žฌ ์ž„๋ฒ ๋”ฉ์„ ํ™•์‚ฐ ์ด๋ฏธ์ง€ ๋””์ฝ”๋”์™€ ํ†ตํ•ฉํ•˜์—ฌ ๋ชฉํ‘œ ์ด๋ฏธ์ง€๋ฅผ ์ƒ์„ฑํ•˜๊ณ , ์ž์ฒด ๊ตฌ์ถ•ํ•œ ๊ณ ํ’ˆ์งˆ ๋ฐ์ดํ„ฐ ์ƒ์„ฑ ํŒŒ์ดํ”„๋ผ์ธ์œผ๋กœ ํ›ˆ๋ จ๋˜๊ณ  ์‹ค์ œ ์‚ฌ์šฉ์ž ์ง€์นจ์— ๊ธฐ๋ฐ˜ํ•œ GEdit-Bench ํ‰๊ฐ€์—์„œ ๊ธฐ์กด ์˜คํ”ˆ์†Œ์Šค ๋ชจ๋ธ๋“ค์„ ํฐ ์ฐจ์ด๋กœ ๋Šฅ๊ฐ€ํ•˜๊ณ  ์„ ๋„์ ์ธ ์ƒ์šฉ ๋ชจ๋ธ ์„ฑ๋Šฅ์— ๊ทผ์ ‘ํ•จ์„ ์ž…์ฆํ•˜์—ฌ ์ด๋ฏธ์ง€ ํŽธ์ง‘ ๋ถ„์•ผ ๋ฐœ์ „์— ๊ธฐ์—ฌํ•œ๋‹ค.

์—์ด์ „ํŠธ AI์™€ ์›”๋“œ ๋ชจ๋ธ๋ง ๋ถ„์•ผ

UFO2: The Desktop AgentOS

Paper, Project

์ž์—ฐ์–ด๋กœ ๋ณต์žกํ•œ ๋ฐ์Šคํฌํ†ฑ ์ž‘์—…์„ ์ž๋™ํ™”ํ•˜๋Š” ์ปดํ“จํ„ฐ ์‚ฌ์šฉ ์—์ด์ „ํŠธ(CUA)๊ฐ€ ์•„์ง ๊ฐœ๋… ์ฆ๋ช… ์ˆ˜์ค€์— ๋จธ๋ฌผ๊ณ  ์–•์€ OS ํ†ตํ•ฉ, ๋ถˆ์•ˆ์ •ํ•œ ์Šคํฌ๋ฆฐ์ƒท ๊ธฐ๋ฐ˜ ์ƒํ˜ธ์ž‘์šฉ, ์‚ฌ์šฉ์ž ์ž‘์—… ๋ฐฉํ•ด ๋“ฑ์˜ ํ•œ๊ณ„๋ฅผ ๋ณด์ด๋Š” ์ƒํ™ฉ์„ ๊ฐœ์„ ํ•˜๊ธฐ ์œ„ํ•ด, ์‹ค์šฉ์ ์ธ ์‹œ์Šคํ…œ ์ˆ˜์ค€ ์ž๋™ํ™”๋ฅผ ๋ชฉํ‘œ๋กœ ํ•˜๋Š” ์œˆ๋„์šฐ ๋ฐ์Šคํฌํ†ฑ์šฉ ๋ฉ€ํ‹ฐ ์—์ด์ „ํŠธ 'AgentOS'์ธ UFO2๋ฅผ ๊ฐœ๋ฐœํ–ˆ๋‹ค. UFO2๋Š” ์ค‘์•™ ์ง‘์ค‘์‹ HostAgent๊ฐ€ ์ž‘์—…์„ ์กฐ์œจํ•˜๊ณ  ๋‹ค์ˆ˜์˜ ์• ํ”Œ๋ฆฌ์ผ€์ด์…˜ ํŠนํ™” AppAgent๊ฐ€ ๋„ค์ดํ‹ฐ๋ธŒ API, ๋„๋ฉ”์ธ ์ง€์‹, ํ†ตํ•ฉ GUI-API ์•ก์…˜ ๋ ˆ์ด์–ด๋ฅผ ํ™œ์šฉํ•˜์—ฌ ์ž‘์—…์„ ์ˆ˜ํ–‰ํ•˜๋Š” ๊ตฌ์กฐ๋ฅผ ๊ฐ€์ง€๊ณ  ์žˆ์œผ๋ฉฐ, ํ•˜์ด๋ธŒ๋ฆฌ๋“œ ์ œ์–ด ๊ฐ์ง€ ํŒŒ์ดํ”„๋ผ์ธ, ์ถ”์ธก์  ๋‹ค์ค‘ ํ–‰๋™ ๊ณ„ํš, ๊ทธ๋ฆฌ๊ณ  ์‚ฌ์šฉ์ž์™€ ์—์ด์ „ํŠธ์˜ ๋™์‹œ ์ž‘์—…์„ ๊ฐ€๋Šฅ์ผ€ ํ•˜๋Š” PIP ์ธํ„ฐํŽ˜์ด์Šค ๋“ฑ์„ ํ†ตํ•ด 20๊ฐœ ์ด์ƒ์˜ ์‹ค์ œ ์œˆ๋„์šฐ ์• ํ”Œ๋ฆฌ์ผ€์ด์…˜ ํ™˜๊ฒฝ์—์„œ ๊ธฐ์กด CUA ๋Œ€๋น„ ํ–ฅ์ƒ๋œ ์•ˆ์ •์„ฑ๊ณผ ์‹คํ–‰ ์ •ํ™•๋„๋ฅผ ์ž…์ฆํ•˜๋ฉฐ ๊นŠ์€ OS ํ†ตํ•ฉ์ด ์‹ ๋ขฐ์„ฑ ์žˆ๋Š” ์ž๋™ํ™”์˜ ํ•ต์‹ฌ์ž„์„ ๊ฐ•์กฐํ•œ๋‹ค.

WALL-E 2.0: World Alignment by NeuroSymbolic Learning improves World Model-based LLM Agents

Paper, Project

๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ(LLM)์˜ ์‚ฌ์ „ ์ง€์‹๊ณผ ํŠน์ • ํ™˜๊ฒฝ์˜ ๋™์—ญํ•™ ์‚ฌ์ด์˜ ๋ถˆ์ผ์น˜๊ฐ€ LLM ๊ธฐ๋ฐ˜ ์›”๋“œ ๋ชจ๋ธ ๋ฐ ์—์ด์ „ํŠธ ์„ฑ๋Šฅ์˜ ๋ณ‘๋ชฉ์ด ๋œ๋‹ค๋Š” ์ ์„ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด, ๋ณ„๋„์˜ ํ›ˆ๋ จ ์—†์ด ํ™˜๊ฒฝ์˜ ํ–‰๋™ ๊ทœ์น™, ์ง€์‹ ๊ทธ๋ž˜ํ”„ ๋“ฑ ์ƒ์ง•์  ์ง€์‹์„ ํ•™์Šตํ•˜์—ฌ LLM์˜ ์ง€์‹์„ ๋ณด์™„ํ•˜๋Š” '์›”๋“œ ์ •๋ ฌ(World Alignment)' ๊ฐœ๋…๊ณผ ์ด๋ฅผ ํ™œ์šฉํ•˜๋Š” ๊ฐ•ํ™”ํ•™์Šต(RL) ์—†๋Š” ๋ชจ๋ธ ์˜ˆ์ธก ์ œ์–ด(MPC) ๊ธฐ๋ฐ˜ ์—์ด์ „ํŠธ 'WALL-E 2.0'์„ ์ œ์•ˆํ•œ๋‹ค. WALL-E 2.0์€ LLM ์—์ด์ „ํŠธ๋ฅผ ํšจ์œจ์ ์ธ ๋ฏธ๋ž˜ ํ–‰๋™ ๊ณ„ํš์ž(look-ahead optimizer)๋กœ ์‚ฌ์šฉํ•˜๊ณ  ์ด๋ฅผ ์ •ํ™•ํ•˜๊ฒŒ ์ •๋ ฌ๋œ ์‹ ๊ฒฝ-์ƒ์ง•์  ์›”๋“œ ๋ชจ๋ธ๊ณผ ์ƒํ˜ธ์ž‘์šฉ์‹œ์ผœ ๊ณ„ํš์˜ ํšจ์œจ์„ฑ๊ณผ ์ •ํ™•์„ฑ์„ ๋™์‹œ์— ํ™•๋ณดํ•˜๊ณ , Mars(๋งˆ์ธํฌ๋ž˜ํ”„ํŠธ ์œ ์‚ฌ) ๋ฐ ALFWorld(์‹ค๋‚ด ํ™˜๊ฒฝ)์™€ ๊ฐ™์€ ๋„์ „์ ์ธ ํ™˜๊ฒฝ์—์„œ ๊ธฐ์กด ๋ฐฉ๋ฒ•๋“ค์„ ์„ฑ๊ณต๋ฅ ๊ณผ ์ ์ˆ˜ ๋ฉด์—์„œ ํฐ ํญ์œผ๋กœ ๋Šฅ๊ฐ€ํ•˜๊ณ  ํŠนํžˆ ALFWorld์—์„œ๋Š” ๋‹จ 4๋ฒˆ์˜ ๋ฐ˜๋ณต๋งŒ์œผ๋กœ 98%๋ผ๋Š” ์ตœ๊ณ  ์ˆ˜์ค€์˜ ์„ฑ๊ณต๋ฅ ์„ ๋‹ฌ์„ฑํ•˜์—ฌ ์ƒˆ๋กœ์šด ํ™˜๊ฒฝ์—์„œ์˜ ๋น ๋ฅธ ํ•™์Šต ๋Šฅ๋ ฅ๊ณผ ํšจ๊ณผ๋ฅผ ์ž…์ฆํ–ˆ๋‹ค.

ํ‰๊ฐ€ ๋ฐฉ๋ฒ•๋ก  ๋ฐ ๋ฒค์น˜๋งˆํ‚น ๋ถ„์•ผ

VisuLogic: A Benchmark for Evaluating Visual Reasoning in Multi-modal Large Language Models

Paper, Project

ํ˜„์žฌ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๋Œ€ํ˜• ์–ธ์–ด ๋ชจ๋ธ(MLLM)์˜ ์‹œ๊ฐ์  ์ถ”๋ก  ๋Šฅ๋ ฅ ํ‰๊ฐ€๊ฐ€ ํ…์ŠคํŠธ ์ •๋ณด์— ์˜์กดํ•˜์—ฌ ์–ธ์–ด์  '๊ผผ์ˆ˜(shortcut)'๋ฅผ ํ—ˆ์šฉํ•˜๊ณ  ์ง„์ •ํ•œ ์‹œ๊ฐ ๊ธฐ๋ฐ˜ ์ถ”๋ก ์„ ์ธก์ •ํ•˜์ง€ ๋ชปํ•˜๋Š” ํ•œ๊ณ„๋ฅผ ์ง€์ ํ•˜๊ณ , ์ด๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด 'VisuLogic'์ด๋ผ๋Š” ์ƒˆ๋กœ์šด ๋ฒค์น˜๋งˆํฌ๋ฅผ ์ œ์•ˆํ•œ๋‹ค. VisuLogic์€ ์–‘์  ๋ณ€ํ™”, ๊ณต๊ฐ„ ๊ด€๊ณ„ ๋“ฑ 6๊ฐ€์ง€ ๋ฒ”์ฃผ์— ๊ฑธ์ณ ์ธ๊ฐ„์ด ๊ฒ€์ฆํ•œ 1,000๊ฐœ์˜ ๋ฌธ์ œ๋กœ ๊ตฌ์„ฑ๋˜์–ด MLLM์˜ ์‹œ๊ฐ์  ์ถ”๋ก  ๋Šฅ๋ ฅ์„ ๋‹ค๊ฐ๋„๋กœ ํ‰๊ฐ€ํ•˜๋„๋ก ์„ค๊ณ„๋˜์—ˆ์œผ๋ฉฐ, ์ฃผ์š” MLLM ํ‰๊ฐ€ ๊ฒฐ๊ณผ ๋ฌด์ž‘์œ„ ์ถ”์ธก(25%)๋ณด๋‹ค ์•ฝ๊ฐ„ ๋†’์€ 30% ๋ฏธ๋งŒ์˜ ๋‚ฎ์€ ์ •ํ™•๋„๋ฅผ ๋ณด์—ฌ ์ธ๊ฐ„(51.4%)๊ณผ์˜ ํ˜„์ €ํ•œ ๊ฒฉ์ฐจ๋ฅผ ๋“œ๋Ÿฌ๋ƒˆ์œผ๋ฉฐ, ํ–ฅํ›„ ์—ฐ๊ตฌ ์ง€์›์„ ์œ„ํ•ด ๊ด€๋ จ ํ›ˆ๋ จ ๋ฐ์ดํ„ฐ์…‹๊ณผ ๊ฐ•ํ™”ํ•™์Šต ๊ธฐ๋ฐ˜ ๋ฒ ์ด์Šค๋ผ์ธ ๋ชจ๋ธ์„ ํ•จ๊ป˜ ์ œ๊ณตํ•œ๋‹ค.

The Bitter Lesson Learned from 2,000+ Multilingual Benchmarks

Paper

์ด ์—ฐ๊ตฌ๋Š” 2021๋…„๋ถ€ํ„ฐ 2024๋…„๊นŒ์ง€ 148๊ฐœ๊ตญ์—์„œ ๋ฐœํ‘œ๋œ 2,000๊ฐœ ์ด์ƒ์˜ ๋น„์˜์–ด๊ถŒ ๋‹ค๊ตญ์–ด ๋ฒค์น˜๋งˆํฌ๋ฅผ ํฌ๊ด„์ ์œผ๋กœ ๋ถ„์„ํ•˜์—ฌ ํ˜„์žฌ ๋‹ค๊ตญ์–ด LLM ํ‰๊ฐ€ ๋ฐฉ์‹์˜ ๋ฌธ์ œ์ ์„ ์ง„๋‹จํ•œ๋‹ค. ์ƒ๋‹นํ•œ ํˆฌ์ž์—๋„ ๋ถˆ๊ตฌํ•˜๊ณ  ์—ฌ์ „ํžˆ ์˜์–ด๊ฐ€ ๊ณผ๋„ํ•˜๊ฒŒ ๋Œ€ํ‘œ๋˜๊ณ  ์žˆ์œผ๋ฉฐ, ๋Œ€๋ถ€๋ถ„์˜ ๋ฒค์น˜๋งˆํฌ๊ฐ€ ๊ณ ์ž์› ๊ตญ๊ฐ€์˜ ์›์–ด ์ฝ˜ํ…์ธ ์— ์˜์กดํ•˜๊ณ , ๋ฒค์น˜๋งˆํฌ ์ ์ˆ˜์™€ ์ธ๊ฐ„์˜ ์‹ค์ œ ํŒ๋‹จ(ํŠนํžˆ ์ „ํ†ต์  NLP ์ž‘์—…) ์‚ฌ์ด์— ์ƒ๋‹นํ•œ ๋ถˆ์ผ์น˜๊ฐ€ ์กด์žฌํ•˜๋ฉฐ, ๋‹จ์ˆœ ๋ฒˆ์—ญ๋ณด๋‹ค๋Š” ๋ฌธํ™”ยท์–ธ์–ด์ ์œผ๋กœ ๋งž์ถคํ™”๋œ ํ˜„์ง€ ๋ฒค์น˜๋งˆํฌ๊ฐ€ ์ธ๊ฐ„ ํŒ๋‹จ๊ณผ ํ›จ์”ฌ ๋” ์ž˜ ์ผ์น˜ํ•œ๋‹ค๋Š” ์  ๋“ฑ 6๊ฐ€์ง€ ์ฃผ์š” ํ•œ๊ณ„๋ฅผ ์ง€์ ํ•œ๋‹ค. ์ด๋ฅผ ๋ฐ”ํƒ•์œผ๋กœ ํšจ๊ณผ์ ์ธ ๋‹ค๊ตญ์–ด ๋ฒค์น˜๋งˆํ‚น์„ ์œ„ํ•œ ์ง€์นจ ์›์น™๊ณผ ํ–ฅํ›„ ์—ฐ๊ตฌ ๋ฐฉํ–ฅ์„ ์ œ์‹œํ•˜๊ณ , ์‹ค์ œ ์‘์šฉ์„ ์šฐ์„ ์‹œํ•˜๊ณ  ์ธ๊ฐ„์˜ ํŒ๋‹จ๊ณผ ์ž˜ ๋งž๋Š” ๋ฒค์น˜๋งˆํฌ ๊ฐœ๋ฐœ์„ ์œ„ํ•œ ์ „ ์„ธ๊ณ„์ ์ธ ํ˜‘๋ ฅ์„ ์ด‰๊ตฌํ•œ๋‹ค.

profile
XR๊ณผ AI์— ๊ด€์‹ฌ์ด ๋งŽ์€ Sky ์ž…๋‹ˆ๋‹ค.

0๊ฐœ์˜ ๋Œ“๊ธ€