[2025/W11] ๐Ÿค— Weekly AI Research

Skyยท2025๋…„ 3์›” 15์ผ

Weekly AI Research Digest

๋ชฉ๋ก ๋ณด๊ธฐ
11/89

2025๋…„ 11์ฃผ์ฐจ์— ๊ณต๊ฐœ๋œ ์ฃผ๋ชฉํ• ๋งŒํ•œ AI ๋ถ„์•ผ์˜ ๋…ผ๋ฌธ๋“ค์„ ์†Œ๊ฐœํ•ฉ๋‹ˆ๋‹ค.

TL;DR

์–ธ์–ด ๋ชจ๋ธ ๋ฐ ํ…์ŠคํŠธ ์ฒ˜๋ฆฌ ๋ถ„์•ผ์—์„œ๋Š” Sparse Autoencoder๋ฅผ ํ†ตํ•ด ์ธ๊ณต ์ƒ์„ฑ ํ…์ŠคํŠธ ํƒ์ง€(ATD)์˜ ํ•ด์„ ๊ฐ€๋Šฅ์„ฑ์„ ๋†’์ด๊ณ  ์ธ๊ฐ„๊ณผ LLM ๊ฐ„์˜ ๊ธ€์“ฐ๊ธฐ ์Šคํƒ€์ผ ์ฐจ์ด๋ฅผ ๊ทœ๋ช…ํ–ˆ์Šต๋‹ˆ๋‹ค. EuroBERT๋Š” ์ตœ์‹  ์ƒ์„ฑ(decoder-only) ๋ชจ๋ธ์˜ ๋ฐœ์ „์„ ์–‘๋ฐฉํ–ฅ ์ธ์ฝ”๋”์— ์ ์šฉํ•˜์—ฌ ์œ ๋Ÿฝ ๋ฐ ๊ธ€๋กœ๋ฒŒ ์–ธ์–ด๋ฅผ ์œ„ํ•œ ๋‹ค๊ตญ์–ด ์ธ์ฝ”๋” ์„ฑ๋Šฅ์„ ๊ฐœ์„ ํ–ˆ์Šต๋‹ˆ๋‹ค. SEAP๋Š” ํ•™์Šต ์—†์ด LLM์˜ task-specificํ•œ ์ „๋ฌธ๊ฐ€(expert)๋ฅผ ์„ ํƒ์ ์œผ๋กœ pruningํ•˜์—ฌ ๊ณ„์‚ฐ ํšจ์œจ์„ฑ์„ ๋†’์ด๊ณ  ์„ฑ๋Šฅ ์ €ํ•˜๋ฅผ ์ตœ์†Œํ™”ํ–ˆ์Šต๋‹ˆ๋‹ค.

๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ดํ•ด ๋ฐ ์ถ”๋ก  ๋ถ„์•ผ์—์„œ๋Š” UnifiedReward๋Š” ์ด๋ฏธ์ง€ ๋ฐ ๋น„๋””์˜ค ์ดํ•ดยท์ƒ์„ฑ์„ ๋™์‹œ์— ํ‰๊ฐ€ํ•˜๋Š” ์ตœ์ดˆ์˜ ํ†ตํ•ฉ ๋ณด์ƒ ๋ชจ๋ธ๋กœ, ๊ณต๋™ ํ•™์Šต ์‹œ ์ƒํ˜ธ ์„ฑ๋Šฅ ํ–ฅ์ƒ ํšจ๊ณผ๋ฅผ ๋ณด์˜€์Šต๋‹ˆ๋‹ค. LMM-R1์€ ์†Œํ˜•(3B) ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๋ชจ๋ธ์—์„œ ๋‘ ๋‹จ๊ณ„ ๊ทœ์น™ ๊ธฐ๋ฐ˜ RL์„ ํ†ตํ•ด ์ถ”๋ก  ๋Šฅ๋ ฅ์„ ํฌ๊ฒŒ ๊ฐœ์„ ํ–ˆ์Šต๋‹ˆ๋‹ค. 4D LangSplat์€ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ LLM์„ ํ†ตํ•ด ๋™์  ์žฅ๋ฉด์—์„œ ๊ฐœ๋ฐฉํ˜• ์–ธ์–ด ์งˆ์˜๋ฅผ ํšจ๊ณผ์ ์œผ๋กœ ์ฒ˜๋ฆฌํ•˜๋Š” ์ƒˆ๋กœ์šด 4D ์Šคํ”Œ๋ž˜ํŒ… ๋ฐฉ์‹์„ ์ œ์•ˆํ–ˆ์Šต๋‹ˆ๋‹ค.

3D ์žฌ๊ตฌ์„ฑ ๋ฐ ๋™์ž‘ ์ƒ์„ฑ ๋ถ„์•ผ์—์„œ๋Š” PE3R์€ ๊ธฐ์กด ๋ฐฉ์‹ ๋Œ€๋น„ ์ตœ์†Œ 9๋ฐฐ ๋น ๋ฅธ ์†๋„์™€ ๋†’์€ ์ •ํ™•์„ฑ์œผ๋กœ 2Dโ†’3D ์žฌ๊ตฌ์„ฑ์˜ ์ผ๋ฐ˜ํ™” ์„ฑ๋Šฅ์„ ํฌ๊ฒŒ ๊ฐœ์„ ํ–ˆ์Šต๋‹ˆ๋‹ค. Motion Anything์€ ํ…์ŠคํŠธ ๋ฐ ์Œ์•… ๋“ฑ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์กฐ๊ฑด์„ ํšจ๊ณผ์ ์œผ๋กœ ํ†ตํ•ฉํ•˜์—ฌ ์ •๋ฐ€ํ•œ ์กฐ๊ฑด๋ถ€ ๋™์ž‘ ์ƒ์„ฑ ์„ฑ๋Šฅ์„ ๋‹ฌ์„ฑํ–ˆ์Šต๋‹ˆ๋‹ค.

์ „๋ฌธ ๋ถ„์•ผ ๋ฐ ๋ฌธํ™” ํŠนํ™” ๋ฐ์ดํ„ฐ์…‹ ๊ตฌ์ถ• ๋ถ„์•ผ์—์„œ๋Š” RuCCoD๋Š” ๋Ÿฌ์‹œ์•„์–ด๋กœ ๊ตฌ์ถ•๋œ ICD ์ฝ”๋“œ ๋ฐ์ดํ„ฐ์…‹์œผ๋กœ, ์ž๋™ํ™”๋ฅผ ํ†ตํ•ด ์˜์‚ฌ์˜ ์ˆ˜๋™ ๋ผ๋ฒจ๋ง ๋Œ€๋น„ ๋†’์€ ์ •ํ™•๋„๋ฅผ ๋‹ฌ์„ฑํ•˜๋ฉฐ ๋Ÿฌ์‹œ์•„์–ด ์˜๋ฃŒ ๋ฐ์ดํ„ฐ ์ž๋™ํ™” ๊ฐ€๋Šฅ์„ฑ์„ ์ž…์ฆํ–ˆ์Šต๋‹ˆ๋‹ค. SEA-VL์€ ๋™๋‚จ์•„์‹œ์•„์˜ ๋ฌธํ™”์  ํŠน์„ฑ์„ ๋ฐ˜์˜ํ•œ ์ด๋ฏธ์ง€ ์•ฝ 128๋งŒ ์žฅ ๊ทœ๋ชจ์˜ ๋ฐ์ดํ„ฐ์…‹์„ ๊ตฌ์ถ•ํ•˜์—ฌ ์ง€์—ญ ๋ฌธํ™”์˜ ๋Œ€ํ‘œ์„ฑ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๊ณ  AI ๋‹ค์–‘์„ฑ์„ ๊ฐ•ํ™”ํ–ˆ์Šต๋‹ˆ๋‹ค.

์–ธ์–ด ๋ชจ๋ธ ๋ฐ ํ…์ŠคํŠธ ์ฒ˜๋ฆฌ

Feature-Level Insights into Artificial Text Detection with Sparse Autoencoders

Paper

๋Œ€๊ทœ๋ชจ ์–ธ์–ด๋ชจ๋ธ(LLM)์˜ ๋ฐœ์ „์œผ๋กœ ์ธํ•ด ์ธ๊ณต ์ƒ์„ฑ ํ…์ŠคํŠธ ํƒ์ง€(Artificial Text Detection, ATD)์˜ ์ค‘์š”์„ฑ์ด ๋†’์•„์ง€๊ณ  ์žˆ์ง€๋งŒ, ๋‹ค์–‘ํ•œ ์œ ํ˜•์˜ ๋ฏธํ™•์ธ ํ…์ŠคํŠธ์— ์ผ๊ด€๋˜๊ฒŒ ์šฐ์ˆ˜ํ•œ ์„ฑ๋Šฅ์„ ๋ณด์ด๊ฑฐ๋‚˜ ์ƒˆ๋กœ์šด LLM์— ํšจ๊ณผ์ ์œผ๋กœ ์ผ๋ฐ˜ํ™”๋˜๋Š” ์•Œ๊ณ ๋ฆฌ์ฆ˜์€ ์•„์ง ์กด์žฌํ•˜์ง€ ์•Š์Šต๋‹ˆ๋‹ค. ์ด๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด ๋ณธ ์—ฐ๊ตฌ๋Š” Sparse Autoencoders(SAE)๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ Gemma-2-2b์˜ residual stream์—์„œ ํŠน์ง•(feature)์„ ์ถ”์ถœํ•จ์œผ๋กœ์จ ATD์˜ ํ•ด์„ ๊ฐ€๋Šฅ์„ฑ(interpretability)์„ ํ–ฅ์ƒ์‹œ์ผฐ์Šต๋‹ˆ๋‹ค. ์ถ”์ถœ๋œ ํŠน์ง•์˜ ์˜๋ฏธ๋ก ๊ณผ ์—ฐ๊ด€์„ฑ์„ ๋„๋ฉ”์ธ ๋ฐ ๋ชจ๋ธ๋ณ„ ํ†ต๊ณ„ ๋ถ„์„, ์Šคํ‹ฐ์–ด๋ง(steering) ๊ธฐ๋ฒ•, ์ˆ˜๋™ ๋˜๋Š” LLM ๊ธฐ๋ฐ˜ ํ•ด์„์„ ํ†ตํ•ด ๋ถ„์„ํ•˜์˜€์Šต๋‹ˆ๋‹ค. ์—ฐ๊ตฌ ๊ฒฐ๊ณผ, ์ตœ์‹  LLM์€ ์ธ๊ฐ„๊ณผ ์œ ์‚ฌํ•œ ์ถœ๋ ฅ์„ ์ƒ์„ฑํ•  ์ˆ˜ ์žˆ์Œ์—๋„ ๋ถˆ๊ตฌํ•˜๊ณ , ํŠนํžˆ ์ •๋ณด ๋ฐ€๋„๊ฐ€ ๋†’์€ ๋„๋ฉ”์ธ์—์„œ๋Š” ๊ณ ์œ ํ•œ ๊ธ€์“ฐ๊ธฐ ์Šคํƒ€์ผ์ด ์žˆ์Œ์„ ํ™•์ธํ–ˆ์Šต๋‹ˆ๋‹ค.

EuroBERT: Scaling Multilingual Encoders for European Languages

Paper, Project

์ตœ๊ทผ ์ƒ์„ฑ(decoder-only) ๋ชจ๋ธ์˜ ๋ฐœ์ „์œผ๋กœ ์ธํ•ด ๋ฒ”์šฉ ๋‹ค๊ตญ์–ด ๋ฒกํ„ฐ ํ‘œํ˜„์„ ์–ป๋Š” ๋ฐ ์‚ฌ์šฉ๋˜์—ˆ๋˜ ๊ธฐ์กด์˜ ์–‘๋ฐฉํ–ฅ ์ธ์ฝ”๋” ๋ชจ๋ธ์ด ์ฃผ๋ชฉ๋ฐ›์ง€ ๋ชปํ•˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. ๋ณธ ๋…ผ๋ฌธ์—์„œ๋Š” ์ตœ๊ทผ ์ƒ์„ฑ ๋ชจ๋ธ ๋ฐœ์ „์˜ ํ•ต์‹ฌ ํ˜์‹ ์„ ๋‹ค๊ตญ์–ด ์ธ์ฝ”๋” ๊ฐœ๋ฐœ์— ์ ์šฉํ•˜์—ฌ ์œ ๋Ÿฝ ๋ฐ ์ „ ์„ธ๊ณ„์ ์œผ๋กœ ๋„๋ฆฌ ์‚ฌ์šฉ๋˜๋Š” ์–ธ์–ด๋ฅผ ์ง€์›ํ•˜๋Š” EuroBERT ๋ชจ๋ธ๊ตฐ์„ ์†Œ๊ฐœํ•ฉ๋‹ˆ๋‹ค. EuroBERT๋Š” ๋‹ค๊ตญ์–ด ๋Šฅ๋ ฅ, ์ˆ˜ํ•™ ๋ฐ ์ฝ”๋”ฉ์„ ํฌํ•จํ•œ ๋‹ค์–‘ํ•œ ์ž‘์—…์—์„œ ๊ธฐ์กด ๋ชจ๋ธ์˜ ์„ฑ๋Šฅ์„ ๋›ฐ์–ด๋„˜์œผ๋ฉฐ, ์ตœ๋Œ€ 8,192 ํ† ํฐ์˜ ๊ธด ์‹œํ€€์Šค๋ฅผ ๊ธฐ๋ณธ์ ์œผ๋กœ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ ๋ฐ์ดํ„ฐ์…‹ ๊ตฌ์„ฑ ๋ฐ ํ›ˆ๋ จ ํŒŒ์ดํ”„๋ผ์ธ ๋“ฑ ์„ค๊ณ„ ๊ฒฐ์ • ๊ณผ์ •์„ ์ƒ์„ธํžˆ ์ œ์‹œํ•˜๊ณ  ์ค‘๊ฐ„ ํ•™์Šต ์ฒดํฌํฌ์ธํŠธ๋ฅผ ํฌํ•จํ•˜์—ฌ ๋ชจ๋ธ๊ณผ ํ›ˆ๋ จ ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ๊ณต๊ฐœํ•ฉ๋‹ˆ๋‹ค.

SEAP: Training-free Sparse Expert Activation Pruning Unlock the Brainpower of Large Language Models

Paper, Project

๋Œ€๊ทœ๋ชจ ์–ธ์–ด๋ชจ๋ธ(LLM)์€ ๋‹ค์–‘ํ•œ ์ž์—ฐ์–ด ์ฒ˜๋ฆฌ ์ž‘์—…์—์„œ ๋›ฐ์–ด๋‚œ ์„ฑ๊ณผ๋ฅผ ๊ฑฐ๋‘์—ˆ์œผ๋‚˜, ์ถ”๋ก  ์‹œ ๋†’์€ ๊ณ„์‚ฐ ๋น„์šฉ์ด ์ฃผ์š”ํ•œ ์žฅ์• ๋ฌผ๋กœ ๋‚จ์•„์žˆ์Šต๋‹ˆ๋‹ค. ๋ณธ ๋…ผ๋ฌธ์€ ์ถ”๋ก  ๊ณผ์ •์—์„œ ์ž‘์—…๊ณผ ๊ด€๋ จ๋œ ํŒŒ๋ผ๋ฏธํ„ฐ๋งŒ ์„ ํƒ์ ์œผ๋กœ ์œ ์ง€ํ•˜์—ฌ ์ถ”๋ก  ๋น„์šฉ์„ ์ค„์ด๋Š”, ํ•™์Šต์ด ํ•„์š” ์—†๋Š” ๊ฐ€์ง€์น˜๊ธฐ(pruning) ๊ธฐ๋ฒ•์ธ Sparse Expert Activation Pruning(SEAP)์„ ์†Œ๊ฐœํ•ฉ๋‹ˆ๋‹ค. SEAP์€ LLM์˜ hidden state์™€ ํ™œ์„ฑํ™”์—์„œ ๋‚˜ํƒ€๋‚˜๋Š” ํด๋Ÿฌ์Šคํ„ฐ๋ง ํŒจํ„ด์— ์ฐฉ์•ˆํ•˜์—ฌ, ์ž‘์—…์— ํŠนํ™”๋œ ์ „๋ฌธ๊ฐ€(expert) ํ™œ์„ฑํ™” ํŒจํ„ด์„ ์‹๋ณ„ํ•˜๊ณ  ๋ชจ๋ธ ์„ฑ๋Šฅ์„ ์œ ์ง€ํ•˜๋ฉด์„œ ์—ฐ์‚ฐ ํšจ์œจ์„ฑ์„ ํ–ฅ์ƒ์‹œํ‚ต๋‹ˆ๋‹ค. ์‹คํ—˜ ๊ฒฐ๊ณผ, SEAP์€ ๊ฒฝ์Ÿ๋ ฅ ์žˆ๋Š” ์ •ํ™•์„ฑ์„ ์œ ์ง€ํ•˜๋ฉด์„œ๋„ ๊ณ„์‚ฐ ์˜ค๋ฒ„ํ—ค๋“œ๋ฅผ ํฌ๊ฒŒ ๊ฐ์†Œ์‹œํ‚ต๋‹ˆ๋‹ค. ํŠนํžˆ, 50% pruning์—์„œ ๊ธฐ์กด ๋ฐฉ๋ฒ•์ธ WandA์™€ FLAP์„ 20% ์ด์ƒ ๋Šฅ๊ฐ€ํ–ˆ์œผ๋ฉฐ, 20% pruning์—์„œ๋„ ์›๋ณธ ๋ฐ€์ง‘ ๋ชจ๋ธ(dense model)์— ๋น„ํ•ด ์„ฑ๋Šฅ์ด ๋‹จ์ง€ 2.2%๋งŒ ์ €ํ•˜๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ๊ฒฐ๊ณผ๋Š” SEAP์˜ ํ™•์žฅ์„ฑ๊ณผ ํšจ์œจ์„ฑ์„ ์ž…์ฆํ•˜๋ฉฐ, ๋Œ€๊ทœ๋ชจ LLM ์ตœ์ ํ™”์— ์œ ๋งํ•œ ์ ‘๊ทผ๋ฒ•์ž„์„ ์‹œ์‚ฌํ•ฉ๋‹ˆ๋‹ค.

๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ดํ•ด ๋ฐ ์ถ”๋ก 

Unified Reward Model for Multimodal Understanding and Generation

Paper, Project

์ตœ๊ทผ ์‚ฌ๋žŒ์˜ ์„ ํ˜ธ๋„ ์ •๋ ฌ(Human Preference Alignment)์˜ ๋ฐœ์ „์€ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ƒ์„ฑ ๋ฐ ์ดํ•ด ๋Šฅ๋ ฅ์„ ํฌ๊ฒŒ ํ–ฅ์ƒ์‹œ์ผฐ์Šต๋‹ˆ๋‹ค. ๋Œ€ํ‘œ์ ์ธ ์ ‘๊ทผ๋ฒ•์€ ๋ณด์ƒ ๋ชจ๋ธ์„ ํ•™์Šตํ•˜์—ฌ ์„ ํ˜ธ๋„๋ฅผ ์ตœ์ ํ™”ํ•˜๋Š” ๊ฒƒ์ด์ง€๋งŒ, ๊ธฐ์กด ๋ชจ๋ธ์€ ์ž‘์—…๋ณ„๋กœ ํŠนํ™”๋˜์–ด ๋‹ค์–‘ํ•œ ์‹œ๊ฐ์  ์‘์šฉ ํ”„๋กœ๊ทธ๋žจ์—์„œ์˜ ์ ์‘์„ฑ์ด ์ œํ•œ๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ๋ณธ ๋…ผ๋ฌธ์€ ๋‹ค์–‘ํ•œ ์ž‘์—…์„ ๊ณต๋™์œผ๋กœ ํ‰๊ฐ€ํ•  ๋•Œ ์ด๋ฏธ์ง€ ์ดํ•ด๊ฐ€ ์ด๋ฏธ์ง€ ์ƒ์„ฑ ํ‰๊ฐ€๋ฅผ ํ–ฅ์ƒ์‹œํ‚ค๊ณ , ๊ฐœ์„ ๋œ ์ด๋ฏธ์ง€ ํ‰๊ฐ€๊ฐ€ ๋น„๋””์˜ค ํ‰๊ฐ€์—๋„ ๋„์›€์ด ๋˜๋Š” ๋“ฑ ์ƒํ˜ธ ๊ฐ„ ์‹œ๋„ˆ์ง€ ํšจ๊ณผ๋ฅผ ์ด‰์ง„ํ•  ์ˆ˜ ์žˆ๋‹ค๊ณ  ์ฃผ์žฅํ•ฉ๋‹ˆ๋‹ค. ์ด๋ฅผ ๋ฐ”ํƒ•์œผ๋กœ ์ด๋ฏธ์ง€์™€ ๋น„๋””์˜ค์˜ ์ƒ์„ฑ ๋ฐ ์ดํ•ด ์ž‘์—…์„ ๋ชจ๋‘ ํฌํ•จํ•˜๋Š” ๋Œ€๊ทœ๋ชจ ์ธ๊ฐ„ ์„ ํ˜ธ๋„ ๋ฐ์ดํ„ฐ์…‹์—์„œ ํ›ˆ๋ จํ•œ ์ตœ์ดˆ์˜ ํ†ตํ•ฉ ๋ณด์ƒ ๋ชจ๋ธ์ธ UnifiedReward๋ฅผ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค. ์ด ๋ชจ๋ธ์€ pairwise ranking ๋ฐ pointwise scoring ๋ฐฉ์‹์„ ๋ชจ๋‘ ์ง€์›ํ•˜์—ฌ ๋น„์ „ ๋ชจ๋ธ์˜ ์„ ํ˜ธ๋„ ์ •๋ ฌ(preference alignment)์— ํ™œ์šฉํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์‹คํ—˜ ๊ฒฐ๊ณผ, ๋‹ค์–‘ํ•œ ์‹œ๊ฐ์  ์ž‘์—…์˜ ํ‰๊ฐ€๋ฅผ ๊ณต๋™์œผ๋กœ ํ•™์Šตํ•˜๋Š” ๊ฒƒ์ด ์„œ๋กœ์—๊ฒŒ ์ƒ๋‹นํ•œ ์ด์ ์„ ์ œ๊ณตํ•จ์„ ์ž…์ฆํ•˜์˜€์Šต๋‹ˆ๋‹ค.

LMM-R1: Empowering 3B LMMs with Strong Reasoning Abilities Through Two-Stage Rule-Based RL

Paper, Project

๋Œ€๊ทœ๋ชจ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๋ชจ๋ธ(LMM)์˜ ์ถ”๋ก  ๋Šฅ๋ ฅ ๊ฐ•ํ™”๋Š” ํŠนํžˆ ์†Œ๊ทœ๋ชจ ๋ชจ๋ธ(3B)์—์„œ ์‹œ๊ฐ ์ธ์ง€์™€ ๋…ผ๋ฆฌ์  ์ถ”๋ก  ๊ฐ„ ๋ณต์žกํ•œ ์ƒํ˜ธ์ž‘์šฉ์œผ๋กœ ์ธํ•ด ๋งŽ์€ ์–ด๋ ค์›€์„ ๊ฒช๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. ํ…์ŠคํŠธ ๊ธฐ๋ฐ˜์—์„œ๋Š” rule-based ๊ฐ•ํ™”ํ•™์Šต(RL)์ด ์šฐ์ˆ˜ํ•œ ์„ฑ๋Šฅ์„ ๋ณด์˜€์ง€๋งŒ, ์ด๋ฅผ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ๋กœ ํ™•์žฅํ•  ๋•Œ ๋ฐ์ดํ„ฐ ๋ถ€์กฑ๊ณผ ๋ชจํ˜ธํ•œ ์ •๋‹ต์œผ๋กœ ์ธํ•œ ํ•œ๊ณ„๊ฐ€ ์žˆ์Šต๋‹ˆ๋‹ค. ๋ณธ ๋…ผ๋ฌธ์€ ๋‘ ๋‹จ๊ณ„๋กœ ๊ตฌ์„ฑ๋œ rule-based RL ํ”„๋ ˆ์ž„์›Œํฌ์ธ LMM-R1์„ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค. ์ฒซ ๋ฒˆ์งธ ๋‹จ๊ณ„์ธ Foundational Reasoning Enhancement(FRE)์—์„œ๋Š” ํ…์ŠคํŠธ ๋ฐ์ดํ„ฐ๋ฅผ ์ด์šฉํ•œ rule-based RL๋กœ ์ถ”๋ก  ๋Šฅ๋ ฅ์„ ๊ฐ•ํ™”ํ•˜๊ณ , ์ดํ›„ ๋‘ ๋ฒˆ์งธ ๋‹จ๊ณ„(Multimodal Generalization Training, MGT)์—์„œ๋Š” ๊ฐ•ํ™”๋œ ์ถ”๋ก  ๋Šฅ๋ ฅ์„ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์˜์—ญ์œผ๋กœ ์ผ๋ฐ˜ํ™”ํ•ฉ๋‹ˆ๋‹ค. Qwen2.5-VL-Instruct-3B๋ฅผ ์ด์šฉํ•œ ์‹คํ—˜์—์„œ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๋ฒค์น˜๋งˆํฌ์—์„œ ํ‰๊ท  4.83%, ํ…์ŠคํŠธ ๋ฒค์น˜๋งˆํฌ์—์„œ 4.5%, ๋ณต์žกํ•œ Football Game ๊ณผ์ œ์—์„œ 3.63% ์„ฑ๋Šฅ ํ–ฅ์ƒ์„ ๋ณด์˜€์Šต๋‹ˆ๋‹ค.

4D LangSplat: 4D Language Gaussian Splatting via Multimodal Large Language Models

Paper, Project

์‹œ๊ฐ„์— ๋ฏผ๊ฐํ•˜๊ณ  ๊ฐœ๋ฐฉ์ ์ธ ์–ธ์–ด ์งˆ์˜(open-ended language queries)๋ฅผ ์ฒ˜๋ฆฌํ•˜๋Š” 4์ฐจ์›(4D) ์–ธ์–ด ํ•„๋“œ๋ฅผ ๋™์ (dynamic) ์žฅ๋ฉด์—์„œ ํ•™์Šตํ•˜๋Š” ๊ฒƒ์€ ํ˜„์‹ค ์‘์šฉ ๋ถ„์•ผ์—์„œ ํ•„์ˆ˜์ ์ž…๋‹ˆ๋‹ค. ๊ธฐ์กด์˜ LangSplat์€ 3D ์ •์  ์žฅ๋ฉด์—์„œ CLIP ํŠน์ง•์„ Gaussian ํ‘œํ˜„์œผ๋กœ groundingํ•˜๋Š” ๋ฐ ์„ฑ๊ณตํ–ˆ์ง€๋งŒ, CLIP์€ ์ •์  ์ด๋ฏธ์ง€-ํ…์ŠคํŠธ ์ž‘์—…์„ ์œ„ํ•ด ์„ค๊ณ„๋˜์–ด ์žˆ์–ด ๋น„๋””์˜ค์˜ ์‹œ๊ฐ„์  ์—ญํ•™์„ ํฌ์ฐฉํ•˜์ง€ ๋ชปํ•ฉ๋‹ˆ๋‹ค. ์ด๋ฅผ ๊ทน๋ณตํ•˜๊ธฐ ์œ„ํ•ด ๋ณธ ๋…ผ๋ฌธ์—์„œ๋Š” 4D LangSplat์„ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค. ๋ณธ ์—ฐ๊ตฌ๋Š” ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๋Œ€ํ˜• ์–ธ์–ด๋ชจ๋ธ(MLLM)์„ ํ™œ์šฉํ•œ multimodal object-wise video prompting ๋ฐฉ์‹์„ ํ†ตํ•ด, ์‹œ๊ฐ ๋ฐ ํ…์ŠคํŠธ ํ”„๋กฌํ”„ํŠธ๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ๋น„๋””์˜ค ๋‚ด ๊ฐ์ฒด์— ๋Œ€ํ•ด ์‹œ๊ฐ„์ ์œผ๋กœ ์ผ๊ด€๋˜๊ณ  ๋†’์€ ํ’ˆ์งˆ์˜ ์ƒ์„ธํ•œ ์บก์…˜์„ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. ์ƒ์„ฑ๋œ ์บก์…˜์„ LLM์„ ์ด์šฉํ•ด ๋ฌธ์žฅ ์ž„๋ฒ ๋”ฉ์œผ๋กœ ๋ณ€ํ™˜ํ•˜์—ฌ ํ”ฝ์…€ ๋‹จ์œ„๋กœ ๊ฐ์ฒด์— ๋งž์ถ˜ ํŠน์ง•(feature)์˜ supervision์œผ๋กœ ํ™œ์šฉํ•ฉ๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ๊ฐœ๋ฐฉํ˜• ์–ธ์–ด ์งˆ์˜(open-vocabulary queries)๋ฅผ ์ •๋ฐ€ํ•˜๊ฒŒ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ๊ฒŒ ๋˜์—ˆ์Šต๋‹ˆ๋‹ค.

3D ์žฌ๊ตฌ์„ฑ ๋ฐ ๋™์ž‘ ์ƒ์„ฑ

PE3R: Perception-Efficient 3D Reconstruction

Paper, Project

์ตœ๊ทผ 2D์—์„œ 3D๋กœ์˜ ์ง€๊ฐ(perception) ๊ธฐ์ˆ  ๋ฐœ์ „์œผ๋กœ 2D ์ด๋ฏธ์ง€๋กœ๋ถ€ํ„ฐ 3D ์žฅ๋ฉด์„ ์ดํ•ดํ•˜๋Š” ๋Šฅ๋ ฅ์ด ํฌ๊ฒŒ ํ–ฅ์ƒ๋˜์—ˆ์ง€๋งŒ, ๊ธฐ์กด ๋ฐฉ๋ฒ•์€ ์ œํ•œ๋œ ์žฅ๋ฉด ์ผ๋ฐ˜ํ™”, ๋ถˆ์ถฉ๋ถ„ํ•œ ์ง€๊ฐ ์ •ํ™•๋„, ๋А๋ฆฐ ์žฌ๊ตฌ์„ฑ ์†๋„๋ผ๋Š” ์‹ฌ๊ฐํ•œ ๋ฌธ์ œ๋ฅผ ๊ฒช๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. ์ด๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด ๋ณธ ์—ฐ๊ตฌ๋Š” ์ •ํ™•์„ฑ๊ณผ ํšจ์œจ์„ฑ์„ ๋ชจ๋‘ ๊ฐœ์„ ํ•œ Perception-Efficient 3D Reconstruction(PE3R)์„ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค. PE3R์€ ํ”ผ๋“œํฌ์›Œ๋“œ(feed-forward) ์•„ํ‚คํ…์ฒ˜๋ฅผ ํ™œ์šฉํ•˜์—ฌ ๋น ๋ฅธ 3D semantic field ์žฌ๊ตฌ์„ฑ์„ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•ฉ๋‹ˆ๋‹ค. ๋‹ค์–‘ํ•œ ์žฅ๋ฉด๊ณผ ๊ฐ์ฒด์— ๋Œ€ํ•ด ๋›ฐ์–ด๋‚œ zero-shot ์ผ๋ฐ˜ํ™” ๋Šฅ๋ ฅ์„ ๋ณด์˜€์œผ๋ฉฐ, ์‹คํ—˜ ๊ฒฐ๊ณผ 3D semantic field ์žฌ๊ตฌ์„ฑ ์†๋„์—์„œ ์ตœ์†Œ 9๋ฐฐ์˜ ๊ฐ€์†ํ™”๋ฅผ ์ด๋ฃจ๋ฉด์„œ๋„ ์ง€๊ฐ ์ •ํ™•๋„ ๋ฐ ์žฌ๊ตฌ์„ฑ ์ •๋ฐ€๋„๋ฅผ ํฌ๊ฒŒ ๊ฐœ์„ ํ•˜์˜€์Šต๋‹ˆ๋‹ค.

Motion Anything: Any to Motion Generation

Paper, Project

์กฐ๊ฑด๋ถ€ ๋™์ž‘ ์ƒ์„ฑ์€ ์ปดํ“จํ„ฐ ๋น„์ „ ๋ถ„์•ผ์—์„œ ํ™œ๋ฐœํžˆ ์—ฐ๊ตฌ๋˜์—ˆ์ง€๋งŒ, ๊ธฐ์กด masked autoregressive ๋ฐฉ์‹์€ ์กฐ๊ฑด์œผ๋กœ ์ฃผ์–ด์ง„ ๋™์  ํ”„๋ ˆ์ž„์ด๋‚˜ ์‹ ์ฒด ๋ถ€์œ„๋ฅผ ์šฐ์„  ์ฒ˜๋ฆฌํ•˜๋Š” ๋ฉ”์ปค๋‹ˆ์ฆ˜์ด ๋ถ€์กฑํ–ˆ์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ ๋‹ค์–‘ํ•œ ์กฐ๊ฑด(ํ…์ŠคํŠธ, ์Œ์•… ๋“ฑ)์„ ํšจ๊ณผ์ ์œผ๋กœ ๊ฒฐํ•ฉํ•˜์ง€ ๋ชปํ•˜๋Š” ๋ฌธ์ œ๊ฐ€ ์กด์žฌํ–ˆ์Šต๋‹ˆ๋‹ค. ๋ณธ ์—ฐ๊ตฌ๋Š” ์ด๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด Attention ๊ธฐ๋ฐ˜์˜ Mask Modeling ๋ฐฉ์‹์„ ๋„์ž…ํ•œ Motion Anything์„ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค. ์ด ๋ฐฉ๋ฒ•์€ ์ฃผ์š” ํ”„๋ ˆ์ž„๊ณผ ๋™์ž‘์„ ์„ธ๋ฐ€ํ•˜๊ฒŒ ์ œ์–ดํ•  ์ˆ˜ ์žˆ์œผ๋ฉฐ, ํ…์ŠคํŠธ์™€ ์Œ์•…๊ณผ ๊ฐ™์€ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์กฐ๊ฑด์„ ์ ์‘์ ์œผ๋กœ ์ธ์ฝ”๋”ฉํ•˜์—ฌ ๋™์ž‘ ์ƒ์„ฑ์˜ ์ œ์–ด ๊ฐ€๋Šฅ์„ฑ์„ ํ–ฅ์ƒํ–ˆ์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ 2,153๊ฐœ์˜ ํ…์ŠคํŠธ-์Œ์•…-๋Œ„์Šค๋กœ ๊ตฌ์„ฑ๋œ ์ƒˆ๋กœ์šด ๋™์ž‘ ๋ฐ์ดํ„ฐ์…‹(Text-Music-Dance, TMD)์„ ๊ตฌ์ถ•ํ–ˆ์Šต๋‹ˆ๋‹ค. ์‹คํ—˜ ๊ฒฐ๊ณผ, ๊ธฐ์กด ์ตœ์ฒจ๋‹จ ๊ธฐ๋ฒ•๋ณด๋‹ค HumanML3D ๋ฒค์น˜๋งˆํฌ์—์„œ FID ์ ์ˆ˜ ๊ธฐ์ค€ 15%์˜ ์„ฑ๋Šฅ ํ–ฅ์ƒ์„ ๊ธฐ๋กํ–ˆ์œผ๋ฉฐ, AIST++์™€ TMD์—์„œ๋„ ์ผ๊ด€๋œ ์„ฑ๋Šฅ ๊ฐœ์„ ์„ ๋‹ฌ์„ฑํ–ˆ์Šต๋‹ˆ๋‹ค.

์ „๋ฌธ ๋ถ„์•ผ ๋ฐ ๋ฌธํ™” ํŠนํ™” ๋ฐ์ดํ„ฐ์…‹ ๊ตฌ์ถ•

RuCCoD: Towards Automated ICD Coding in Russian

Paper, Project

๋ณธ ์—ฐ๊ตฌ๋Š” ์ž์›์ด ์ œํ•œ๋œ ๋Ÿฌ์‹œ์•„์–ด ํ™˜๊ฒฝ์—์„œ ์ž„์ƒ ์ฝ”๋”ฉ(ICD coding) ์ž๋™ํ™”์˜ ๊ฐ€๋Šฅ์„ฑ์„ ํƒ๊ตฌํ•ฉ๋‹ˆ๋‹ค. ์ด๋ฅผ ์œ„ํ•ด ์ „์ž๊ฑด๊ฐ•๊ธฐ๋ก(EHR)์˜ ์ง„๋‹จ ํ•ญ๋ชฉ์—์„œ 10,000๊ฐœ ์ด์ƒ์˜ ๊ฐœ์ฒด(entity) ๋ฐ 1,500๊ฐœ ์ด์ƒ์˜ ๊ณ ์œ  ICD ์ฝ”๋“œ๋กœ ์ฃผ์„ ์ฒ˜๋ฆฌ๋œ ์ƒˆ๋กœ์šด ICD ์ฝ”๋”ฉ ๋ฐ์ดํ„ฐ์…‹์„ ๋Ÿฌ์‹œ์•„์–ด๋กœ ๊ตฌ์ถ•ํ•˜์˜€์Šต๋‹ˆ๋‹ค. ๋ณธ ๋ฐ์ดํ„ฐ์…‹์„ ์ด์šฉํ•˜์—ฌ BERT, LoRA๋ฅผ ์ ์šฉํ•œ LLaMA, ๊ทธ๋ฆฌ๊ณ  RAG์™€ ๊ฐ™์€ ์ตœ์ฒจ๋‹จ ๋ชจ๋ธ์˜ ์„ฑ๋Šฅ์„ ํ‰๊ฐ€ํ•˜๊ณ , ์ถ”๊ฐ€์ ์œผ๋กœ ๋„๋ฉ”์ธ ๊ฐ„(PubMed ์ดˆ๋ก์—์„œ ์˜๋ฃŒ ์ง„๋‹จ ๋ฐ์ดํ„ฐ๋กœ) ๋ฐ ์šฉ์–ด ๊ฐ„(UMLS ๊ฐœ๋…์—์„œ ICD ์ฝ”๋“œ๋กœ์˜) ์ „์ดํ•™์Šต์„ ์‹คํ—˜ํ•˜์˜€์Šต๋‹ˆ๋‹ค. ์ดํ›„ ์ตœ์  ์„ฑ๋Šฅ์„ ๋ณด์ธ ๋ชจ๋ธ์„ ํ™œ์šฉํ•˜์—ฌ 2017๋…„์—์„œ 2021๋…„๊นŒ์ง€์˜ ํ™˜์ž ๊ธฐ๋ก์ด ํฌํ•จ๋œ ๋ณ‘์› ๋‚ด๋ถ€ EHR ๋ฐ์ดํ„ฐ๋ฅผ ์ž๋™์œผ๋กœ ๋ผ๋ฒจ๋งํ•˜์˜€์Šต๋‹ˆ๋‹ค. ์‹ ์ค‘ํ•˜๊ฒŒ ๊ตฌ์ถ•๋œ ํ…Œ์ŠคํŠธ์…‹์—์„œ์˜ ์‹คํ—˜ ๊ฒฐ๊ณผ, ์ž๋™์œผ๋กœ ์˜ˆ์ธกํ•œ ์ฝ”๋“œ๋กœ ํ›ˆ๋ จํ–ˆ์„ ๋•Œ ์˜์‚ฌ๊ฐ€ ์ˆ˜๋™์œผ๋กœ ์ฃผ์„์„ ๋‹จ ๋ฐ์ดํ„ฐ๋กœ ํ›ˆ๋ จํ–ˆ์„ ๋•Œ๋ณด๋‹ค ์ •ํ™•๋„๊ฐ€ ์ƒ๋‹นํžˆ ๊ฐœ์„ ๋จ์„ ์ž…์ฆํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ๋Ÿฌ์‹œ์•„์–ด์™€ ๊ฐ™์ด ์ž์›์ด ์ œํ•œ๋œ ์–ธ์–ด์—์„œ๋„ ์ž„์ƒ ์ฝ”๋”ฉ ์ž๋™ํ™”๊ฐ€ ๊ฐ€๋Šฅํ•˜๋‹ค๋Š” ํ†ต์ฐฐ์„ ์ œ์‹œํ–ˆ์Šต๋‹ˆ๋‹ค.

Crowdsource, Crawl, or Generate? Creating SEA-VL, a Multicultural Vision-Language Dataset for Southeast Asia

Paper, Project

๋™๋‚จ์•„์‹œ์•„(SEA)๋Š” ์–ธ์–ด์ ยท๋ฌธํ™”์ ์œผ๋กœ ๋งค์šฐ ๋‹ค์–‘ํ•˜์ง€๋งŒ, ๋น„์ „-์–ธ์–ด(VL) ์—ฐ๊ตฌ์—์„œ ํฌ๊ฒŒ ์†Œ์™ธ๋˜์–ด ์žˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” AI ๋ชจ๋ธ์ด ๋™๋‚จ์•„์‹œ์•„ ๋ฌธํ™”์  ๋‰˜์•™์Šค๋ฅผ ํฌ์ฐฉํ•˜์ง€ ๋ชปํ•˜๋Š” ๊ฒฐ๊ณผ๋ฅผ ์ดˆ๋ž˜ํ•ฉ๋‹ˆ๋‹ค. ์ด๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด ๋ณธ ๋…ผ๋ฌธ์€ ๋™๋‚จ์•„์‹œ์•„ ์–ธ์–ด์— ๋งž์ถ˜ ๊ณ ํ’ˆ์งˆ์˜ ๋ฌธํ™” ๊ด€๋ จ ๋ฐ์ดํ„ฐ์…‹ ๊ตฌ์ถ•์„ ๋ชฉํ‘œ๋กœ ํ•˜๋Š” ์˜คํ”ˆ์†Œ์Šค ์ด๋‹ˆ์…”ํ‹ฐ๋ธŒ์ธ SEA-VL์„ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค. SEA ๊ตญ๊ฐ€์˜ ๊ธฐ์—ฌ์ž๋“ค์ด ์ฐธ์—ฌํ•˜์—ฌ ๋ฌธํ™”์  ๊ด€๋ จ์„ฑ๊ณผ ๋‹ค์–‘์„ฑ์„ ๋ณด์žฅํ•˜์˜€์œผ๋ฉฐ, ํฌ๋ผ์šฐ๋“œ์†Œ์‹ฑ์„ ๋„˜์–ด ์›น ํฌ๋กค๋ง๊ณผ ์ด๋ฏธ์ง€ ์ƒ์„ฑ ๋“ฑ ์ž๋™ํ™”๋œ ์ด๋ฏธ์ง€ ์ˆ˜์ง‘ ๋ฐฉ์‹์„ ์ถ”๊ฐ€๋กœ ํƒ์ƒ‰ํ•˜์˜€์Šต๋‹ˆ๋‹ค. ์—ฐ๊ตฌ ๊ฒฐ๊ณผ, ์ด๋ฏธ์ง€ ํฌ๋กค๋ง์€ ํฌ๋ผ์šฐ๋“œ์†Œ์‹ฑ ๋Œ€๋น„ ๋น„์šฉ ๋ฐ ์‹œ๊ฐ„ ํšจ์œจ์ ์ด๋ฉด์„œ ์•ฝ 85%์˜ ๋ฌธํ™”์  ์ ํ•ฉ์„ฑ์„ ๋‹ฌ์„ฑํ–ˆ์ง€๋งŒ, ์ƒ์„ฑ๋œ ์ด๋ฏธ์ง€๋Š” ์—ฌ์ „ํžˆ SEA ๋ฌธํ™”์˜ ๋ฏธ๋ฌ˜ํ•œ ์ „ํ†ต๊ณผ ๋ฌธํ™”์  ๋งฅ๋ฝ์„ ์ •ํ™•ํžˆ ๋ฐ˜์˜ํ•˜์ง€ ๋ชปํ–ˆ์Šต๋‹ˆ๋‹ค. ๊ฒฐ๋ก ์ ์œผ๋กœ ์ด 128๋งŒ ๊ฐœ์˜ SEA ๋ฌธํ™” ๊ด€๋ จ ์ด๋ฏธ์ง€๋ฅผ ์ˆ˜์ง‘ํ–ˆ์œผ๋ฉฐ, ์ด๋Š” ๊ธฐ์กด ๋ฐ์ดํ„ฐ์…‹๋ณด๋‹ค 50๋ฐฐ ์ด์ƒ ํฐ ๊ทœ๋ชจ์ž…๋‹ˆ๋‹ค.

profile
XR๊ณผ AI์— ๊ด€์‹ฌ์ด ๋งŽ์€ Sky ์ž…๋‹ˆ๋‹ค.

0๊ฐœ์˜ ๋Œ“๊ธ€