[2025/W08] ๐Ÿค— Weekly AI Research

Skyยท2025๋…„ 2์›” 22์ผ

Weekly AI Research Digest

๋ชฉ๋ก ๋ณด๊ธฐ
8/89

2025๋…„ 8์ฃผ์ฐจ์— ๊ณต๊ฐœ๋œ ์ฃผ๋ชฉํ• ๋งŒํ•œ AI ๋ถ„์•ผ์˜ ๋…ผ๋ฌธ๋“ค์„ ์†Œ๊ฐœํ•ฉ๋‹ˆ๋‹ค.

TL;DR

๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ ๋ฐ ์ž์—ฐ์–ด ์ฒ˜๋ฆฌ์—์„œ๋Š” LLaDA๋ฅผ ํฌํ•จํ•œ ํ™•์‚ฐ ๊ธฐ๋ฐ˜ ์–ธ์–ด ๋ชจ๋ธ์ด ๊ธฐ์กด ์ž๋™ํšŒ๊ท€ ๋ชจ๋ธ์„ ๋Œ€์ฒดํ•  ๊ฐ€๋Šฅ์„ฑ์„ ๋ณด์˜€์œผ๋ฉฐ, Soundwave๊ฐ€ ์ ์€ ๋ฐ์ดํ„ฐ๋กœ๋„ ๋›ฐ์–ด๋‚œ ์Œ์„ฑ-ํ…์ŠคํŠธ ์ •๋ ฌ ์„ฑ๋Šฅ์„ ๋‹ฌ์„ฑํ•˜์˜€์Šต๋‹ˆ๋‹ค.

์ƒ์„ฑ ๋ชจ๋ธ ๋ฐ ํ™•์‚ฐ ๋ชจ๋ธ์—์„œ๋Š” RAS ๊ธฐ๋ฒ•์ด ํ™•์‚ฐ ๋ชจ๋ธ์˜ ์‹ค์‹œ๊ฐ„ ์„ฑ๋Šฅ์„ ์ตœ๋Œ€ 2.5๋ฐฐ๊นŒ์ง€ ํ–ฅ์ƒ์‹œํ‚ค๋Š” ๊ฒƒ์œผ๋กœ ๋‚˜ํƒ€๋‚ฌ์œผ๋ฉฐ, Step-Video-T2V๊ฐ€ ๊ณ ํ’ˆ์งˆ ๋น„๋””์˜ค ์ƒ์„ฑ์„ ์œ„ํ•œ ์ƒˆ๋กœ์šด ์ ‘๊ทผ๋ฒ•์„ ์ œ์‹œํ•˜์˜€์Šต๋‹ˆ๋‹ค.

๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ AI ๋ฐ ๊ฐ•ํ™” ํ•™์Šต์—์„œ๋Š” Magma์™€ Qwen2.5-VL์ด ์‹œ๊ฐ์  ์ดํ•ด ๋ฐ ์—์ด์ „ํŠธ ํƒœ์Šคํฌ์—์„œ ๊ฐ•๋ ฅํ•œ ์„ฑ๋Šฅ์„ ๋ณด์˜€์œผ๋ฉฐ, SigLIP 2๊ฐ€ ๋‹ค๊ตญ์–ด ๋น„์ „-์–ธ์–ด ์ธ์ฝ”๋”ฉ ์„ฑ๋Šฅ์„ ํฌ๊ฒŒ ๊ฐœ์„ ํ•˜์˜€์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ, The Danger of Overthinking ์—ฐ๊ตฌ๋Š” AI ์—์ด์ „ํŠธ๊ฐ€ ๊ณผ๋„ํ•œ ๋‚ด๋ถ€ ์ถ”๋ก ์„ ์ˆ˜ํ–‰ํ•˜๋Š” ๋ฌธ์ œ๋ฅผ ๋ถ„์„ํ•˜๊ณ  ์ด๋ฅผ ์™„ํ™”ํ•˜๋Š” ๋ฐฉ๋ฒ•์„ ์ œ์•ˆํ•˜์˜€์Šต๋‹ˆ๋‹ค.

AI ํ‰๊ฐ€ ๋ฐ ํšจ์œจ์ ์ธ ๋ชจ๋ธ ํ•™์Šต์—์„œ๋Š” SuperGPQA๊ฐ€ 285๊ฐœ ์ „๊ณต์— ๊ฑธ์นœ LLM ํ‰๊ฐ€๋ฅผ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•˜๋Š” ์ƒˆ๋กœ์šด ๋ฒค์น˜๋งˆํฌ๋ฅผ ๋„์ž…ํ•˜์˜€์œผ๋ฉฐ, LoRA ๊ธฐ๋ฐ˜ ๋ชจ๋ธ ์—…๋ฐ์ดํŠธ ์—ฐ๊ตฌ๋Š” ๊ธฐ์กด ์ง€์‹์„ ์œ ์ง€ํ•˜๋ฉด์„œ ์ƒˆ๋กœ์šด ์ •๋ณด๋ฅผ ์ถ”๊ฐ€ํ•˜๋Š” ์ตœ์ ์˜ ๋ฐฉ๋ฒ•์„ ํƒ์ƒ‰ํ•˜์˜€์Šต๋‹ˆ๋‹ค.

๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ ๋ฐ ์ž์—ฐ์–ด ์ฒ˜๋ฆฌ ๋ถ„์•ผ

Large Language Diffusion Models*

Paper, Project

๊ธฐ์กด ๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ(LLM)์€ ์ฃผ๋กœ ์ž๋™ํšŒ๊ท€ ๋ชจ๋ธ(ARMs)์„ ๊ธฐ๋ฐ˜์œผ๋กœ ๊ตฌ์ถ•๋˜์—ˆ์œผ๋‚˜, ๋ณธ ์—ฐ๊ตฌ์—์„œ๋Š” ํ™•์‚ฐ ๋ชจ๋ธ์ธ LLaDA๋ฅผ ๋„์ž…ํ•˜์—ฌ ์ด๋ฅผ ๋Œ€์ฒดํ•  ๊ฐ€๋Šฅ์„ฑ์„ ํƒ๊ตฌํ•˜์˜€์Šต๋‹ˆ๋‹ค. LLaDA๋Š” ๋ฐ์ดํ„ฐ ๋งˆ์Šคํ‚น๊ณผ ์—ญ์ „ ๊ณผ์ •์„ ํ†ตํ•ด ํ™•๋ฅ ์  ์ถ”๋ก ์„ ์ˆ˜ํ–‰ํ•˜๋ฉฐ, ์ผ๋ฐ˜์ ์ธ Transformer๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ๋งˆ์Šคํ‚น๋œ ํ† ํฐ์„ ์˜ˆ์ธกํ•ฉ๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด LLaMA3 8B ์ˆ˜์ค€์˜ ์ธ์ปจํ…์ŠคํŠธ ํ•™์Šต ์„ฑ๋Šฅ์„ ๋ณด์ด๋ฉฐ, "reversal curse(์—ญ์ „ ์ €์ฃผ)" ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜์—ฌ GPT-4o๋ณด๋‹ค ์šฐ์ˆ˜ํ•œ ์„ฑ๋Šฅ์„ ๊ธฐ๋กํ•˜์˜€์Šต๋‹ˆ๋‹ค.

Continuous Diffusion Model for Language Modeling

Paper, Project

๊ธฐ์กด ํ™•์‚ฐ ๋ชจ๋ธ์€ ๋ฒ”์ฃผํ˜• ๋ฐ์ดํ„ฐ ๋ชจ๋ธ๋ง์— ํ•œ๊ณ„๋ฅผ ๋ณด์˜€์œผ๋ฉฐ, ์—ฐ์†์ ์ธ ๋ฐ์ดํ„ฐ ํ๋ฆ„์„ ํ™œ์šฉํ•˜๋Š” ๋ฐฉ์‹์ด ๋ถ€์กฑํ•˜์˜€์Šต๋‹ˆ๋‹ค. ๋ณธ ์—ฐ๊ตฌ์—์„œ๋Š” ๋ฒ”์ฃผํ˜• ํ™•๋ฅ  ๋ถ„ํฌ์˜ ๊ธฐํ•˜ํ•™์  ํŠน์„ฑ์„ ๋ฐ˜์˜ํ•œ ์—ฐ์† ํ™•์‚ฐ ๋ชจ๋ธ์„ ์ œ์•ˆํ•˜๋ฉฐ, ์ž๋™ํšŒ๊ท€ ๋ชจ๋ธ์— ๊ทผ์ ‘ํ•˜๋Š” ์„ฑ๋Šฅ์„ ๋‹ฌ์„ฑํ•˜์˜€์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ, ์ƒˆ๋กœ์šด ๋ฐฉ์‚ฌํ˜• ๋Œ€์นญ ๊ธฐ๋ฐ˜ ํ•™์Šต ๊ธฐ๋ฒ•์„ ๋„์ž…ํ•˜์—ฌ ๋†’์€ ์ฐจ์›์˜ ํ™•๋ฅ  ๊ณต๊ฐ„์—์„œ ์ตœ์ ํ™”๋ฅผ ์ˆ˜ํ–‰ํ•  ์ˆ˜ ์žˆ๋„๋ก ์„ค๊ณ„ํ•˜์˜€์Šต๋‹ˆ๋‹ค.

Cramming 1568 Tokens into a Single Vector and Back Again: Exploring the Limits of Embedding Space Capacity

Paper

๊ธฐ์กด ์—ฐ๊ตฌ๋“ค์€ ํ† ํฐ ์‹œํ€€์Šค๋ฅผ ์‹ค์ˆ˜ ๋ฒกํ„ฐ๋กœ ์••์ถ•ํ•˜์—ฌ ๊ณ„์‚ฐ๋Ÿ‰์„ ์ค„์ด๋Š” ๋ฐฉ์‹์„ ์‚ฌ์šฉํ•˜์˜€์œผ๋‚˜, ๋ณธ ์—ฐ๊ตฌ์—์„œ๋Š” ๊ธฐ์กด ๊ธฐ๋ฒ•์ด ์ตœ๋Œ€ 10๋ฐฐ ์••์ถ•๋ฅ ์„ ๋„˜์ง€ ๋ชปํ•˜๋Š” ์›์ธ์„ ๋ถ„์„ํ•˜๊ณ , ์ด๋ก ์ ์œผ๋กœ๋Š” ์ตœ๋Œ€ 1500๋ฐฐ๊นŒ์ง€ ์••์ถ•์ด ๊ฐ€๋Šฅํ•จ์„ ์‹คํ—˜์ ์œผ๋กœ ์ž…์ฆํ•˜์˜€์Šต๋‹ˆ๋‹ค. ์ด๋Š” ๋ชจ๋ธ ์ž…๋ ฅ ์ž„๋ฒ ๋”ฉ์˜ ์„ค๊ณ„์— ์žˆ์–ด ์ตœ์ ํ™” ๊ฐ€๋Šฅ์„ฑ์ด ํฌ๋‹ค๋Š” ์ ์„ ์‹œ์‚ฌํ•ฉ๋‹ˆ๋‹ค.

Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention*

Paper

๊ธด ๋ฌธ๋งฅ์„ ์ฒ˜๋ฆฌํ•˜๋Š” ๊ฒƒ์€ ์ฐจ์„ธ๋Œ€ ์–ธ์–ด ๋ชจ๋ธ์—์„œ ์ค‘์š”ํ•œ ์š”์†Œ์ด๋‚˜, ๊ธฐ์กด ์–ดํ…์…˜ ๋ฉ”์ปค๋‹ˆ์ฆ˜์€ ๋†’์€ ๊ณ„์‚ฐ ๋น„์šฉ์ด ๋ฌธ์ œ์˜€์Šต๋‹ˆ๋‹ค. ๋ณธ ์—ฐ๊ตฌ์—์„œ๋Š” ๋„ค์ดํ‹ฐ๋ธŒ ํฌ์†Œ ์–ดํ…์…˜(NSA) ๊ธฐ๋ฒ•์„ ์ œ์•ˆํ•˜์—ฌ, ํ† ํฐ ์••์ถ•๊ณผ ์„ ํƒ์„ ํ†ตํ•ด ๊ณ„์‚ฐ๋Ÿ‰์„ ์ค„์ด๋ฉด์„œ๋„ ๋†’์€ ์„ฑ๋Šฅ์„ ์œ ์ง€ํ•  ์ˆ˜ ์žˆ๋„๋ก ํ•˜์˜€์Šต๋‹ˆ๋‹ค. ์‹คํ—˜ ๊ฒฐ๊ณผ, 64k ๊ธธ์ด ์‹œํ€€์Šค์—์„œ NSA๋ฅผ ์ ์šฉํ•œ ๋ชจ๋ธ์ด ๊ธฐ์กด ์™„์ „ ์–ดํ…์…˜ ๋ชจ๋ธ๊ณผ ์œ ์‚ฌํ•œ ์„ฑ๋Šฅ์„ ์œ ์ง€ํ•˜๋ฉด์„œ๋„ ์—ฐ์‚ฐ ์†๋„๋ฅผ ๋Œ€ํญ ๊ฐœ์„ ํ•  ์ˆ˜ ์žˆ์Œ์„ ๋ณด์˜€์Šต๋‹ˆ๋‹ค.

Soundwave: Less is More for Speech-Text Alignment in LLMs*

Paper, Project

๋Œ€๊ทœ๋ชจ ์Œ์„ฑ-ํ…์ŠคํŠธ ์–ธ์–ด ๋ชจ๋ธ(LLM)์€ ์ผ๋ฐ˜์ ์œผ๋กœ ๋Œ€๋Ÿ‰์˜ ์ฃผ์„ ๋ฐ์ดํ„ฐ๋ฅผ ํ•„์š”๋กœ ํ•˜์ง€๋งŒ, ๋ฐ์ดํ„ฐ ํšจ์œจ์ ์ธ ํ•™์Šต ๋ฐฉ๋ฒ•์— ๋Œ€ํ•œ ์—ฐ๊ตฌ๋Š” ๋ถ€์กฑํ•˜์˜€์Šต๋‹ˆ๋‹ค. ๋ณธ ์—ฐ๊ตฌ์—์„œ๋Š” ์Œ์„ฑ๊ณผ ํ…์ŠคํŠธ ๊ฐ„์˜ ํ‘œํ˜„ ๊ณต๊ฐ„ ์ฐจ์ด์™€ ์‹œํ€€์Šค ๊ธธ์ด ๋ถˆ์ผ์น˜ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•œ ์ƒˆ๋กœ์šด ๋ชจ๋ธ์ธ Soundwave๋ฅผ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค. ํšจ์œจ์ ์ธ ํ•™์Šต ์ „๋žต๊ณผ ์•„ํ‚คํ…์ฒ˜๋ฅผ ์ ์šฉํ•˜์—ฌ, Qwen2-Audio๋ณด๋‹ค ์ ์€ ๋ฐ์ดํ„ฐ๋กœ๋„ ๋›ฐ์–ด๋‚œ ์„ฑ๋Šฅ์„ ๋‹ฌ์„ฑํ•˜์˜€์Šต๋‹ˆ๋‹ค. ํŠนํžˆ, ํ•™์Šต ๋ฐ์ดํ„ฐ ์‚ฌ์šฉ๋Ÿ‰์„ ๊ธฐ์กด ๋Œ€๋น„ 1/50 ์ˆ˜์ค€์œผ๋กœ ์ค„์ด๋ฉด์„œ๋„ ์Œ์„ฑ ๋ฒˆ์—ญ ๋ฐ AIR-Bench ์Œ์„ฑ ํƒœ์Šคํฌ์—์„œ ๋†’์€ ์„ฑ๋Šฅ์„ ์œ ์ง€ํ•˜๋Š” ๊ฒƒ์œผ๋กœ ํ™•์ธ๋˜์—ˆ์Šต๋‹ˆ๋‹ค.

์ƒ์„ฑ ๋ชจ๋ธ ๋ฐ ํ™•์‚ฐ ๋ชจ๋ธ

Region-Adaptive Sampling for Diffusion Transformers

Paper, Project

ํ™•์‚ฐ ๋ชจ๋ธ์€ ์ƒ์„ฑ ํƒœ์Šคํฌ์—์„œ ๋›ฐ์–ด๋‚œ ์„ฑ๋Šฅ์„ ๋ณด์ด์ง€๋งŒ, ๋‹ค์ˆ˜์˜ ์ˆœ์ฐจ์ ์ธ ์ „๋ฐฉ ๊ณผ์ •์„ ์ˆ˜ํ–‰ํ•ด์•ผ ํ•˜๋ฏ€๋กœ ์‹ค์‹œ๊ฐ„ ์‘์šฉ์—๋Š” ํ•œ๊ณ„๊ฐ€ ์žˆ์—ˆ์Šต๋‹ˆ๋‹ค. ๋ณธ ์—ฐ๊ตฌ์—์„œ๋Š” Diffusion Transformer(DiT)์˜ ์œ ์—ฐ์„ฑ์„ ํ™œ์šฉํ•˜์—ฌ, ์ด๋ฏธ์ง€ ๋‚ด ์˜์—ญ๋ณ„ ์ƒ˜ํ”Œ๋ง ๋น„์œจ์„ ๋™์ ์œผ๋กœ ์กฐ์ •ํ•˜๋Š” ์ƒˆ๋กœ์šด ๋ฐฉ๋ฒ•(RAS)์„ ์ œ์•ˆํ•˜์˜€์Šต๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ์„ฑ๋Šฅ ์ €ํ•˜ ์—†์ด ์ตœ๋Œ€ 2.5๋ฐฐ๊นŒ์ง€ ์†๋„๋ฅผ ํ–ฅ์ƒ์‹œํ‚ฌ ์ˆ˜ ์žˆ์Œ์„ ๋ณด์˜€์Šต๋‹ˆ๋‹ค.

Step-Video-T2V Technical Report: The Practice, Challenges, and Future of Video Foundation Model

Paper, Project

30B ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ๊ฐ–์ถ˜ ์ตœ์ฒจ๋‹จ ํ…์ŠคํŠธ-๋น„๋””์˜ค ๋ณ€ํ™˜ ๋ชจ๋ธ์ธ Step-Video-T2V๋ฅผ ์†Œ๊ฐœํ•˜์˜€์Šต๋‹ˆ๋‹ค. Variational Autoencoder ๊ธฐ๋ฐ˜์˜ ๋น„๋””์˜ค ์ƒ์„ฑ ๊ธฐ๋ฒ•์„ ํ™œ์šฉํ•˜์—ฌ ๊ณ ํ’ˆ์งˆ ๋น„๋””์˜ค ์ถœ๋ ฅ์„ ์ œ๊ณตํ•˜๋ฉฐ, 3D ์ „๋ฉด ์–ดํ…์…˜ ๊ธฐ๋ฐ˜ DiT ๋ชจ๋ธ๊ณผ Video-DPO ๋ฐฉ์‹์„ ๊ฒฐํ•ฉํ•˜์—ฌ ๋ณด๋‹ค ์ž์—ฐ์Šค๋Ÿฌ์šด ๋น„๋””์˜ค ์ƒ์„ฑ์„ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•˜์˜€์Šต๋‹ˆ๋‹ค.

Phantom: Subject-consistent video generation via cross-modal alignment

Paper, Project

๋น„๋””์˜ค ์ƒ์„ฑ ๋ชจ๋ธ์ด ๋ฐœ์ „ํ•˜๋ฉด์„œ ํŠน์ • ์ฃผ์ œ๋ฅผ ์ผ๊ด€๋˜๊ฒŒ ์œ ์ง€ํ•˜๋Š” Subject-to-Video(S2V) ๋ชจ๋ธ์— ๋Œ€ํ•œ ์—ฐ๊ตฌ๊ฐ€ ์ง„ํ–‰๋˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. ๋ณธ ์—ฐ๊ตฌ์—์„œ๋Š” Phantom์ด๋ผ๋Š” ์ƒˆ๋กœ์šด ๋น„๋””์˜ค ์ƒ์„ฑ ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ œ์•ˆํ•˜์—ฌ, ์ด๋ฏธ์ง€์™€ ํ…์ŠคํŠธ ๊ฐ„์˜ ์ •๋ ฌ์„ ๊ฐ•ํ™”ํ•จ์œผ๋กœ์จ ๋ณด๋‹ค ์ •ํ™•ํ•œ ์ฃผ์ œ ์ผ๊ด€์„ฑ์„ ์œ ์ง€ํ•  ์ˆ˜ ์žˆ๋„๋ก ํ•˜์˜€์Šต๋‹ˆ๋‹ค.

๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ AI ๋ฐ ๊ฐ•ํ™” ํ•™์Šต

The Danger of Overthinking: Examining the Reasoning-Action Dilemma in Agentic Tasks

Paper, Project

๋Œ€๊ทœ๋ชจ ์ถ”๋ก  ๋ชจ๋ธ(LRM)์€ ๊ฐ•๋ ฅํ•œ ๋ฌธ์ œ ํ•ด๊ฒฐ ๋Šฅ๋ ฅ์„ ๋ณด์ด์ง€๋งŒ, ํ™˜๊ฒฝ๊ณผ์˜ ์ƒํ˜ธ์ž‘์šฉ๋ณด๋‹ค๋Š” ๋‚ด๋ถ€ ์ถ”๋ก ์„ ์ง€๋‚˜์น˜๊ฒŒ ์ˆ˜ํ–‰ํ•˜๋Š” ๊ฒฝํ–ฅ์ด ์žˆ์Šต๋‹ˆ๋‹ค. ๋ณธ ์—ฐ๊ตฌ์—์„œ๋Š” ์ด๋Ÿฌํ•œ โ€˜Overthinkingโ€™ ํ˜„์ƒ์„ ๋ถ„์„ํ•˜๊ณ , SWE Bench Verified ์‹คํ—˜์„ ํ†ตํ•ด ์„ธ ๊ฐ€์ง€ ์ฃผ์š” ํŒจํ„ด(๋ถ„์„ ๋งˆ๋น„, ์˜ค๋ฅ˜ ํ–‰๋™, ์กฐ๊ธฐ ์ข…๋ฃŒ)์„ ๊ทœ๋ช…ํ•˜์˜€์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ, Overthinking์„ ์™„ํ™”ํ•˜๋Š” ๊ฐ„๋‹จํ•œ ๋ฐฉ๋ฒ•์ด ๋ชจ๋ธ ์„ฑ๋Šฅ์„ 30% ํ–ฅ์ƒ์‹œํ‚ค๊ณ  ์—ฐ์‚ฐ ๋น„์šฉ์„ 43% ์ ˆ๊ฐํ•  ์ˆ˜ ์žˆ์Œ์„ ํ™•์ธํ•˜์˜€์Šต๋‹ˆ๋‹ค.

SigLIP 2: Multilingual Vision-Language Encoders with Improved Semantic Understanding, Localization, and Dense Features*

Paper, Project

SigLIP 2๋Š” ๋‹ค๊ตญ์–ด ๋น„์ „-์–ธ์–ด ์ธ์ฝ”๋”๋กœ, ๊ธฐ์กด SigLIP ๋ชจ๋ธ์„ ํ™•์žฅํ•˜์—ฌ ๋”์šฑ ๊ฐ•๋ ฅํ•œ ์‹œ๊ฐ-์–ธ์–ด ์ดํ•ด ๋Šฅ๋ ฅ์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค. ๋ณธ ์—ฐ๊ตฌ์—์„œ๋Š” ์บก์…”๋‹ ๊ธฐ๋ฐ˜ ์‚ฌ์ „ํ•™์Šต, ์ž๊ธฐ์ง€๋„ ํ•™์Šต(Self-Distillation, Masked Prediction), ์˜จ๋ผ์ธ ๋ฐ์ดํ„ฐ ํ๋ ˆ์ด์…˜ ๊ธฐ๋ฒ•์„ ๊ฒฐํ•ฉํ•œ ์ƒˆ๋กœ์šด ํ›ˆ๋ จ ๋ฐฉ์‹์„ ๋„์ž…ํ•˜์˜€์Šต๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ๊ธฐ์กด ๋ชจ๋ธ๋ณด๋‹ค ์ œ๋กœ์ƒท ๋ถ„๋ฅ˜, ์ด๋ฏธ์ง€-ํ…์ŠคํŠธ ๊ฒ€์ƒ‰, ๋น„์ „-์–ธ์–ด ๋ชจ๋ธ์˜ ์ „์ด ํ•™์Šต ์„ฑ๋Šฅ์ด ํ–ฅ์ƒ๋˜์—ˆ์Šต๋‹ˆ๋‹ค.

Magma: A Foundation Model for Multimodal AI Agents

Paper, Project

๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ AI๋Š” ๋””์ง€ํ„ธ ๋ฐ ๋ฌผ๋ฆฌ์  ํ™˜๊ฒฝ์—์„œ์˜ ์—์ด์ „ํŠธ ํƒœ์Šคํฌ ์ˆ˜ํ–‰ ๋Šฅ๋ ฅ์„ ํ–ฅ์ƒ์‹œํ‚ค๋Š” ๋ฐ ์ค‘์š”ํ•œ ์—ญํ• ์„ ํ•ฉ๋‹ˆ๋‹ค. ๋ณธ ์—ฐ๊ตฌ์—์„œ๋Š” Magma ๋ชจ๋ธ์„ ์ œ์•ˆํ•˜์—ฌ, ๊ธฐ์กด์˜ ๋น„์ „-์–ธ์–ด(VL) ๋ชจ๋ธ์„ ํ™•์žฅํ•˜๊ณ , ์‹œ๊ฐ-๊ณต๊ฐ„์  ์ง€๋Šฅ์„ ๊ฐ–์ถ˜ AI ์—์ด์ „ํŠธ๋กœ ํ™œ์šฉํ•  ์ˆ˜ ์žˆ๋„๋ก ์„ค๊ณ„ํ•˜์˜€์Šต๋‹ˆ๋‹ค. ์‹คํ—˜ ๊ฒฐ๊ณผ UI ๋‚ด๋น„๊ฒŒ์ด์…˜ ๋ฐ ๋กœ๋ด‡ ์กฐ์ž‘ ํƒœ์Šคํฌ์—์„œ ๊ธฐ์กด ๋ชจ๋ธ์„ ๋Šฅ๊ฐ€ํ•˜๋Š” ์„ฑ๋Šฅ์„ ๋ณด์˜€์Šต๋‹ˆ๋‹ค.

Qwen2.5-VL Technical Report*

Paper, Project

Qwen2.5-VL์€ ๊ฐ•ํ™”๋œ ์‹œ๊ฐ์  ์ธ์‹๊ณผ ์ •๋ฐ€ํ•œ ๊ฐ์ฒด ์œ„์น˜ ์ถ”์ ์„ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•˜๋Š” ์ตœ์‹  ๋น„์ „-์–ธ์–ด ๋ชจ๋ธ์ž…๋‹ˆ๋‹ค. ํŠนํžˆ, ๋ฌธ์„œ ๊ตฌ์กฐ ๋ถ„์„ ๋ฐ ์ฐจํŠธ ํ•ด์„์—์„œ ๋›ฐ์–ด๋‚œ ์„ฑ๋Šฅ์„ ๋ณด์ด๋ฉฐ, GPT-4o ๋ฐ Claude 3.5 Sonnet๊ณผ ์œ ์‚ฌํ•œ ์ˆ˜์ค€์˜ ์„ฑ๋Šฅ์„ ๋‹ฌ์„ฑํ•˜์˜€์Šต๋‹ˆ๋‹ค.

MLGym: A New Framework and Benchmark for Advancing AI Research Agents*

Paper, Project

AI ์—ฐ๊ตฌ ์—์ด์ „ํŠธ๋ฅผ ํ‰๊ฐ€ํ•˜๊ณ  ๊ฐœ๋ฐœํ•˜๊ธฐ ์œ„ํ•œ ์ƒˆ๋กœ์šด ํ”„๋ ˆ์ž„์›Œํฌ ๋ฐ ๋ฒค์น˜๋งˆํฌ(Meta MLGym ๋ฐ MLGym-Bench)๊ฐ€ ์†Œ๊ฐœ๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ๊ฐ•ํ™” ํ•™์Šต์„ ๊ธฐ๋ฐ˜์œผ๋กœ AI ์—ฐ๊ตฌ ํƒœ์Šคํฌ๋ฅผ ํ•ด๊ฒฐํ•˜๋Š” ๋ฐ ์ดˆ์ ์„ ๋งž์ถ”๋ฉฐ, 13๊ฐœ์˜ ๊ฐœ๋ฐฉํ˜• AI ์—ฐ๊ตฌ ํƒœ์Šคํฌ๋ฅผ ํฌํ•จํ•˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค.

AI ํ‰๊ฐ€ ๋ฐ ํšจ์œจ์ ์ธ ๋ชจ๋ธ ํ•™์Šต

SuperGPQA: Scaling LLM Evaluation across 285 Graduate Disciplines*

Paper, Project

๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ(LLM)์€ ๋‹ค์–‘ํ•œ ํ•™๋ฌธ ๋ถ„์•ผ์—์„œ ๋›ฐ์–ด๋‚œ ์„ฑ๋Šฅ์„ ๋ณด์ด์ง€๋งŒ, ๊ธฐ์กด ๋ฒค์น˜๋งˆํฌ๋Š” ์ผ๋ถ€ ๋ถ„์•ผ์—๋งŒ ์ง‘์ค‘๋˜์–ด ์žˆ์Šต๋‹ˆ๋‹ค. ๋ณธ ์—ฐ๊ตฌ์—์„œ๋Š” SuperGPQA๋ผ๋Š” ์ƒˆ๋กœ์šด ๋ฒค์น˜๋งˆํฌ๋ฅผ ๋„์ž…ํ•˜์—ฌ 285๊ฐœ์˜ ์„ธ๋ถ€ ์ „๊ณต์—์„œ LLM์˜ ์„ฑ๋Šฅ์„ ํ‰๊ฐ€ํ•˜์˜€์Šต๋‹ˆ๋‹ค.

How Much Knowledge Can You Pack into a LoRA Adapter without Harming LLM?

Paper, Project

LoRA๋Š” LLM์„ ํšจ์œจ์ ์œผ๋กœ ๋ฏธ์„ธ ์กฐ์ •ํ•˜๋Š” ๊ธฐ๋ฒ•์ด์ง€๋งŒ, ๊ธฐ์กด์˜ ์ง€์‹์„ ์œ ์ง€ํ•˜๋ฉด์„œ ์ƒˆ๋กœ์šด ์ •๋ณด๋ฅผ ์ถ”๊ฐ€ํ•˜๋Š” ๊ฒƒ์€ ์–ด๋ ค์šด ๊ณผ์ œ์ž…๋‹ˆ๋‹ค. ๋ณธ ์—ฐ๊ตฌ์—์„œ๋Š” LoRA ๊ธฐ๋ฐ˜ ๋ชจ๋ธ ์—…๋ฐ์ดํŠธ์˜ ํ•œ๊ณ„๋ฅผ ๋ถ„์„ํ•˜๊ณ , ํ•™์Šต ๋ฐ์ดํ„ฐ ๊ตฌ์„ฑ๊ณผ ํŠœ๋‹ ์ „๋žต์— ๋”ฐ๋ผ ๋ชจ๋ธ ์„ฑ๋Šฅ์ด ๋‹ฌ๋ผ์ง€๋Š” ์›์ธ์„ ๊ทœ๋ช…ํ•˜์˜€์Šต๋‹ˆ๋‹ค.

profile
XR๊ณผ AI์— ๊ด€์‹ฌ์ด ๋งŽ์€ Sky ์ž…๋‹ˆ๋‹ค.

0๊ฐœ์˜ ๋Œ“๊ธ€