[2025/W21] ๐Ÿค— Weekly AI Research

Skyยท2025๋…„ 5์›” 24์ผ

Weekly AI Research Digest

๋ชฉ๋ก ๋ณด๊ธฐ
26/89

๊ฑฐ๋Œ€ ์–ธ์–ด ๋ชจ๋ธ(LLM)์˜ ํ˜์‹ ์ ์ธ ๋ฐœ์ „: ํšจ์œจ์„ฑ, ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ, ์ถ”๋ก  ์ตœ์ ํ™”
์ฐจ์„ธ๋Œ€ AI๋ฅผ ์œ„ํ•œ ์›น ์—์ด์ „ํŠธ, ์ €๋น„ํŠธ ์–ดํ…์…˜, 3D ์žฅ๋ฉด ํ‘œํ˜„ ๋ฐ ์ƒ์„ฑ ๊ธฐ์ˆ  ๋ฐœ์ „

TL;DR

LLM ์•„ํ‚คํ…์ฒ˜ ๋ฐ ํ•™์Šต ํšจ์œจ์„ฑ ๋ถ„์•ผ์—์„œ Qwen3๋Š” '์ƒ๊ฐํ•˜๋Š” ๋ชจ๋“œ'์™€ '์ƒ๊ฐํ•˜์ง€ ์•Š๋Š” ๋ชจ๋“œ'๋ฅผ ํ†ตํ•ฉํ•˜๊ณ  '์ƒ๊ฐ ์˜ˆ์‚ฐ'์œผ๋กœ LLM์˜ ์„ฑ๋Šฅ๊ณผ ํšจ์œจ์„ฑ์„ ๊ทน๋Œ€ํ™”ํ•œ๋‹ค. Chain-of-Model (CoM/CoLM)์€ LLM ํ•™์Šต์— ์ฒด์ธ ํ˜•ํƒœ์˜ ์ธ๊ณผ ๊ด€๊ณ„๋ฅผ ๋„์ž…ํ•ด ํšจ์œจ์„ฑ๊ณผ ์œ ์—ฐ์„ฑ์„ ๋†’์ธ๋‹ค. ๋˜ํ•œ, ์–‘์žํ™” ์ธ์‹ ํ•™์Šต(QAT) ์—ฐ๊ตฌ๋Š” 4๋น„ํŠธ ์–‘์žํ™” ํšจ์œจ์„ฑ์„ ๋ถ„์„ํ•ด ์ž์› ํšจ์œจ์ ์ธ ๋ชจ๋ธ ๋ฐฐํฌ ๊ธฐ๋ฐ˜์„ ๋‹ค์ง„๋‹ค.

๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ LLM ๋ฐ ์ถ”๋ก  ๋ถ„์•ผ์—์„œ BAGEL์€ ํ…์ŠคํŠธ์™€ ์ด๋ฏธ์ง€, ๋น„๋””์˜ค ๋“ฑ์„ ํ†ตํ•ฉ ํ•™์Šตํ•ด ๋ณต์žกํ•œ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ถ”๋ก  ๋ฐ ์ƒ์„ฑ์—์„œ ๋›ฐ์–ด๋‚œ ์„ฑ๋Šฅ์„ ๋ณด์—ฌ์ค€๋‹ค. MMaDA๋„ ์œ ์‚ฌํ•˜๊ฒŒ ๋‹ค์–‘ํ•œ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ž‘์—…์—์„œ ์ตœ๊ณ  ์ˆ˜์ค€์˜ ์„ฑ๋Šฅ์„ ์ž๋ž‘ํ•œ๋‹ค. ์ด๋“ค ๋ชจ๋ธ์˜ ์„ฑ๋Šฅ ํ‰๊ฐ€๋Š” MMLongBench๋ผ๋Š” ๋ฒค์น˜๋งˆํฌ๊ฐ€ ๋‹ด๋‹นํ•˜๋ฉฐ, GuardReasoner-VL์€ ๊ฐ•ํ™” ํ•™์Šต์œผ๋กœ VLM์˜ ์•ˆ์ „์„ฑ์„ ๋†’์—ฌ ์œ ํ•ด ์ฝ˜ํ…์ธ  ํƒ์ง€ ๋Šฅ๋ ฅ์„ ํ–ฅ์ƒ์‹œํ‚จ๋‹ค.

์ถ”๋ก  ์ตœ์ ํ™” ๋ฐ ์ ์‘ํ˜• ์ œ์–ด ๋ถ„์•ผ์—์„œ LLM์˜ ์ถ”๋ก  ๋น„์šฉ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด AdaptThink๋Š” ๊ฐ•ํ™” ํ•™์Šต์œผ๋กœ ๋ชจ๋ธ์ด ๋ฌธ์ œ ๋‚œ์ด๋„์— ๋”ฐ๋ผ ์ตœ์ ์˜ '์‚ฌ๊ณ  ๋ชจ๋“œ'๋ฅผ ์„ ํƒํ•˜๊ฒŒ ํ•ด ํšจ์œจ์„ฑ๊ณผ ์„ฑ๋Šฅ์„ ๋™์‹œ์— ์žก๋Š”๋‹ค. AdaCoT ์—ญ์‹œ ๊ฐ•ํ™” ํ•™์Šต์„ ํ†ตํ•ด ๋ณต์žกํ•œ ์ถ”๋ก ์ด ํ•„์š”ํ•  ๋•Œ๋งŒ '์‚ฌ๊ณ ์˜ ์—ฐ์‡„(CoT)'๋ฅผ ๋ฐœ๋™์‹œ์ผœ ๋น„์šฉ์„ ํฌ๊ฒŒ ์ ˆ๊ฐํ•˜๋ฉด์„œ๋„ ๋†’์€ ์„ฑ๋Šฅ์„ ์œ ์ง€ํ•œ๋‹ค. ์ด ๋‘ ์—ฐ๊ตฌ๋Š” LLM์˜ ์‹ค์šฉ์ ์ธ ํ™œ์šฉ๋„๋ฅผ ๋†’์ด๋Š” ๋ฐ ๊ธฐ์—ฌํ•œ๋‹ค.

์›น ์—์ด์ „ํŠธ ๋ฐ ์ €๋น„ํŠธ ์–ดํ…์…˜ ๋ถ„์•ผ์—์„œ Web-Shepherd๋Š” ์›น ๋‚ด๋น„๊ฒŒ์ด์…˜์— ํŠนํ™”๋œ ์ตœ์ดˆ์˜ ๋ณด์ƒ ๋ชจ๋ธ๋กœ, ์›น ์—์ด์ „ํŠธ์˜ ํšจ์œจ์ ์ธ ํ•™์Šต๊ณผ ์„ฑ๋Šฅ ํ–ฅ์ƒ์„ ๋•๋Š”๋‹ค. NovelSeek์€ ๊ฐ€์„ค์—์„œ ๊ฒ€์ฆ๊นŒ์ง€ ์ž์œจ ๊ณผํ•™ ์—ฐ๊ตฌ๋ฅผ ์ˆ˜ํ–‰ํ•˜๋Š” ๋ฉ€ํ‹ฐ ์—์ด์ „ํŠธ ํ”„๋ ˆ์ž„์›Œํฌ๋กœ, ๊ณผํ•™ ์—ฐ๊ตฌ ํšจ์œจ์„ฑ์„ ๊ฐ€์†ํ™”ํ•  ์ž ์žฌ๋ ฅ์„ ๋ณด์—ฌ์ค€๋‹ค. ๋งˆ์ง€๋ง‰์œผ๋กœ SageAttention3๋Š” FP4 Tensor Cores์™€ 8๋น„ํŠธ ์ €๋น„ํŠธ ์–ดํ…์…˜ ์ ์šฉ์„ ํ†ตํ•ด ๋Œ€๊ทœ๋ชจ ๋ชจ๋ธ์˜ ์ถ”๋ก  ๋ฐ ํ•™์Šต ํšจ์œจ์„ฑ์„ ํš๊ธฐ์ ์œผ๋กœ ๊ฐœ์„ ํ•œ๋‹ค.

3D ์žฅ๋ฉด ํ‘œํ˜„ ๋ฐ ์ƒ์„ฑ ๋ถ„์•ผ์—์„œ 3D-4DGS๋Š” ๋™์  3D ์žฅ๋ฉด์„ ํšจ์œจ์ ์œผ๋กœ ํ‘œํ˜„ํ•˜๊ธฐ ์œ„ํ•ด ์ •์  ์˜์—ญ๊ณผ ๋™์  ์˜์—ญ์„ 3D ๋ฐ 4D ๊ฐ€์šฐ์‹œ์•ˆ์œผ๋กœ ๊ตฌ๋ถ„ํ•˜๋Š” ํ•˜์ด๋ธŒ๋ฆฌ๋“œ ๋ฐฉ์‹์„ ์‚ฌ์šฉํ•ด ํ›ˆ๋ จ ์‹œ๊ฐ„์„ ๋‹จ์ถ•ํ•˜๊ณ  ํšจ์œจ์„ฑ์„ ๋†’์ธ๋‹ค. ๋˜ํ•œ, 3DTown์€ ๋‹จ ํ•œ ์žฅ์˜ ์ƒ๋‹จ ์ด๋ฏธ์ง€๋กœ ์‚ฌ์‹ค์ ์ด๊ณ  ์ผ๊ด€๋œ 3D ๋„์‹œ ์žฅ๋ฉด์„ ์ƒ์„ฑํ•˜๋Š” ํ›ˆ๋ จ ์—†๋Š” ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ œ์‹œํ•˜๋ฉฐ, ๊ณ ํ’ˆ์งˆ 3D ์žฌ๊ตฌ์„ฑ์˜ ์ƒˆ๋กœ์šด ๊ฐ€๋Šฅ์„ฑ์„ ์—ฐ๋‹ค.

๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ (LLM) ์•„ํ‚คํ…์ฒ˜ ๋ฐ ํ•™์Šต ํšจ์œจ์„ฑ ๋ถ„์•ผ

Qwen3 Technical Report

Paper, Project

Qwen3๋Š” ์ตœ์‹  ๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ(LLM) ์‹œ๋ฆฌ์ฆˆ๋กœ, ์„ฑ๋Šฅ, ํšจ์œจ์„ฑ, ๊ทธ๋ฆฌ๊ณ  ๋‹ค๊ตญ์–ด ๋Šฅ๋ ฅ์„ ํ•œ ๋‹จ๊ณ„ ๋” ๋ฐœ์ „์‹œํ‚จ๋‹ค. ์ด ๋ชจ๋ธ์€ ๋ฐ€์ง‘(dense) ๋ฐ ํ˜ผํ•ฉ ์ „๋ฌธ๊ฐ€(MoE) ์•„ํ‚คํ…์ฒ˜๋ฅผ ๋ชจ๋‘ ์‚ฌ์šฉํ•˜๋ฉฐ, 0.6์–ต ๊ฐœ๋ถ€ํ„ฐ 2,350์–ต ๊ฐœ์— ์ด๋ฅด๋Š” ๋‹ค์–‘ํ•œ ๊ทœ๋ชจ์˜ ๋ชจ๋ธ๋“ค์„ ํฌํ•จํ•œ๋‹ค. ํŠนํžˆ, ๋ณต์žกํ•œ ์ถ”๋ก ์„ ์œ„ํ•œ '์‚ฌ๊ณ  ๋ชจ๋“œ'์™€ ๋น ๋ฅธ ์‘๋‹ต์„ ์œ„ํ•œ '๋น„์‚ฌ๊ณ  ๋ชจ๋“œ'๋ฅผ ํ•˜๋‚˜์˜ ํ”„๋ ˆ์ž„์›Œํฌ๋กœ ํ†ตํ•ฉํ•˜์—ฌ ์‚ฌ์šฉ์ž๊ฐ€ ์งˆ์˜์— ๋”ฐ๋ผ ์ด ๋ชจ๋“œ๋ฅผ ๋™์ ์œผ๋กœ ์ „ํ™˜ํ•  ์ˆ˜ ์žˆ๊ฒŒ ํ–ˆ๋‹ค. ๋˜ํ•œ, '์‚ฌ๊ณ  ์˜ˆ์‚ฐ' ๋ฉ”์ปค๋‹ˆ์ฆ˜์„ ํ†ตํ•ด ์‚ฌ์šฉ์ž๊ฐ€ ๊ณ„์‚ฐ ๋ฆฌ์†Œ์Šค๋ฅผ ์œ ์—ฐํ•˜๊ฒŒ ํ• ๋‹นํ•˜์—ฌ ์ง€์—ฐ ์‹œ๊ฐ„๊ณผ ์„ฑ๋Šฅ์˜ ๊ท ํ˜•์„ ๋งž์ถœ ์ˆ˜ ์žˆ๋„๋ก ๋•๋Š”๋‹ค. Qwen2.5์— ๋น„ํ•ด ๋‹ค๊ตญ์–ด ์ง€์›์ด 29๊ฐœ์—์„œ 119๊ฐœ ์–ธ์–ด๋กœ ํฌ๊ฒŒ ํ™•์žฅ๋˜์—ˆ์œผ๋ฉฐ, ์ฝ”๋“œ ์ƒ์„ฑ, ์ˆ˜ํ•™์  ์ถ”๋ก  ๋“ฑ ๋‹ค์–‘ํ•œ ๋ฒค์น˜๋งˆํฌ์—์„œ ์ตœ๊ณ  ์ˆ˜์ค€์˜ ์„ฑ๋Šฅ์„ ๋ณด์—ฌ์ค€๋‹ค. ๋ชจ๋“  Qwen3 ๋ชจ๋ธ์€ ์—ฐ๊ตฌ ๋ฐ ๊ฐœ๋ฐœ์„ ์œ„ํ•ด Apache 2.0 ๋ผ์ด์„ ์Šค๋กœ ๊ณต๊ฐœ๋œ๋‹ค.

Chain-of-Model Learning for Language Model

Paper, Project

์ด ๋…ผ๋ฌธ์€ ๊ฐ ๋ ˆ์ด์–ด์˜ ์€๋‹‰ ์ƒํƒœ์— ์ธ๊ณผ ๊ด€๊ณ„๋ฅผ ์ฒด์ธ ํ˜•ํƒœ๋กœ ํ†ตํ•ฉํ•˜๋Š” ์ƒˆ๋กœ์šด ํ•™์Šต ํŒจ๋Ÿฌ๋‹ค์ž„์ธ Chain-of-Model (CoM)์„ ์ œ์•ˆํ•œ๋‹ค. ์ด๋Š” ๋ชจ๋ธ ํ•™์Šต์—์„œ ๋›ฐ์–ด๋‚œ ํ™•์žฅ ํšจ์œจ์„ฑ์„ ์ œ๊ณตํ•˜๊ณ  ๋ฐฐํฌ ์‹œ ์ถ”๋ก  ์œ ์—ฐ์„ฑ์„ ๋†’์ธ๋‹ค. CoM์€ ๊ฐ ๋ ˆ์ด์–ด์˜ ์€๋‹‰ ์ƒํƒœ๋ฅผ ์—ฌ๋Ÿฌ ํ•˜์œ„ ํ‘œํ˜„(์ฒด์ธ)์˜ ์กฐํ•ฉ์œผ๋กœ ๊ตฌ์„ฑํ•˜๋Š” Chain-of-Representation (CoR) ๊ฐœ๋…์„ ๋„์ž…ํ•œ๋‹ค. ์ด ์›๋ฆฌ๋ฅผ ํ†ตํ•ด CoM ๊ธฐ๋ฐ˜ ๋ชจ๋ธ์€ ์ด์ „ ๋ชจ๋ธ์„ ๊ธฐ๋ฐ˜์œผ๋กœ ์ฒด์ธ์„ ๋Š˜๋ ค ๋ชจ๋ธ ํฌ๊ธฐ๋ฅผ ์ ์ง„์ ์œผ๋กœ ํ™•์žฅํ•  ์ˆ˜ ์žˆ์œผ๋ฉฐ, ๋‹ค์–‘ํ•œ ํฌ๊ธฐ์˜ ์—ฌ๋Ÿฌ ํ•˜์œ„ ๋ชจ๋ธ์„ ์ œ๊ณตํ•˜์—ฌ ์œ ์—ฐํ•œ ์ถ”๋ก ์„ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•œ๋‹ค. CoM ์•„์ด๋””์–ด๋ฅผ ํŠธ๋žœ์Šคํฌ๋จธ ์•„ํ‚คํ…์ฒ˜์— ํ†ตํ•ฉํ•œ Chain-of-Language-Model (CoLM)์„ ๊ฐœ๋ฐœํ–ˆ์œผ๋ฉฐ, ์—ฌ๊ธฐ์— KV ๊ณต์œ  ๋ฉ”์ปค๋‹ˆ์ฆ˜์„ ๋”ํ•œ CoLM-Air๋Š” LM ์ „ํ™˜์˜ ์›ํ™œํ•จ, ์‚ฌ์ „ ์ฑ„์šฐ๊ธฐ ๊ฐ€์†ํ™”์™€ ๊ฐ™์€ ์ถ”๊ฐ€ ํ™•์žฅ์„ฑ์„ ๋ณด์—ฌ์ค€๋‹ค. ์‹คํ—˜ ๊ฒฐ๊ณผ, CoLM ๊ณ„์—ด์€ ํ‘œ์ค€ ํŠธ๋žœ์Šคํฌ๋จธ์™€ ์œ ์‚ฌํ•œ ์„ฑ๋Šฅ์„ ๋‹ฌ์„ฑํ•˜๋ฉด์„œ๋„ ๋›ฐ์–ด๋‚œ ์œ ์—ฐ์„ฑ์„ ์ œ๊ณตํ•œ๋‹ค.

Scaling Law for Quantization-Aware Training

Paper

์ด ๋…ผ๋ฌธ์€ ๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ(LLM)์˜ ๋ฐฐํฌ ์–ด๋ ค์›€์„ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด ๋ชจ๋ธ ์ •๋ฐ€๋„๋ฅผ ์ค„์ด๋ฉด์„œ ์„ฑ๋Šฅ์„ ์œ ์ง€ํ•˜๋Š” ์–‘์žํ™” ์ธ์‹ ํ•™์Šต(QAT)์˜ ์Šค์ผ€์ผ๋ง ๋ฒ•์น™์„ ์—ฐ๊ตฌํ•œ๋‹ค. ํŠนํžˆ 4๋น„ํŠธ ์ •๋ฐ€๋„(W4A4) QAT์˜ ์Šค์ผ€์ผ๋ง ๋™์ž‘์„ ์ดํ•ดํ•˜๊ธฐ ์œ„ํ•ด, ๋ชจ๋ธ ํฌ๊ธฐ, ํ›ˆ๋ จ ๋ฐ์ดํ„ฐ ์–‘, ์–‘์žํ™” ๊ทธ๋ฃน ํฌ๊ธฐ์˜ ํ•จ์ˆ˜๋กœ ์–‘์žํ™” ์˜ค๋ฅ˜๋ฅผ ๋ชจ๋ธ๋งํ•˜๋Š” ํ†ตํ•ฉ ์Šค์ผ€์ผ๋ง ๋ฒ•์น™์„ ์ œ์•ˆํ•œ๋‹ค. 268๊ฐœ ์‹คํ—˜์„ ํ†ตํ•ด ์–‘์žํ™” ์˜ค๋ฅ˜๊ฐ€ ๋ชจ๋ธ ํฌ๊ธฐ๊ฐ€ ์ฆ๊ฐ€ํ•จ์— ๋”ฐ๋ผ ๊ฐ์†Œํ•˜์ง€๋งŒ, ํ›ˆ๋ จ ํ† ํฐ ์ˆ˜๊ฐ€ ๋งŽ์•„์ง€๊ณ  ์–‘์žํ™” ์ž…๋„๊ฐ€ ๊ฑฐ์น ์–ด์งˆ์ˆ˜๋ก ์ฆ๊ฐ€ํ•œ๋‹ค๋Š” ๊ฒƒ์„ ๋ฐํžŒ๋‹ค. W4A4 ์–‘์žํ™” ์˜ค๋ฅ˜๋ฅผ ๊ฐ€์ค‘์น˜ ๋ฐ ํ™œ์„ฑํ™” ๊ตฌ์„ฑ ์š”์†Œ๋กœ ๋ถ„ํ•ดํ•œ ๊ฒฐ๊ณผ, FC2 ๋ ˆ์ด์–ด์˜ ํ™œ์„ฑํ™” ์–‘์žํ™” ์˜ค๋ฅ˜(์ด์ƒ์น˜๋กœ ์ธํ•ด ๋ฐœ์ƒ)๊ฐ€ ์ฃผ์š” ๋ณ‘๋ชฉ ํ˜„์ƒ์ž„์„ ๋ฐœ๊ฒฌํ•˜๋ฉฐ, ํ˜ผํ•ฉ ์ •๋ฐ€๋„ ์–‘์žํ™”๋ฅผ ํ†ตํ•ด ์ด๋ฅผ ํ•ด๊ฒฐํ•  ์ˆ˜ ์žˆ์Œ์„ ๋ณด์—ฌ์ค€๋‹ค.

๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ LLM ๋ฐ ์ถ”๋ก  ๋ถ„์•ผ

Emerging Properties in Unified Multimodal Pretraining

Paper, Project

์ด ๋…ผ๋ฌธ์€ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ดํ•ด์™€ ์ƒ์„ฑ์„ ํ†ตํ•ฉํ•œ ์˜คํ”ˆ์†Œ์Šค ๊ธฐ๋ฐ˜ ๋ชจ๋ธ BAGEL์„ ์†Œ๊ฐœํ•œ๋‹ค. BAGEL์€ ํ…์ŠคํŠธ, ์ด๋ฏธ์ง€, ๋น„๋””์˜ค, ์›น ๋ฐ์ดํ„ฐ๊ฐ€ ํ˜ผํ•ฉ๋œ ์ˆ˜์กฐ ๊ฐœ์˜ ํ† ํฐ์œผ๋กœ ์‚ฌ์ „ ํ•™์Šต๋œ ํ†ตํ•ฉ ๋””์ฝ”๋” ์ „์šฉ ๋ชจ๋ธ์ด๋‹ค. ์ด์ฒ˜๋Ÿผ ๋‹ค์–‘ํ•œ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๋ฐ์ดํ„ฐ๋กœ ํ™•์žฅ๋˜๋ฉด์„œ BAGEL์€ ๋ณต์žกํ•œ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ถ”๋ก ์—์„œ ๋›ฐ์–ด๋‚œ ๋Šฅ๋ ฅ์„ ๋ณด์—ฌ์ฃผ๋ฉฐ, ๊ธฐ์กด ์˜คํ”ˆ์†Œ์Šค ํ†ตํ•ฉ ๋ชจ๋ธ๋“ค์„ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ƒ์„ฑ ๋ฐ ์ดํ•ด ์ธก๋ฉด์—์„œ ํฌ๊ฒŒ ๋Šฅ๊ฐ€ํ•œ๋‹ค. ํŠนํžˆ, ์ž์œ  ํ˜•์‹ ์ด๋ฏธ์ง€ ์กฐ์ž‘, ๋ฏธ๋ž˜ ํ”„๋ ˆ์ž„ ์˜ˆ์ธก, 3D ์กฐ์ž‘, ์›”๋“œ ๋‚ด๋น„๊ฒŒ์ด์…˜๊ณผ ๊ฐ™์€ ๊ณ ๊ธ‰ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ถ”๋ก  ๋Šฅ๋ ฅ๊นŒ์ง€ ๊ฐ–์ถ”๊ณ  ์žˆ๋‹ค.

MMaDA: Multimodal Large Diffusion Language Models

Paper, Project

์ด ๋…ผ๋ฌธ์€ ํ…์ŠคํŠธ ์ถ”๋ก , ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ดํ•ด, ํ…์ŠคํŠธ-์ด๋ฏธ์ง€ ์ƒ์„ฑ ๋“ฑ ๋‹ค์–‘ํ•œ ์˜์—ญ์—์„œ ๋›ฐ์–ด๋‚œ ์„ฑ๋Šฅ์„ ๋‹ฌ์„ฑํ•˜๋„๋ก ์„ค๊ณ„๋œ ์ƒˆ๋กœ์šด ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ํ™•์‚ฐ ๊ธฐ๋ฐ˜ ๋ชจ๋ธ์ธ MMaDA๋ฅผ ์†Œ๊ฐœํ•œ๋‹ค. MMaDA๋Š” ํ†ตํ•ฉ ํ™•์‚ฐ ์•„ํ‚คํ…์ฒ˜๋ฅผ ์ฑ„ํƒํ•˜์—ฌ ์–‘์‹๋ณ„ ๊ตฌ์„ฑ ์š”์†Œ ์—†์ด ๋‹ค์–‘ํ•œ ๋ฐ์ดํ„ฐ ์œ ํ˜•์„ ์›ํ™œํ•˜๊ฒŒ ํ†ตํ•ฉํ•˜๊ณ  ์ฒ˜๋ฆฌํ•œ๋‹ค. ๋˜ํ•œ, ํ…์ŠคํŠธ ๋ฐ ์‹œ๊ฐ ๋„๋ฉ”์ธ ๊ฐ„์˜ ์ถ”๋ก  ๊ณผ์ •์„ ์ •๋ ฌํ•˜๋Š” ํ˜ผํ•ฉ๋œ ๊ธด ์‚ฌ๊ณ ์˜ ์—ฐ์‡„(CoT) ๋ฏธ์„ธ ์กฐ์ • ์ „๋žต์„ ํ†ตํ•ด ๊ฐ•ํ™” ํ•™์Šต ๋‹จ๊ณ„์˜ ์ฝœ๋“œ ์Šคํƒ€ํŠธ ํ•™์Šต์„ ์šฉ์ดํ•˜๊ฒŒ ํ•œ๋‹ค. ๋งˆ์ง€๋ง‰์œผ๋กœ, ํ™•์‚ฐ ๊ธฐ๋ฐ˜ ๋ชจ๋ธ์— ํŠนํ™”๋œ UniGRPO๋ผ๋Š” ํ†ตํ•ฉ ์ •์ฑ… ๊ธฐ์šธ๊ธฐ ๊ธฐ๋ฐ˜ ๊ฐ•ํ™” ํ•™์Šต ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ ์ œ์•ˆํ•˜์—ฌ ์ถ”๋ก  ๋ฐ ์ƒ์„ฑ ์ž‘์—… ์ „๋ฐ˜์— ๊ฑธ์ณ ์ผ๊ด€๋œ ์„ฑ๋Šฅ ํ–ฅ์ƒ์„ ๋ณด์žฅํ•œ๋‹ค. MMaDA-8B๋Š” ํ…์ŠคํŠธ ์ถ”๋ก ์—์„œ LLaMA-3-7B ๋ฐ Qwen2-7B๋ฅผ, ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ดํ•ด์—์„œ Show-o ๋ฐ SEED-X๋ฅผ, ํ…์ŠคํŠธ-์ด๋ฏธ์ง€ ์ƒ์„ฑ์—์„œ SDXL ๋ฐ Janus๋ฅผ ๋Šฅ๊ฐ€ํ•˜๋Š” ๊ฐ•๋ ฅํ•œ ์„ฑ๋Šฅ์„ ๋ณด์—ฌ์ค€๋‹ค.

MMLongBench: Benchmarking Long-Context Vision-Language Models Effectively and Thoroughly

Paper, Project

์ด ๋…ผ๋ฌธ์€ ์žฅ๋ฌธ ๋งฅ๋ฝ ์‹œ๊ฐ-์–ธ์–ด ๋ชจ๋ธ(LCVLM)์˜ ํšจ๊ณผ์ ์ด๊ณ  ์ฒ ์ €ํ•œ ํ‰๊ฐ€๋ฅผ ์œ„ํ•ด ๋‹ค์–‘ํ•œ ์žฅ๋ฌธ ๋งฅ๋ฝ ์‹œ๊ฐ-์–ธ์–ด ์ž‘์—…์„ ๋‹ค๋ฃจ๋Š” ์ตœ์ดˆ์˜ ๋ฒค์น˜๋งˆํฌ์ธ MMLongBench๋ฅผ ์†Œ๊ฐœํ•œ๋‹ค. MMLongBench๋Š” ์‹œ๊ฐ์  RAG ๋ฐ Many-Shot ICL๊ณผ ๊ฐ™์€ ๋‹ค์„ฏ ๊ฐ€์ง€ ๋ฒ”์ฃผ์˜ ํ•˜์œ„ ์ž‘์—…์„ ํฌ๊ด„ํ•˜๋Š” 13,331๊ฐœ์˜ ์˜ˆ์‹œ๋กœ ๊ตฌ์„ฑ๋˜๋ฉฐ, ๋‹ค์–‘ํ•œ ์ž์—ฐ ๋ฐ ํ•ฉ์„ฑ ์ด๋ฏธ์ง€ ์œ ํ˜•์„ ํฌํ•จํ•œ๋‹ค. ๋ชจ๋ธ์˜ ์ž…๋ ฅ ๊ธธ์ด ๊ฒฌ๊ณ ์„ฑ์„ ํ‰๊ฐ€ํ•˜๊ธฐ ์œ„ํ•ด ๋ชจ๋“  ์˜ˆ์‹œ๋Š” ์‹œ๊ฐ ํŒจ์น˜์™€ ํ…์ŠคํŠธ ํ† ํฐ์„ ๊ฒฐํ•ฉํ•˜๋Š” ๊ต์ฐจ ๋ชจ๋‹ฌ ํ† ํฐํ™” ๋ฐฉ์‹์„ ํ†ตํ•ด ๋‹ค์„ฏ ๊ฐ€์ง€ ํ‘œ์ค€ํ™”๋œ ์ž…๋ ฅ ๊ธธ์ด(8K-128K ํ† ํฐ)๋กœ ์ œ๊ณต๋œ๋‹ค. 46๊ฐœ LCVLM์— ๋Œ€ํ•œ ์ฒ ์ €ํ•œ ๋ฒค์น˜๋งˆํ‚น์„ ํ†ตํ•ด, ๋‹จ์ผ ์ž‘์—… ์„ฑ๋Šฅ์ด ์ „๋ฐ˜์ ์ธ ์žฅ๋ฌธ ๋งฅ๋ฝ ๋Šฅ๋ ฅ์„ ๋‚˜ํƒ€๋‚ด๋Š” ์•ฝํ•œ ์ง€ํ‘œ์ž„์„ ๋ฐํžˆ๊ณ , ํ์‡„ํ˜• ๋ฐ ์˜คํ”ˆ์†Œ์Šค ๋ชจ๋ธ ๋ชจ๋‘ ์žฅ๋ฌธ ๋งฅ๋ฝ ์‹œ๊ฐ-์–ธ์–ด ์ž‘์—…์—์„œ ์—ฌ์ „ํžˆ ๊ฐœ์„ ์˜ ์—ฌ์ง€๊ฐ€ ํฌ๋‹ค๋Š” ์ , ๊ทธ๋ฆฌ๊ณ  ์ถ”๋ก  ๋Šฅ๋ ฅ์ด ๊ฐ•ํ•œ ๋ชจ๋ธ์ด ๋” ๋‚˜์€ ์žฅ๋ฌธ ๋งฅ๋ฝ ์„ฑ๋Šฅ์„ ๋ณด์ด๋Š” ๊ฒฝํ–ฅ์ด ์žˆ์Œ์„ ๋ณด์—ฌ์ค€๋‹ค.

GuardReasoner-VL: Safeguarding VLMs via Reinforced Reasoning

Paper, Project

์ด ๋…ผ๋ฌธ์€ VLM(์‹œ๊ฐ-์–ธ์–ด ๋ชจ๋ธ)์˜ ์•ˆ์ „์„ฑ์„ ํ–ฅ์ƒ์‹œํ‚ค๊ธฐ ์œ„ํ•ด, ์ถ”๋ก  ๊ธฐ๋ฐ˜ VLM ๊ฐ€๋“œ ๋ชจ๋ธ์ธ GuardReasoner-VL์„ ์†Œ๊ฐœํ•œ๋‹ค. ํ•ต์‹ฌ ์•„์ด๋””์–ด๋Š” ์˜จ๋ผ์ธ ๊ฐ•ํ™” ํ•™์Šต(RL)์„ ํ†ตํ•ด ๊ฐ€๋“œ ๋ชจ๋ธ์ด ์ค‘์žฌ ๊ฒฐ์ •์„ ๋‚ด๋ฆฌ๊ธฐ ์ „์— ์‹ ์ค‘ํ•˜๊ฒŒ ์ถ”๋ก ํ•˜๋„๋ก ์œ ๋„ํ•˜๋Š” ๊ฒƒ์ด๋‹ค. ์ด๋ฅผ ์œ„ํ•ด ํ…์ŠคํŠธ, ์ด๋ฏธ์ง€, ํ…์ŠคํŠธ-์ด๋ฏธ์ง€ ์ž…๋ ฅ์„ ์•„์šฐ๋ฅด๋Š” ๋Œ€๊ทœ๋ชจ ์ถ”๋ก  ์ฝ”ํผ์Šค์ธ GuardReasoner-VLTrain์„ ๊ตฌ์ถ•ํ•˜๊ณ , ์ด๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ๋ชจ๋ธ์˜ ์ถ”๋ก  ๋Šฅ๋ ฅ์„ ๊ฐ•ํ™” ํ•™์Šตํ•œ๋‹ค. ํŠนํžˆ, ์ƒ˜ํ”Œ์˜ ๋‹ค์–‘์„ฑ๊ณผ ๋‚œ์ด๋„๋ฅผ ๋†’์ด๊ธฐ ์œ„ํ•œ ์•ˆ์ „ ์ธ์‹ ๋ฐ์ดํ„ฐ ์—ฐ๊ฒฐ์„ ํ†ตํ•œ ๋ฐ์ดํ„ฐ ์ฆ๊ฐ•๊ณผ ์„ฑ๋Šฅ-ํšจ์œจ์„ฑ ๊ท ํ˜•์„ ์œ„ํ•œ ๊ธธ์ด ์ธ์‹ ์•ˆ์ „ ๋ณด์ƒ์„ ์„ค๊ณ„ํ•œ๋‹ค. ๊ด‘๋ฒ”์œ„ํ•œ ์‹คํ—˜์„ ํ†ตํ•ด GuardReasoner-VL์€ ๋‹ค๋ฅธ ๋ชจ๋ธ๋“ค์„ ์••๋„ํ•˜๋Š” ๋›ฐ์–ด๋‚œ ์„ฑ๋Šฅ์„ ๋ณด์—ฌ์ฃผ๋ฉฐ, VLM ์•ˆ์ „์„ฑ ์—ฐ๊ตฌ์˜ ๋ฐœ์ „์— ๊ธฐ์—ฌํ•œ๋‹ค.

์ถ”๋ก  ์ตœ์ ํ™” ๋ฐ ์ ์‘ํ˜• ์ œ์–ด ๋ถ„์•ผ

AdaptThink: Reasoning Models Can Learn When to Think

Paper, Project

์ด ์—ฐ๊ตฌ๋Š” ๋Œ€๊ทœ๋ชจ ์ถ”๋ก  ๋ชจ๋ธ์ด ๋ณต์žกํ•œ ์‚ฌ๊ณ  ๊ณผ์ •์„ ํ†ตํ•ด ์ข‹์€ ์„ฑ๋Šฅ์„ ๋‚ด์ง€๋งŒ, ์ด๋กœ ์ธํ•ด ๋ฐœ์ƒํ•˜๋Š” ๋†’์€ ์ถ”๋ก  ๋น„์šฉ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด AdaptThink๋ผ๋Š” ์ƒˆ๋กœ์šด ๊ฐ•ํ™” ํ•™์Šต(RL) ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ ์ œ์•ˆํ•œ๋‹ค. AdaptThink๋Š” ์ถ”๋ก  ๋ชจ๋ธ์ด ๋ฌธ์ œ ๋‚œ์ด๋„์— ๋”ฐ๋ผ '์‚ฌ๊ณ  ๋ชจ๋“œ'์™€ '๋น„์‚ฌ๊ณ  ๋ชจ๋“œ' ์ค‘ ์ตœ์ ์˜ ๋ชจ๋“œ๋ฅผ ์ ์‘์ ์œผ๋กœ ์„ ํƒํ•˜๋„๋ก ๊ฐ€๋ฅด์นœ๋‹ค. ํŠนํžˆ, ๊ฐ„๋‹จํ•œ ์ž‘์—…์—์„œ๋Š” ์‚ฌ๊ณ  ๊ณผ์ •์„ ์ƒ๋žตํ•˜๊ณ  ์ง์ ‘ ๋‹ต์„ ๋‚ด๋Š” 'NoThinking' ๋ฐฉ์‹์ด ์„ฑ๋Šฅ๊ณผ ํšจ์œจ์„ฑ ๋ฉด์—์„œ ๋” ๋‚˜์€ ์„ ํƒ์ž„์„ ๋ฐํžˆ๊ณ , ์ด๋ฅผ ๋ฐ”ํƒ•์œผ๋กœ ๋ชจ๋ธ์ด ์ „์ฒด ์„ฑ๋Šฅ์„ ์œ ์ง€ํ•˜๋ฉด์„œ 'NoThinking'์„ ์„ ํƒํ•˜๋„๋ก ์œ ๋„ํ•˜๋Š” ์ œ์•ฝ ์กฐ๊ฑด๋ถ€ ์ตœ์ ํ™” ๋ชฉํ‘œ์™€ ํ•™์Šต ์ค‘ ๋‘ ๊ฐ€์ง€ ์‚ฌ๊ณ  ๋ชจ๋“œ ์ƒ˜ํ”Œ์˜ ๊ท ํ˜•์„ ๋งž์ถ”๋Š” ์ค‘์š”๋„ ์ƒ˜ํ”Œ๋ง ์ „๋žต์„ ํ•ต์‹ฌ ๊ตฌ์„ฑ ์š”์†Œ๋กœ ์‚ฌ์šฉํ•œ๋‹ค. ์‹คํ—˜ ๊ฒฐ๊ณผ, AdaptThink๋Š” ์ถ”๋ก  ๋น„์šฉ์„ ํฌ๊ฒŒ ์ค„์ด๋ฉด์„œ๋„ ์„ฑ๋Šฅ์„ ํ–ฅ์ƒ์‹œํ‚ค๋Š” ํšจ๊ณผ์ ์ธ ๋ฐฉ๋ฒ•์„ ์ œ์‹œํ•œ๋‹ค.

AdaCoT: Pareto-Optimal Adaptive Chain-of-Thought Triggering via Reinforcement Learning

Paper, Project

์ด ๋…ผ๋ฌธ์€ ๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ(LLM)์ด ์ •๊ตํ•œ ์ถ”๋ก  ์ž‘์—…์—์„œ ๋›ฐ์–ด๋‚œ ์„ฑ๋Šฅ์„ ๋ณด์ด์ง€๋งŒ, ์‚ฌ๊ณ ์˜ ์—ฐ์‡„(CoT) ํ”„๋กฌํ”„ํŠธ๊ฐ€ ๋ชจ๋“  ์งˆ์˜์— ๋Œ€ํ•ด ๋ถˆํ•„์š”ํ•˜๊ฒŒ ๊ธด ์ถ”๋ก  ๋‹จ๊ณ„๋ฅผ ์ƒ์„ฑํ•˜์—ฌ ๋น„ํšจ์œจ์„ฑ์„ ์•ผ๊ธฐํ•˜๋Š” ๋ฌธ์ œ์— ์ฃผ๋ชฉํ•œ๋‹ค. ์ด๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด, LLM์ด ์–ธ์ œ CoT๋ฅผ ํ˜ธ์ถœํ• ์ง€ ์ ์‘์ ์œผ๋กœ ๊ฒฐ์ •ํ•˜๋„๋ก ํ•˜๋Š” ์ƒˆ๋กœ์šด ํ”„๋ ˆ์ž„์›Œํฌ์ธ AdaCoT (Adaptive Chain-of-Thought)๋ฅผ ์ œ์•ˆํ•œ๋‹ค. AdaCoT๋Š” ์ ์‘ํ˜• ์ถ”๋ก ์„ ๋ชจ๋ธ ์„ฑ๋Šฅ๊ณผ CoT ํ˜ธ์ถœ ๋น„์šฉ ๊ฐ„์˜ ๊ท ํ˜•์„ ์ฐพ๋Š” ํŒŒ๋ ˆํ†  ์ตœ์ ํ™” ๋ฌธ์ œ๋กœ ๊ตฌ์„ฑํ•˜๋ฉฐ, ๊ฐ•ํ™” ํ•™์Šต(RL) ๊ธฐ๋ฐ˜ ๋ฐฉ๋ฒ•์„ ์‚ฌ์šฉํ•˜์—ฌ CoT ํŠธ๋ฆฌ๊ฑฐ๋ง ๊ฒฐ์ • ๊ฒฝ๊ณ„๋ฅผ ๋™์ ์œผ๋กœ ์ œ์–ดํ•œ๋‹ค. ํŠนํžˆ, ๋‹ค๋‹จ๊ณ„ RL ํ›ˆ๋ จ ์ค‘ ๊ฒฐ์ • ๊ฒฝ๊ณ„ ๋ถ•๊ดด๋ฅผ ๋ฐฉ์ง€ํ•˜๋Š” ์„ ํƒ์  ์†์‹ค ๋งˆ์Šคํ‚น(SLM)์ด ํ•ต์‹ฌ ๊ธฐ์ˆ ์ด๋‹ค. ์‹คํ—˜ ๊ฒฐ๊ณผ, AdaCoT๋Š” ๋ณต์žกํ•œ ์ถ”๋ก ์ด ํ•„์š” ์—†๋Š” ์งˆ์˜์— ๋Œ€ํ•œ CoT ์‚ฌ์šฉ๋Ÿ‰์„ ํฌ๊ฒŒ ์ค„์ด๋ฉด์„œ๋„ ๋†’์€ ์„ฑ๋Šฅ์„ ์œ ์ง€ํ•จ์„ ์ž…์ฆํ•œ๋‹ค.

์›น ์—์ด์ „ํŠธ ๋ฐ ์ €๋น„ํŠธ ์–ดํ…์…˜ ๋ถ„์•ผ

Web-Shepherd: Advancing PRMs for Reinforcing Web Agents

Paper, Project

์ด ์—ฐ๊ตฌ๋Š” ์›น ๋‚ด๋น„๊ฒŒ์ด์…˜์— ํŠนํ™”๋œ ์ตœ์ดˆ์˜ ํ”„๋กœ์„ธ์Šค ๋ณด์ƒ ๋ชจ๋ธ(PRM)์ธ Web-Shepherd๋ฅผ ์ œ์•ˆํ•œ๋‹ค. ์›น ๋‚ด๋น„๊ฒŒ์ด์…˜์€ ๋ณต์žกํ•œ ๋‹ค๋‹จ๊ณ„ ์˜์‚ฌ ๊ฒฐ์ •์ด ํ•„์š”ํ•œ ๋„์ „์ ์ธ ์˜์—ญ์ด๋ฉฐ, Web-Shepherd๋Š” ๋‹จ๊ณ„๋ณ„๋กœ ์›น ๋‚ด๋น„๊ฒŒ์ด์…˜ ๊ฒฝ๋กœ๋ฅผ ํ‰๊ฐ€ํ•  ์ˆ˜ ์žˆ๋‹ค. ์ด ๋ชจ๋ธ์„ ์œ„ํ•ด 4๋งŒ ๊ฐœ์˜ ๋‹จ๊ณ„๋ณ„ ์„ ํ˜ธ๋„ ์Œ์œผ๋กœ ๊ตฌ์„ฑ๋œ ๋Œ€๊ทœ๋ชจ ๋ฐ์ดํ„ฐ์…‹์ธ WebPRM Collection์„ ๊ตฌ์ถ•ํ–ˆ์œผ๋ฉฐ, PRM ํ‰๊ฐ€๋ฅผ ์œ„ํ•œ ์ตœ์ดˆ์˜ ๋ฉ”ํƒ€ ํ‰๊ฐ€ ๋ฒค์น˜๋งˆํฌ์ธ WebRewardBench๋„ ๋„์ž…ํ–ˆ๋‹ค. ์‹คํ—˜ ๊ฒฐ๊ณผ, Web-Shepherd๋Š” WebRewardBench์—์„œ GPT-4o๋ณด๋‹ค ์•ฝ 30% ๋” ๋‚˜์€ ์ •ํ™•๋„๋ฅผ ๋‹ฌ์„ฑํ–ˆ์œผ๋ฉฐ, GPT-4o-mini๋ฅผ ์ •์ฑ…์œผ๋กœ ์‚ฌ์šฉํ•˜๊ณ  Web-Shepherd๋ฅผ ๊ฒ€์ฆ์ž๋กœ ์‚ฌ์šฉํ–ˆ์„ ๋•Œ ๋” ์ ์€ ๋น„์šฉ์œผ๋กœ๋„ ๋” ๋‚˜์€ ์„ฑ๋Šฅ์„ ๋ณด์—ฌ์ฃผ๋ฉฐ ์›น ์—์ด์ „ํŠธ์˜ ์‹ค์ œ ๋ฐฐํฌ ๊ฐ€๋Šฅ์„ฑ์„ ๋†’์ธ๋‹ค.

NovelSeek: When Agent Becomes the Scientist -- Building Closed-Loop System from Hypothesis to Verification

Paper, Project

์ด ๋…ผ๋ฌธ์€ ์ธ๊ณต์ง€๋Šฅ(AI)์ด ๊ณผํ•™ ์—ฐ๊ตฌ ํŒจ๋Ÿฌ๋‹ค์ž„์„ ๊ฐ€์†ํ™”ํ•˜๊ณ  ์žˆ์Œ์„ ๊ฐ•์กฐํ•˜๋ฉฐ, ๊ฐ€์„ค ์„ค์ •๋ถ€ํ„ฐ ๊ฒ€์ฆ๊นŒ์ง€ ์ž์œจ์ ์ธ ๊ณผํ•™ ์—ฐ๊ตฌ(ASR)๋ฅผ ์ˆ˜ํ–‰ํ•˜๋Š” ํ†ตํ•ฉ ํ์‡„ ๋ฃจํ”„ ๋ฉ€ํ‹ฐ ์—์ด์ „ํŠธ ํ”„๋ ˆ์ž„์›Œํฌ NovelSeek์„ ์†Œ๊ฐœํ•œ๋‹ค. NovelSeek์€ ํ™•์žฅ์„ฑ, ์ƒํ˜ธ์ž‘์šฉ์„ฑ, ํšจ์œจ์„ฑ์ด๋ผ๋Š” ์„ธ ๊ฐ€์ง€ ํ•ต์‹ฌ ์žฅ์ ์„ ๊ฐ–๋Š”๋‹ค. 12๊ฐ€์ง€ ๊ณผํ•™ ์—ฐ๊ตฌ ์ž‘์—…์—์„œ ํ˜์‹ ์ ์ธ ์•„์ด๋””์–ด๋ฅผ ์ƒ์„ฑํ•˜๊ณ , ์ธ๊ฐ„ ์ „๋ฌธ๊ฐ€ ํ”ผ๋“œ๋ฐฑ๊ณผ ๋ฉ€ํ‹ฐ ์—์ด์ „ํŠธ ์ƒํ˜ธ์ž‘์šฉ์„ ํ†ตํ•ด ๋„๋ฉ”์ธ ์ „๋ฌธ๊ฐ€ ์ง€์‹ ํ†ตํ•ฉ์„ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•œ๋‹ค. ๋˜ํ•œ, ์ธ๊ฐ„์˜ ๋…ธ๋ ฅ์— ๋น„ํ•ด ํ›จ์”ฌ ์ ์€ ์‹œ๊ฐ„์œผ๋กœ ์—ฌ๋Ÿฌ ๊ณผํ•™ ๋ถ„์•ผ์—์„œ ์œ ๋งํ•œ ์„ฑ๋Šฅ ํ–ฅ์ƒ์„ ๋‹ฌ์„ฑํ•˜์—ฌ AI๊ฐ€ ๊ณผํ•™ ์—ฐ๊ตฌ ํšจ์œจ์„ฑ์„ ํฌ๊ฒŒ ๋†’์ผ ์ˆ˜ ์žˆ์Œ์„ ์ž…์ฆํ•œ๋‹ค.

SageAttention3: Microscaling FP4 Attention for Inference and An Exploration of 8-Bit Training

Paper, Project

์ด ์—ฐ๊ตฌ๋Š” ์–ดํ…์…˜์˜ ํšจ์œจ์„ฑ์„ ๋†’์ด๊ธฐ ์œ„ํ•œ ๋‘ ๊ฐ€์ง€ ํ•ต์‹ฌ ๊ธฐ์—ฌ๋ฅผ ์ œ์‹œํ•œ๋‹ค. ์ฒซ์งธ, Blackwell GPU์˜ ์ƒˆ๋กœ์šด FP4 Tensor Cores๋ฅผ ํ™œ์šฉํ•˜์—ฌ ์–ดํ…์…˜ ๊ณ„์‚ฐ์„ ๊ฐ€์†ํ™”ํ•˜๋ฉฐ, ์ด๋Š” RTX5090์—์„œ ๊ฐ€์žฅ ๋น ๋ฅธ FlashAttention๋ณด๋‹ค 5๋ฐฐ ๋น ๋ฅธ ์†๋„๋ฅผ ๋ณด์—ฌ์ค€๋‹ค. ์ด FP4 ์–ดํ…์…˜์€ ๋‹ค์–‘ํ•œ ๋ชจ๋ธ์˜ ์ถ”๋ก ์— ํ”Œ๋Ÿฌ๊ทธ ์•ค ํ”Œ๋ ˆ์ด ๋ฐฉ์‹์œผ๋กœ ์ ์šฉ๋  ์ˆ˜ ์žˆ๋‹ค. ๋‘˜์งธ, ์ €๋น„ํŠธ ์–ดํ…์…˜(low-bit attention)์„ ํ•™์Šต ์ž‘์—…์— ์ ์šฉํ•˜๋Š” ์„ ๊ตฌ์ ์ธ ์‹œ๋„๋ฅผ ํ•œ๋‹ค. ๊ธฐ์กด ์—ฐ๊ตฌ๋“ค์ด ์ถ”๋ก ์—๋งŒ ์ดˆ์ ์„ ๋งž์ท„๋˜ ๊ฒƒ๊ณผ ๋‹ฌ๋ฆฌ, ์ˆœ๋ฐฉํ–ฅ ๋ฐ ์—ญ๋ฐฉํ–ฅ ์ „ํŒŒ ๋ชจ๋‘๋ฅผ ์œ„ํ•œ ์ •ํ™•ํ•˜๊ณ  ํšจ์œจ์ ์ธ 8๋น„ํŠธ ์–ดํ…์…˜์„ ์„ค๊ณ„ํ–ˆ๋‹ค. ์‹คํ—˜ ๊ฒฐ๊ณผ, 8๋น„ํŠธ ์–ดํ…์…˜์€ ๋ฏธ์„ธ ์กฐ์ • ์ž‘์—…์—์„œ ๋ฌด์†์‹ค ์„ฑ๋Šฅ์„ ๋‹ฌ์„ฑํ–ˆ์ง€๋งŒ, ์‚ฌ์ „ ํ•™์Šต ์ž‘์—…์—์„œ๋Š” ์ˆ˜๋ ด ์†๋„๊ฐ€ ๋А๋ ค์ง€๋Š” ๊ฒฝํ–ฅ์„ ๋ณด์˜€๋‹ค.

3D ์žฅ๋ฉด ํ‘œํ˜„ ๋ฐ ์ƒ์„ฑ ๋ถ„์•ผ

Hybrid 3D-4D Gaussian Splatting for Fast Dynamic Scene Representation

Paper, Project

์ด ์—ฐ๊ตฌ๋Š” ๋™์  3D ์žฅ๋ฉด ์žฌ๊ตฌ์„ฑ์„ ์œ„ํ•œ ์ƒˆ๋กœ์šด ํ”„๋ ˆ์ž„์›Œํฌ์ธ ํ•˜์ด๋ธŒ๋ฆฌ๋“œ 3D-4D ๊ฐ€์šฐ์‹œ์•ˆ ์Šคํ”Œ๋ž˜ํŒ…(3D-4DGS)์„ ์†Œ๊ฐœํ•œ๋‹ค. ๊ธฐ์กด 4D ๊ฐ€์šฐ์‹œ์•ˆ ์Šคํ”Œ๋ž˜ํŒ…(4DGS) ๋ฐฉ๋ฒ•์€ ์ •์  ์˜์—ญ์— 4D ๊ฐ€์šฐ์‹œ์•ˆ์„ ์ค‘๋ณต ํ• ๋‹นํ•˜์—ฌ ๊ณ„์‚ฐ ๋ฐ ๋ฉ”๋ชจ๋ฆฌ ์˜ค๋ฒ„ํ—ค๋“œ๋ฅผ ์ดˆ๋ž˜ํ•˜๋Š” ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•œ๋‹ค. 3D-4DGS๋Š” ์ •์  ์˜์—ญ์„ 3D ๊ฐ€์šฐ์‹œ์•ˆ์œผ๋กœ ์ ์‘์ ์œผ๋กœ ํ‘œํ˜„ํ•˜๊ณ  ๋™์  ์š”์†Œ์—๋งŒ 4D ๊ฐ€์šฐ์‹œ์•ˆ์„ ํ• ๋‹นํ•จ์œผ๋กœ์จ, ๋งค๊ฐœ๋ณ€์ˆ˜ ์ˆ˜๋ฅผ ํฌ๊ฒŒ ์ค„์ด๊ณ  ๊ณ„์‚ฐ ํšจ์œจ์„ฑ์„ ํ–ฅ์ƒ์‹œํ‚จ๋‹ค. ์ด ๋ฐฉ๋ฒ•์€ ์ „์ฒด 4D ๊ฐ€์šฐ์‹œ์•ˆ ํ‘œํ˜„์œผ๋กœ ์‹œ์ž‘ํ•˜์—ฌ ์‹œ๊ฐ„์ ์œผ๋กœ ๋ถˆ๋ณ€ํ•˜๋Š” ๊ฐ€์šฐ์‹œ์•ˆ์„ 3D๋กœ ์ ์ง„์ ์œผ๋กœ ๋ณ€ํ™˜ํ•œ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ๋ณต์žกํ•œ ์›€์ง์ž„์„ ๊ณ ํ™”์งˆ๋กœ ์บก์ฒ˜ํ•˜๋ฉด์„œ๋„ ๊ธฐ์กด 4DGS ๋ฐฉ๋ฒ•์— ๋น„ํ•ด ํ›ˆ๋ จ ์‹œ๊ฐ„์„ ํฌ๊ฒŒ ๋‹จ์ถ•ํ•˜๊ณ  ์‹œ๊ฐ์  ํ’ˆ์งˆ์„ ์œ ์ง€ํ•˜๊ฑฐ๋‚˜ ํ–ฅ์ƒ์‹œํ‚ค๋Š” ๊ฒฐ๊ณผ๋ฅผ ๋ณด์—ฌ์ค€๋‹ค.

Constructing a 3D Town from a Single Image

Paper, Project

์ด ์—ฐ๊ตฌ๋Š” ๋‹จ์ผ ์ƒ๋‹จ ์ด๋ฏธ์ง€์—์„œ ์‚ฌ์‹ค์ ์ด๊ณ  ์ผ๊ด€๋œ 3D ์žฅ๋ฉด์„ ํ•ฉ์„ฑํ•˜๋Š” ํ›ˆ๋ จ ์—†๋Š”(training-free) ํ”„๋ ˆ์ž„์›Œํฌ์ธ 3DTown์„ ์†Œ๊ฐœํ•œ๋‹ค. ์ƒ์„ธํ•œ 3D ์žฅ๋ฉด ํš๋“์ด ์ผ๋ฐ˜์ ์œผ๋กœ ๋†’์€ ๋น„์šฉ๊ณผ ๋ณต์žกํ•œ ๊ณผ์ •์„ ์š”๊ตฌํ•˜๋Š” ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด, 3DTown์€ ์ด๋ฏธ์ง€-3D ์ •๋ ฌ ๋ฐ ํ•ด์ƒ๋„ ๊ฐœ์„ ์„ ์œ„ํ•œ ์˜์—ญ ๊ธฐ๋ฐ˜ ์ƒ์„ฑ๊ณผ ์ „์—ญ ์žฅ๋ฉด ์ผ๊ด€์„ฑ ๋ฐ ๊ณ ํ’ˆ์งˆ ๊ธฐํ•˜ํ•™ ์ƒ์„ฑ์„ ๋ณด์žฅํ•˜๋Š” ๊ณต๊ฐ„ ์ธ์‹ 3D ์ธํŽ˜์ธํŒ…์ด๋ผ๋Š” ๋‘ ๊ฐ€์ง€ ์›์น™์— ๊ธฐ๋ฐ˜ํ•œ๋‹ค. ์ด ๋ฐฉ๋ฒ•์€ ์ž…๋ ฅ ์ด๋ฏธ์ง€๋ฅผ ์ค‘์ฒฉ๋œ ์˜์—ญ์œผ๋กœ ๋ถ„ํ•ดํ•˜๊ณ  ๊ฐ ์˜์—ญ์„ ์‚ฌ์ „ ํ•™์Šต๋œ 3D ๊ฐ์ฒด ์ƒ์„ฑ๊ธฐ๋กœ ์ƒ์„ฑํ•œ ๋‹ค์Œ, ๋งˆ์Šคํฌ๋œ ์ •๋ฅ˜ ์œ ๋™(rectified flow) ์ธํŽ˜์ธํŒ… ํ”„๋กœ์„ธ์Šค๋ฅผ ํ†ตํ•ด ๋ˆ„๋ฝ๋œ ๊ธฐํ•˜ํ•™์„ ์ฑ„์šด๋‹ค. ์ด ๋ชจ๋“ˆ์‹ ์„ค๊ณ„๋Š” 3D ๊ฐ๋…์ด๋‚˜ ๋ฏธ์„ธ ์กฐ์ • ์—†์ด๋„ ํ•ด์ƒ๋„ ๋ณ‘๋ชฉ ํ˜„์ƒ์„ ๊ทน๋ณตํ•˜๊ณ  ๊ณต๊ฐ„ ๊ตฌ์กฐ๋ฅผ ๋ณด์กดํ•  ์ˆ˜ ์žˆ๊ฒŒ ํ•˜๋ฉฐ, ๊ธฐ์กด ์ตœ์‹  ๋ชจ๋ธ๋“ค์„ ๋Šฅ๊ฐ€ํ•˜๋Š” ๊ณ ํ’ˆ์งˆ 3D ๋„์‹œ ์ƒ์„ฑ์„ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•œ๋‹ค.

profile
XR๊ณผ AI์— ๊ด€์‹ฌ์ด ๋งŽ์€ Sky ์ž…๋‹ˆ๋‹ค.

0๊ฐœ์˜ ๋Œ“๊ธ€