[2025/W15] ๐Ÿค— Weekly AI Research

Skyยท2025๋…„ 4์›” 12์ผ

Weekly AI Research Digest

๋ชฉ๋ก ๋ณด๊ธฐ
15/89

2025๋…„ 15์ฃผ์ฐจ์— ๊ณต๊ฐœ๋œ ์ฃผ๋ชฉํ• ๋งŒํ•œ AI ๋ถ„์•ผ์˜ ๋…ผ๋ฌธ๋“ค์„ ์†Œ๊ฐœํ•ฉ๋‹ˆ๋‹ค.

TL;DR

๋ชจ๋ธ ๊ฒฝ๋Ÿ‰ํ™” ๋ฐ ํšจ์œจ์„ฑ ๊ฐœ์„  ๋ถ„์•ผ์—์„œ SmolVLM ๋…ผ๋ฌธ์€ ๋Œ€ํ˜• VLM์˜ ์„ฑ๋Šฅ์„ ์œ ์ง€ํ•˜๋ฉด์„œ๋„ ์—ฐ์‚ฐ ๋ถ€๋‹ด๊ณผ GPU ๋ฉ”๋ชจ๋ฆฌ ์‚ฌ์šฉ๋Ÿ‰์„ ๊ทน์ ์œผ๋กœ ์ค„์ธ ์†Œํ˜• ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๋ชจ๋ธ์„ ์ œ์‹œํ•˜๊ณ , Hogwild! Inference ๋…ผ๋ฌธ์€ ์—ฌ๋Ÿฌ LLM ์ธ์Šคํ„ด์Šค๊ฐ€ ๋™์ผ ์–ดํ…์…˜ ์บ์‹œ๋ฅผ ๊ณต์œ ํ•˜๋ฉฐ ๋ณ‘๋ ฌ๋กœ ํ˜‘๋ ฅํ•ด ์ถ”๋ก  ์†๋„๋ฅผ ํš๊ธฐ์ ์œผ๋กœ ํ–ฅ์ƒ์‹œํ‚ค๋Š” ๋ฐฉ์‹์„ ์†Œ๊ฐœํ•˜๋ฉฐ, Kimi-VL ๋…ผ๋ฌธ์€ ์ œํ•œ๋œ ํŒŒ๋ผ๋ฏธํ„ฐ ํ™œ์„ฑํ™”๋กœ๋„ ๋ณต์žกํ•œ ์ด๋ฏธ์ง€์™€ ๋น„๋””์˜ค ์ดํ•ด ๋“ฑ ๋‹ค์–‘ํ•œ ์ž‘์—…์„ ํšจ์œจ์ ์œผ๋กœ ์ˆ˜ํ–‰ํ•˜๋Š” MoE ๊ธฐ๋ฐ˜ ๋น„์ „-์–ธ์–ด ๋ชจ๋ธ์„, Skywork R1V ๋…ผ๋ฌธ์€ ๊ฒฝ๋Ÿ‰ ๋น„์ฃผ์–ผ ํ”„๋กœ์ ํ„ฐ์™€ ๋™์  ์ฒด์ธ ์˜ค๋ธŒ ์”ฝํฌ ๊ธฐ๋ฒ•์„ ํ†ตํ•ด ์–ธ์–ด์™€ ์‹œ๊ฐ ๋ชจ๋‹ฌ๋ฆฌํ‹ฐ๋ฅผ ์ •๊ตํ•˜๊ฒŒ ์œตํ•ฉํ•œ ๋ชจ๋ธ์ž„์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.

์ƒ์„ฑ ๊ธฐ์ˆ  ๋ฐ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ฝ˜ํ…์ธ  ํ†ตํ•ฉ ๋ถ„์•ผ์—์„œ๋Š” OmniSVG ๋…ผ๋ฌธ์ด ์‚ฌ์ „ ํ•™์Šต๋œ ๋น„์ „-์–ธ์–ด ๋ชจ๋ธ์„ ํ™œ์šฉํ•ด ๋ณต์žกํ•œ SVG ๊ตฌ์กฐ๋ฅผ ๊ณ ํ’ˆ์งˆ๋กœ ์ƒ์„ฑํ•˜๋Š” ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ œ์•ˆํ•˜๊ณ , One-Minute Video Generation ๋…ผ๋ฌธ์€ Test-Time Training ๋ ˆ์ด์–ด๋ฅผ ๋„์ž…ํ•ด ํ…์ŠคํŠธ ์Šคํ† ๋ฆฌ๋ณด๋“œ ๊ธฐ๋ฐ˜ 1๋ถ„ ๋น„๋””์˜ค ์ƒ์„ฑ์„ ๊ฐ€๋Šฅ์ผ€ ํ•˜๋ฉฐ, DDT ๋…ผ๋ฌธ์€ ์˜๋ฏธ์™€ ์„ธ๋ถ€ ์ •๋ณด๋ฅผ ๋ถ„๋ฆฌํ•œ ๋””ํ“จ์ „ ํŠธ๋žœ์Šคํฌ๋จธ๋กœ ์ด๋ฏธ์ง€ ์ƒ์„ฑ์˜ ํ•™์Šต ์†๋„์™€ ํ’ˆ์งˆ์„ ํฌ๊ฒŒ ๊ฐœ์„ ํ–ˆ๊ณ , GPT-4o Image Generation ๋…ผ๋ฌธ์€ ํ†ตํ•ฉ ์ƒ์„ฑ ๋ชจ๋ธ๋กœ์„œ GPT-4o์˜ ๋‹ค์–‘ํ•œ ์ด๋ฏธ์ง€ ์ƒ์„ฑ ๋Šฅ๋ ฅ์„ ๋‹ค๊ฐ๋„๋กœ ํ‰๊ฐ€ํ•ฉ๋‹ˆ๋‹ค.

๋ชจ๋ธ ํ•ด์„ ๋ฐ ์ž๊ธฐ ๋ฐ˜์„ฑ ๋ถ„์•ผ์—์„œ Rethinking Reflection ๋…ผ๋ฌธ์€ ์–ธ์–ด ๋ชจ๋ธ์ด ํ•™์Šต ์ดˆ๊ธฐ๋ถ€ํ„ฐ ์Šค์Šค๋กœ ์˜ค๋ฅ˜๋ฅผ ์ธ์‹ํ•˜๊ณ  ์ˆ˜์ •ํ•˜๋Š” ๋ฐ˜์„ฑ ๋Šฅ๋ ฅ์„ ๋ณด์ธ๋‹ค๋Š” ์ ์„ ์‹คํ—˜์ ์œผ๋กœ ์ž…์ฆํ•˜๋ฉฐ, OLMoTrace ๋…ผ๋ฌธ์€ ๋ชจ๋ธ ์ถœ๋ ฅ์˜ ๊ทผ๊ฑฐ๋ฅผ ์ˆ˜์กฐ ํ† ํฐ ๊ทœ๋ชจ์˜ ํ•™์Šต ๋ฐ์ดํ„ฐ์™€ ์‹ค์‹œ๊ฐ„์œผ๋กœ ์ถ”์ ํ•ด ์ƒ์„ฑ ๊ฒฐ๊ณผ์˜ ํˆฌ๋ช…์„ฑ์„ ๋†’์ด๋Š” ์‹œ์Šคํ…œ์„ ๊ฐœ๋ฐœํ•จ์œผ๋กœ์จ, ์ „์ฒด์ ์œผ๋กœ AI ์—ฐ๊ตฌ์˜ ํšจ์œจ์  ๋ชจ๋ธ ์šด์˜, ์ฐฝ์˜์  ์ฝ˜ํ…์ธ  ์ƒ์„ฑ, ๊ทธ๋ฆฌ๊ณ  ๋ชจ๋ธ ์ž์ฒด์˜ ํ•ด์„ ๋Šฅ๋ ฅ ํ–ฅ์ƒ์ด๋ผ๋Š” ์„ธ ๊ฐ€์ง€ ์ฃผ์š” ๋ถ„์•ผ๋กœ ๋ฐœ์ „ํ•˜๊ณ  ์žˆ์Œ์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.

๋ชจ๋ธ ๊ฒฝ๋Ÿ‰ํ™” ๋ฐ ํšจ์œจ์„ฑ ๊ฐœ์„  ๋ถ„์•ผ

SmolVLM: Redefining small and efficient multimodal models

Paper, Project

๋Œ€๊ทœ๋ชจ ๋น„์ „-์–ธ์–ด ๋ชจ๋ธ(VLM)์€ ๋›ฐ์–ด๋‚œ ์„ฑ๋Šฅ์„ ์ž๋ž‘ํ•˜์ง€๋งŒ, ๋ง‰๋Œ€ํ•œ ๊ณ„์‚ฐ ์ž์›์„ ํ•„์š”๋กœ ํ•˜์—ฌ ๋ชจ๋ฐ”์ผ์ด๋‚˜ ์—ฃ์ง€ ๋””๋ฐ”์ด์Šค์— ์ ์šฉํ•˜๊ธฐ ์–ด๋ ต์Šต๋‹ˆ๋‹ค. ๊ธฐ์กด์˜ ์†Œํ˜• VLM๋“ค์€ ๋Œ€ํ˜• ๋ชจ๋ธ์˜ ์„ค๊ณ„ ๋ฐฉ์‹์„ ๊ทธ๋Œ€๋กœ ๋‹ต์Šตํ•˜์—ฌ ์ด๋ฏธ์ง€ ํ† ํฐํ™” ๊ณผ์ •์ด ์ง€๋‚˜์น˜๊ฒŒ ๋ณต์žกํ•ด GPU ๋ฉ”๋ชจ๋ฆฌ๋ฅผ ๋น„ํšจ์œจ์ ์œผ๋กœ ์‚ฌ์šฉํ•˜๋Š” ๋ฌธ์ œ๊ฐ€ ์žˆ์—ˆ์Šต๋‹ˆ๋‹ค. ์ด์— ์ €์ž๋“ค์€ ์—ฐ์‚ฐ ๋ถ€๋‹ด์„ ๋Œ€ํญ ์ค„์ธ SmolVLM ์‹œ๋ฆฌ์ฆˆ๋ฅผ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค. ๋ณธ ์—ฐ๊ตฌ์—์„œ๋Š” ์•„ํ‚คํ…์ฒ˜ ๊ตฌ์„ฑ, ํ† ํฐํ™” ์ „๋žต, ๋ฐ์ดํ„ฐ ๊ตฌ์„ฑ ๋“ฑ ์—ฌ๋Ÿฌ ์ธก๋ฉด์—์„œ ์ตœ์ ํ™”๋ฅผ ์‹œ๋„ํ•ด, ๋ฉ”๋ชจ๋ฆฌ ์‚ฌ์šฉ๋Ÿ‰์„ ์ตœ์†Œํ™”ํ•˜๋ฉด์„œ๋„ ์ด๋ฏธ์ง€ ๋ฐ ๋น„๋””์˜ค ์ž‘์—…์—์„œ ์šฐ์ˆ˜ํ•œ ์„ฑ๋Šฅ์„ ๋ฐœํœ˜ํ•  ์ˆ˜ ์žˆ๋Š” ํ•ต์‹ฌ ๋””์ž์ธ ์š”์†Œ๋“ค์„ ์ฐพ์•„๋ƒˆ์Šต๋‹ˆ๋‹ค. ๊ทธ ๊ฒฐ๊ณผ, ๊ฐ€์žฅ ์ž‘์€ SmolVLM-256M ๋ชจ๋ธ์€ 1GB ๋ฏธ๋งŒ์˜ GPU ๋ฉ”๋ชจ๋ฆฌ๋ฅผ ์‚ฌ์šฉํ•˜๋ฉด์„œ๋„ 300๋ฐฐ ํฐ ๋‹ค๋ฅธ ๋ชจ๋ธ๋ณด๋‹ค๋„ ์šฐ์ˆ˜ํ•œ ์„ฑ๋Šฅ์„ ๋ณด์˜€๊ณ , ๊ฐ€์žฅ ํฐ 2.2B ํŒŒ๋ผ๋ฏธํ„ฐ ๋ชจ๋ธ์€ ์ตœ์‹  VLM๋“ค๊ณผ ๊ฒฝ์Ÿํ•  ๋งŒํ•œ ์„ฑ๋Šฅ์„ ์œ ์ง€ํ•˜๋Š” ๋™์‹œ์— GPU ๋ฉ”๋ชจ๋ฆฌ ์‚ฌ์šฉ๋Ÿ‰์„ ์ ˆ๋ฐ˜์œผ๋กœ ์ค„์ด๋Š” ์„ฑ๊ณผ๋ฅผ ๋‹ฌ์„ฑํ•˜์˜€์Šต๋‹ˆ๋‹ค. ์ด์™€ ๊ฐ™์ด ์ „๋žต์ ์ธ ์•„ํ‚คํ…์ฒ˜ ์ตœ์ ํ™”์™€ ํšจ์œจ์ ์ธ ํ† ํฐํ™”, ์ •๊ตํ•˜๊ฒŒ ๊ตฌ์„ฑ๋œ ํ•™์Šต ๋ฐ์ดํ„ฐ์˜ ๊ฒฐํ•ฉ์ด ์‹ค์šฉ์ ์ด๊ณ  ์—๋„ˆ์ง€ ํšจ์œจ์ ์ธ ์†Œํ˜• ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๋ชจ๋ธ ๊ตฌํ˜„์— ํฐ ์—ญํ• ์„ ํ•จ์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.

Hogwild! Inference: Parallel LLM Generation via Concurrent Attention

Paper, Project

๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ(LLM)์€ ๋ณต์žกํ•œ ๋ฌธ์ œ ํ•ด๊ฒฐ๊ณผ ๊ธด ํ˜•์‹์˜ ์ฝ˜ํ…์ธ  ์ƒ์„ฑ์„ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•˜์ง€๋งŒ, ๊ทธ ๊ณผ์ •์—์„œ ๊ธด ์ถ”๋ก  ์‹œ๊ฐ„์ด ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค. ์ธ๊ฐ„์ด ํ˜‘์—…์„ ํ†ตํ•ด ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๋“ฏ, ์ตœ๊ทผ ์—ฐ๊ตฌ์—์„œ๋Š” ์—ฌ๋Ÿฌ LLM ์ธ์Šคํ„ด์Šค๊ฐ€ ๊ณต๋™์œผ๋กœ ์ž‘์—…ํ•  ์ˆ˜ ์žˆ๋Š” ํ˜‘๋ ฅ ์ฒด๊ณ„๋ฅผ ๋„์ž…ํ•˜๋ ค๋Š” ์‹œ๋„๊ฐ€ ์žˆ์—ˆ์Šต๋‹ˆ๋‹ค. ๋ณธ ๋…ผ๋ฌธ์—์„œ๋Š” ์—ฌ๋Ÿฌ ๊ฐœ์˜ LLM โ€˜์›Œ์ปคโ€™๋ฅผ ๋™์ผํ•œ ์–ดํ…์…˜ ์บ์‹œ๋ฅผ ๊ณต์œ ํ•˜๋ฉฐ ๋ณ‘๋ ฌ๋กœ ์‹คํ–‰ํ•˜๋„๋ก ํ•˜์—ฌ, ๊ฐ ์ธ์Šคํ„ด์Šค๊ฐ€ ์„œ๋กœ์˜ ์ง„ํ–‰ ์ƒํ™ฉ์„ ์‹ค์‹œ๊ฐ„์œผ๋กœ ํ™•์ธํ•˜๋ฉด์„œ ์ตœ์ ์˜ ํ˜‘์—… ์ „๋žต์„ ์Šค์Šค๋กœ ๊ฒฐ์ •ํ•  ์ˆ˜ ์žˆ๋„๋ก ํ•˜๋Š” โ€œHogwild! Inferenceโ€ ๋ฐฉ์‹์„ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค. ์ด ๋ฐฉ์‹์€ ๋กคํƒ€๋ฆฌ ์œ„์น˜ ์ž„๋ฒ ๋”ฉ(RoPE)์„ ํ™œ์šฉํ•ด ์žฌ๊ณ„์‚ฐ์„ ์ตœ์†Œํ™”ํ•˜๊ณ  ํ•˜๋“œ์›จ์–ด ์‚ฌ์šฉ ํšจ์œจ์„ ๋†’์ด๋Š” ํ•œํŽธ, ์ถ”๊ฐ€ ๋ฏธ์„ธ ์กฐ์ • ์—†์ด๋„ ํ˜„๋Œ€์  ์ถ”๋ก  ๋Šฅ๋ ฅ์„ ๊ฐ–์ถ˜ LLM๋“ค์ด ํšจ๊ณผ์ ์œผ๋กœ ๋ณ‘๋ ฌ ์ถ”๋ก ์„ ์ˆ˜ํ–‰ํ•  ์ˆ˜ ์žˆ์Œ์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.

Kimi-VL Technical Report

Paper, Project

์ด ๊ธฐ์ˆ  ๋ณด๊ณ ์„œ์—์„œ๋Š” Kimi-VL์ด๋ผ๋Š” ํšจ์œจ์ ์ด๊ณ  ์˜คํ”ˆ์†Œ์Šค์ธ ์ „๋ฌธ๊ฐ€ ํ˜ผํ•ฉ(MoE) ๊ธฐ๋ฐ˜ ๋น„์ „-์–ธ์–ด ๋ชจ๋ธ์„ ์†Œ๊ฐœํ•ฉ๋‹ˆ๋‹ค. Kimi-VL์€ 2.8B ํŒŒ๋ผ๋ฏธํ„ฐ๋งŒ ํ™œ์„ฑํ™”ํ•˜๋Š” ์–ธ์–ด ๋””์ฝ”๋”(Kimi-VL-A3B)๋ฅผ ์‚ฌ์šฉํ•˜๋ฉด์„œ๋„, ๋‹ค์ค‘ ํ„ด ์—์ด์ „ํŠธ ์ž‘์—…, ๋Œ€ํ•™ ์ˆ˜์ค€์˜ ์ด๋ฏธ์ง€ ๋ฐ ๋น„๋””์˜ค ์ดํ•ด, OCR, ์ˆ˜ํ•™์  ์ถ”๋ก , ๊ทธ๋ฆฌ๊ณ  ๋‹ค์ค‘ ์ด๋ฏธ์ง€ ์ฒ˜๋ฆฌ์™€ ๊ฐ™์€ ๋„์ „์ ์ธ ๊ณผ์ œ๋“ค์—์„œ ๋›ฐ์–ด๋‚œ ์„ฑ๋Šฅ์„ ๋ฐœํœ˜ํ•ฉ๋‹ˆ๋‹ค. ์‹ค์ œ ํ‰๊ฐ€์—์„œ๋Š” ์ตœ์‹ ์˜ ํšจ์œจ์  VLM๋“ค๊ณผ ๊ฒฌ์ฃผ์–ด๋„ ์†์ƒ‰์—†๋Š” ์„ฑ๋Šฅ์„ ๋ณด์ด๋ฉฐ, ์ผ๋ถ€ ์˜์—ญ์—์„œ๋Š” GPT-4o์กฐ์ฐจ๋„ ๋›ฐ์–ด๋„˜๋Š” ๊ฒฐ๊ณผ๋ฅผ ๊ธฐ๋กํ•˜์˜€์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ, 128K์˜ ํ™•์žฅ๋œ ๋ฌธ๋งฅ ์ฐฝ๊ณผ native ํ•ด์ƒ๋„์˜ ๋น„์ „ ์ธ์ฝ”๋” MoonViT๋ฅผ ํ†ตํ•ด ์žฅ์‹œ๊ฐ„์˜ ์ž…๋ ฅ๊ณผ ๊ณ ํ•ด์ƒ๋„ ๋น„์ฃผ์–ผ ๋ฐ์ดํ„ฐ๋ฅผ ํšจ์œจ์ ์œผ๋กœ ์ฒ˜๋ฆฌํ•˜๋ฉฐ, ๊ณ„์‚ฐ ๋น„์šฉ๋„ ๋‚ฎ๊ฒŒ ์œ ์ง€ํ•ฉ๋‹ˆ๋‹ค. ๋”๋ถˆ์–ด, ์žฅ๊ธฐ์  ์ถ”๋ก  ๋Šฅ๋ ฅ์„ ๊ฐ•ํ™”ํ•œ Kimi-VL-Thinking ๋ชจ๋ธ์€ ์ฒด์ธ ์˜ค๋ธŒ ์”ฝํฌ ๊ธฐ๋ฐ˜์˜ ๊ฐ๋… ํ•™์Šต๊ณผ ๊ฐ•ํ™” ํ•™์Šต์„ ํ†ตํ•ด ํ•œ์ธต ๋” ๋ฐœ์ „๋œ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๋ฌธ์ œ ํ•ด๊ฒฐ ๋Šฅ๋ ฅ์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.

Skywork R1V: Pioneering Multimodal Reasoning with Chain-of-Thought

Paper, Project

Skywork R1V ๋…ผ๋ฌธ์€ ๊ธฐ์กด์˜ R1 ์‹œ๋ฆฌ์ฆˆ ์–ธ์–ด ๋ชจ๋ธ์„ ๋ฐ”ํƒ•์œผ๋กœ ์‹œ๊ฐ์  ์ •๋ณด๋ฅผ ํšจ์œจ์ ์œผ๋กœ ์œตํ•ฉํ•  ์ˆ˜ ์žˆ๋Š” ๋ฐฉ๋ฒ•์„ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค. ๊ฒฝ๋Ÿ‰์˜ ๋น„์ฃผ์–ผ ํ”„๋กœ์ ํ„ฐ๋ฅผ ํ™œ์šฉํ•˜์—ฌ ์–ธ์–ด ๋ชจ๋ธ๊ณผ ๋น„์ „ ์ธ์ฝ”๋”๋ฅผ ์žฌํ•™์Šต์‹œํ‚ค์ง€ ์•Š๊ณ ๋„ ๋‘ ๋ชจ๋‹ฌ๋ฆฌํ‹ฐ ๊ฐ„์˜ ์ •๋ ฌ์„ ๊ฐ•ํ™”ํ•  ์ˆ˜ ์žˆ์œผ๋ฉฐ, ๋ฐ˜๋ณต์  ๊ฐ๋… ํ•™์Šต(SFT)๊ณผ ๊ทธ๋ฃน ์ƒ๋Œ€ ์ •์ฑ… ์ตœ์ ํ™”(GRPO)๋ฅผ ๊ฒฐํ•ฉํ•œ ํ•˜์ด๋ธŒ๋ฆฌ๋“œ ์ตœ์ ํ™” ์ „๋žต์„ ํ†ตํ•ด ์‹œ๊ฐ-ํ…์ŠคํŠธ ์œตํ•ฉ ํšจ์œจ์„ ๋†’์˜€์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ, ์ถ”๋ก  ๊ณผ์ •์—์„œ ํ•„์š”์— ๋”ฐ๋ผ ์ถ”๋ก  ์ฒด์ธ์˜ ๊ธธ์ด๋ฅผ ๋™์ ์œผ๋กœ ์ตœ์ ํ™”ํ•˜๋Š” ์ ์‘ํ˜• ์ฒด์ธ ์˜ค๋ธŒ ์”ฝํฌ ์ฆ๋ฅ˜ ๊ธฐ๋ฒ•์„ ๋„์ž…ํ•˜์—ฌ ๋ถˆํ•„์š”ํ•œ ๊ณผ๋„ํ•œ ์‚ฌ๊ณ  ๊ณผ์ •์„ ๋ฐฉ์ง€ํ•˜์˜€์Šต๋‹ˆ๋‹ค. ์ด๋กœ์จ 38B ํŒŒ๋ผ๋ฏธํ„ฐ ์ˆ˜์ค€์˜ ๋ชจ๋ธ์ž„์—๋„ ๋ถˆ๊ตฌํ•˜๊ณ , ๋‹ค์–‘ํ•œ ๋ฒค์น˜๋งˆํฌ์—์„œ ์šฐ์ˆ˜ํ•œ ์„ฑ๋Šฅ์„ ๋‹ฌ์„ฑํ•˜๋ฉฐ ํ…์ŠคํŠธ์™€ ์‹œ๊ฐ ์ •๋ณด๋ฅผ ๋ชจ๋‘ ํšจ๊ณผ์ ์œผ๋กœ ์ฒ˜๋ฆฌํ•จ์„ ์ž…์ฆํ•˜์˜€์Šต๋‹ˆ๋‹ค. ๋ชจ๋ธ ๊ฐ€์ค‘์น˜์˜ ๊ณต๊ฐœ๋Š” ํˆฌ๋ช…์„ฑ๊ณผ ์žฌํ˜„์„ฑ์„ ์ด‰์ง„ํ•˜๋Š” ๊ธ์ •์ ์ธ ์—ญํ• ์„ ํ•˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค.

์ƒ์„ฑ ๊ธฐ์ˆ  ๋ฐ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ฝ˜ํ…์ธ  ํ†ตํ•ฉ ๋ถ„์•ผ

OmniSVG: A Unified Scalable Vector Graphics Generation Model

Paper, Project

SVG๋Š” ํ•ด์ƒ๋„์— ๊ตฌ์• ๋ฐ›์ง€ ์•Š๊ณ  ํŽธ์ง‘์ด ์šฉ์ดํ•œ ์ด๋ฏธ์ง€ ํฌ๋งท์œผ๋กœ, ๊ทธ๋ž˜ํ”ฝ ๋””์ž์ธ ๋ถ„์•ผ์—์„œ ๋„๋ฆฌ ์‚ฌ์šฉ๋˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ๊ธฐ์กด์˜ SVG ์ƒ์„ฑ ๋ฐฉ๋ฒ•๋“ค์€ ๊ตฌ์กฐ๊ฐ€ ๋ถˆ์•ˆ์ •ํ•˜๊ฑฐ๋‚˜ ๊ณ„์‚ฐ ๋น„์šฉ์ด ํฌ๊ณ , ๋‹จ์ˆœํ•œ ํ‘๋ฐฑ ์•„์ด์ฝ˜ ์ •๋„๋กœ๋งŒ ์ œํ•œ๋˜๋Š” ํ•œ๊ณ„๊ฐ€ ์žˆ์—ˆ์Šต๋‹ˆ๋‹ค. ์ด๋ฅผ ๊ทน๋ณตํ•˜๊ธฐ ์œ„ํ•ด ์ €์ž๋“ค์€ ์‚ฌ์ „ ํ•™์Šต๋œ ๋น„์ „-์–ธ์–ด ๋ชจ๋ธ์„ ํ™œ์šฉํ•˜๋Š” ํ†ตํ•ฉ ํ”„๋ ˆ์ž„์›Œํฌ, OmniSVG๋ฅผ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค. OmniSVG๋Š” SVG ๋ช…๋ น์–ด์™€ ์ขŒํ‘œ๋ฅผ ์ด์‚ฐ ํ† ํฐ์œผ๋กœ ๋งค๊ฐœ๋ณ€์ˆ˜ํ™”ํ•˜์—ฌ, ๋ณต์žกํ•œ SVG์˜ ๊ตฌ์กฐ์  ํ‘œํ˜„๋ ฅ์„ ์œ ์ง€ํ•˜๋ฉด์„œ๋„ ๊ธฐํ•˜ํ•™์  ์„ธ๋ถ€์‚ฌํ•ญ๊ณผ์˜ ๊ฒฐํ•ฉ์„ ํšจ์œจ์ ์œผ๋กœ ์ฒ˜๋ฆฌํ•ฉ๋‹ˆ๋‹ค. ๋”๋ถˆ์–ด 200๋งŒ ๊ฐœ ์ด์ƒ์˜ ํ’๋ถ€ํ•˜๊ฒŒ ์ฃผ์„๋œ SVG ์—์…‹์œผ๋กœ ๊ตฌ์„ฑ๋œ MMSVG-2M ๋ฐ์ดํ„ฐ์…‹๊ณผ ํ‘œ์ค€ํ™”๋œ ํ‰๊ฐ€ ํ”„๋กœํ† ์ฝœ์„ ๋„์ž…ํ•˜์—ฌ, ๊ธฐ์กด ๋ฐฉ๋ฒ•๋ณด๋‹ค ์›”๋“ฑํ•œ ์„ฑ๋Šฅ๊ณผ ์ „๋ฌธ์ ์ธ ๋””์ž์ธ ์›Œํฌํ”Œ๋กœ์šฐ์—์˜ ํ†ตํ•ฉ ๊ฐ€๋Šฅ์„ฑ์„ ์ž…์ฆํ•˜์˜€์Šต๋‹ˆ๋‹ค.

One-Minute Video Generation with Test-Time Training

Paper, Project

๋น„๋””์˜ค ์ƒ์„ฑ์— ์žˆ์–ด ํŠธ๋žœ์Šคํฌ๋จธ ๋ชจ๋ธ์€ ๊ธด ๋ฌธ๋งฅ์„ ์ฒ˜๋ฆฌํ•˜๋Š” ์ž๊ฐ€ ์ฃผ์˜ ๋ฉ”์ปค๋‹ˆ์ฆ˜ ๋•Œ๋ฌธ์— 1๋ถ„ ๊ธธ์ด์˜ ๋น„๋””์˜ค๋ฅผ ์ƒ์„ฑํ•˜๋Š” ๋ฐ ์–ด๋ ค์›€์„ ๊ฒช์Šต๋‹ˆ๋‹ค. ๊ธฐ์กด์˜ ๋Œ€์ฒด ๊ธฐ๋ฒ•๋“ค๋„ ๋ณต์žกํ•œ ๋‹ค์ค‘ ์žฅ๋ฉด ์Šคํ† ๋ฆฌ๋ฅผ ์ œ๋Œ€๋กœ ํ‘œํ˜„ํ•˜๊ธฐ์— ํ•œ๊ณ„๊ฐ€ ์žˆ์—ˆ์Šต๋‹ˆ๋‹ค. ์ด์— ์—ฐ๊ตฌ์ง„์€ Test-Time Training(TTT) ๋ ˆ์ด์–ด๋ฅผ ๋„์ž…ํ•˜์˜€์Šต๋‹ˆ๋‹ค. TTT ๋ ˆ์ด์–ด๋Š” ์ž์ฒด ๋‚ด์˜ ์ˆจ๊ฒจ์ง„ ์ƒํƒœ๊ฐ€ ์‹ ๊ฒฝ๋ง์œผ๋กœ ๊ตฌ์„ฑ๋˜์–ด ์žˆ์–ด ํ‘œํ˜„๋ ฅ์ด ๋›ฐ์–ด๋‚˜, ์‚ฌ์ „ ํ•™์Šต๋œ ํŠธ๋žœ์Šคํฌ๋จธ์— ์ด๋ฅผ ์ถ”๊ฐ€ํ•จ์œผ๋กœ์จ ํ…์ŠคํŠธ ์Šคํ† ๋ฆฌ๋ณด๋“œ ๊ธฐ๋ฐ˜์˜ 1๋ถ„ ๊ธธ์ด ๋น„๋””์˜ค ์ƒ์„ฑ์ด ๊ฐ€๋Šฅํ•ด์กŒ์Šต๋‹ˆ๋‹ค. ํ†ฐ๊ณผ ์ œ๋ฆฌ ๋งŒํ™”๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ํ•œ ๋ฐ์ดํ„ฐ์…‹์„ ํ™œ์šฉํ•œ ์‹คํ—˜์—์„œ๋Š”, TTT ๋ ˆ์ด์–ด๋ฅผ ํฌํ•จํ•œ ๋ชจ๋ธ์ด ๊ธฐ์กด ๊ธฐ๋ฒ•์— ๋น„ํ•ด ํ›จ์”ฌ ์ผ๊ด€๋˜๊ณ  ๋ณต์žกํ•œ ์Šคํ† ๋ฆฌ๋ฅผ ๋‹ด์€ ๋น„๋””์˜ค๋ฅผ ์ƒ์„ฑํ•˜๋ฉฐ ์ธ๊ฐ„ ํ‰๊ฐ€์—์„œ ์œ ์˜๋ฏธํ•œ ์ ์ˆ˜ ์ฐจ์ด๋ฅผ ๋ณด์˜€์Šต๋‹ˆ๋‹ค. ๋น„๋ก ์ผ๋ถ€ ์•„ํ‹ฐํŒฉํŠธ๊ฐ€ ์กด์žฌํ•˜๊ณ  ํšจ์œจ์„ฑ ๊ฐœ์„ ์˜ ์—ฌ์ง€๊ฐ€ ์žˆ์œผ๋‚˜, ์ด ์ ‘๊ทผ๋ฒ•์€ ์•ž์œผ๋กœ ๋” ๊ธด ๋น„๋””์˜ค์™€ ๋ณต์žกํ•œ ์„œ์‚ฌ์—๋„ ํ™•์žฅ ๊ฐ€๋Šฅํ•จ์„ ์‹œ์‚ฌํ•ฉ๋‹ˆ๋‹ค.

DDT: Decoupled Diffusion Transformer

Paper, Project

๋””ํ“จ์ „ ํŠธ๋žœ์Šคํฌ๋จธ๋Š” ๋›ฐ์–ด๋‚œ ์ƒ์„ฑ ํ’ˆ์งˆ์„ ์ž๋ž‘ํ•˜์ง€๋งŒ, ๊ธด ํ•™์Šต ์‹œ๊ฐ„๊ณผ ๋‹ค์ˆ˜์˜ ์ถ”๋ก  ๋‹จ๊ณ„๋ฅผ ์š”๊ตฌํ•˜๋Š” ๋‹จ์ ์ด ์žˆ์Šต๋‹ˆ๋‹ค. ๊ธฐ์กด ๋ฐฉ์‹์€ ๋…ธ์ด์ฆˆ ์ œ๊ฑฐ ๊ณผ์ •์—์„œ ์ €์ฃผํŒŒ ์˜๋ฏธ ์ •๋ณด์™€ ๊ณ ์ฃผํŒŒ ์„ธ๋ถ€ ์ •๋ณด๋ฅผ ๋™์ผํ•œ ๋ชจ๋“ˆ๋กœ ์ฒ˜๋ฆฌํ•จ์œผ๋กœ์จ ๋‘ ๋ชฉํ‘œ ๊ฐ„์— ์ตœ์ ํ™” ๋”œ๋ ˆ๋งˆ๊ฐ€ ๋ฐœ์ƒํ•ฉ๋‹ˆ๋‹ค. ์ด๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด ์ €์ž๋“ค์€ ์˜๋ฏธ ์ •๋ณด๋ฅผ ์ถ”์ถœํ•˜๋Š” ์ „์šฉ ์กฐ๊ฑด ์ธ์ฝ”๋”์™€ ๊ณ ์ฃผํŒŒ ๋ณต์›์— ์ตœ์ ํ™”๋œ ์†๋„ ๋””์ฝ”๋”๋ฅผ ๋ถ„๋ฆฌํ•œ Decoupled Diffusion Transformer(DDT)๋ฅผ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค. ์‹คํ—˜ ๊ฒฐ๊ณผ, ์ธ์ฝ”๋”์˜ ๊ทœ๋ชจ๊ฐ€ ์ปค์งˆ์ˆ˜๋ก ์„ฑ๋Šฅ ํ–ฅ์ƒ์ด ๋‘๋“œ๋Ÿฌ์กŒ์œผ๋ฉฐ, DDT-XL/2 ๋ชจ๋ธ์€ 256ร—256 ์ด๋ฏธ์ง€ ์ƒ์„ฑ์—์„œ 1.31์˜ FID๋ฅผ ๊ธฐ๋กํ•˜๋ฉฐ ์ด์ „ ๊ธฐ๋ฒ• ๋Œ€๋น„ ์•ฝ 4๋ฐฐ ๋น ๋ฅธ ํ•™์Šต ์ˆ˜๋ ด ์†๋„๋ฅผ ๋ณด์˜€์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ ๋ถ„๋ฆฌ๋œ ๊ตฌ์กฐ ๋•๋ถ„์— ์ธ์ ‘ํ•œ ๋…ธ์ด์ฆˆ ์ œ๊ฑฐ ๋‹จ๊ณ„ ๊ฐ„์˜ ์กฐ๊ฑด ๊ณต์œ ๊ฐ€ ๊ฐ€๋Šฅํ•ด์ ธ ์ถ”๋ก  ์†๋„ ์—ญ์‹œ ๊ฐœ์„ ๋˜์—ˆ๊ณ , ์ตœ์ ์˜ ์กฐ๊ฑด ๊ณต์œ  ์ „๋žต์„ ์œ„ํ•œ ์ƒˆ๋กœ์šด ๋™์  ๊ณ„ํš๋ฒ• ์ ‘๊ทผ๋ฒ•๋„ ํ•จ๊ป˜ ์ œ์•ˆ๋˜์—ˆ์Šต๋‹ˆ๋‹ค.

An Empirical Study of GPT-4o Image Generation Capabilities

Paper

์ตœ๊ทผ ์ด๋ฏธ์ง€ ์ƒ์„ฑ ๊ธฐ์ˆ ์€ GAN, ๋””ํ“จ์ „ ๋ชจ๋ธ์„ ๋„˜์–ด ํ…์ŠคํŠธ์™€ ์ด๋ฏธ์ง€๋ฅผ ๋™์‹œ์— ์ดํ•ดํ•˜๊ณ  ์ƒ์„ฑํ•  ์ˆ˜ ์žˆ๋Š” ํ†ตํ•ฉ ์ƒ์„ฑ ๋ชจ๋ธ๋กœ ๋ฐœ์ „ํ•˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. ์ด ๋…ผ๋ฌธ์€ GPT-4o์˜ ์ด๋ฏธ์ง€ ์ƒ์„ฑ ๋Šฅ๋ ฅ์„ ์ฒด๊ณ„์ ์œผ๋กœ ํ‰๊ฐ€ํ•˜์—ฌ, ํ…์ŠคํŠธ-์ด๋ฏธ์ง€ ๋ณ€ํ™˜, ์ด๋ฏธ์ง€-์ด๋ฏธ์ง€ ๋ณ€ํ™˜, ์ด๋ฏธ์ง€-3D ๋ณ€ํ™˜, ๊ทธ๋ฆฌ๊ณ  ๊ธฐํƒ€ ๋‹ค์–‘ํ•œ ์ด๋ฏธ์ง€ ๋ณ€ํ™˜ ์ž‘์—… ๋“ฑ ์ด 20๊ฐœ ์ด์ƒ์˜ ๊ณผ์ œ๋ฅผ ๋Œ€์ƒ์œผ๋กœ, GPT-4o๊ฐ€ ๋‹ค๋ฅธ ์˜คํ”ˆ์†Œ์Šค ๋ฐ ์ƒ์—…์šฉ ๋ชจ๋ธ๋“ค๊ณผ ๋น„๊ตํ•˜์—ฌ ์–ด๋–ค ๊ฐ•์ ๊ณผ ํ•œ๊ณ„๋ฅผ ๊ฐ€์ง€๊ณ  ์žˆ๋Š”์ง€๋ฅผ ๋ถ„์„ํ•˜์˜€์Šต๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด GPT-4o๊ฐ€ ํ†ตํ•ฉ ์ƒ์„ฑ ๋ชจ๋ธ๋กœ์„œ ์ง€๋‹ˆ๋Š” ์ž ์žฌ๋ ฅ์„ ํ™•์ธํ•˜๊ณ , ํ–ฅํ›„ ๋ชจ๋ธ์˜ ๊ตฌ์กฐ ์„ค๊ณ„์™€ ๋ฐ์ดํ„ฐ ํ™•์žฅ์ด ์ค‘์š”ํ•œ ๋ฐœ์ „ ๋ฐฉํ–ฅ์ž„์„ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค.

๋ชจ๋ธ ํ•ด์„ ๋ฐ ์ž๊ธฐ ๋ฐ˜์„ฑ ๋ถ„์•ผ

Rethinking Reflection in Pre-Training

Paper, Project

๋ณธ ๋…ผ๋ฌธ์€ ์–ธ์–ด ๋ชจ๋ธ์ด ๋ณต์žกํ•œ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•  ๋•Œ, ์Šค์Šค๋กœ์˜ ์ถ”๋ก  ๊ณผ์ •์„ ๋˜๋Œ์•„๋ณด๊ณ  ์ˆ˜์ •ํ•˜๋Š” '๋ฐ˜์„ฑ(reflection)' ๋Šฅ๋ ฅ์ด ์ค‘์š”ํ•œ ์—ญํ• ์„ ํ•œ๋‹ค๋Š” ์ ์— ์ฃผ๋ชฉํ•ฉ๋‹ˆ๋‹ค. ์ €์ž๋“ค์€ ์ฒด์ธ ์˜ค๋ธŒ ์”ฝํฌ ๋‚ด๋ถ€์— ์ผ๋ถ€๋Ÿฌ ์˜ค๋ฅ˜๋ฅผ ์ฃผ์ž…ํ•œ ํ›„, ๋ชจ๋ธ์ด ์ด ์˜ค๋ฅ˜๋ฅผ ์ธ์‹ํ•˜๊ณ  ์˜ฌ๋ฐ”๋ฅธ ๋‹ต๋ณ€์œผ๋กœ ์ˆ˜์ •ํ•  ์ˆ˜ ์žˆ๋Š”์ง€๋ฅผ ์‹คํ—˜ํ•˜์˜€์Šต๋‹ˆ๋‹ค. ์‹คํ—˜ ๊ฒฐ๊ณผ, ๋ชจ๋ธ์€ ํ•™์Šต ์ดˆ๊ธฐ ๋‹จ๊ณ„๋ถ€ํ„ฐ ์ž๊ธฐ ์ˆ˜์ • ๋Šฅ๋ ฅ์„ ๋ณด์˜€์œผ๋ฉฐ, ํ•™์Šต์ด ์ง„ํ–‰๋จ์— ๋”ฐ๋ผ ์ด ๋Šฅ๋ ฅ์ด ์ง€์†์ ์œผ๋กœ ํ–ฅ์ƒ๋จ์„ ํ™•์ธํ•  ์ˆ˜ ์žˆ์—ˆ์Šต๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, 4์กฐ ํ† ํฐ์— ์ด๋ฅด๋Š” ๋Œ€๊ทœ๋ชจ ๋ฐ์ดํ„ฐ๋กœ ์‚ฌ์ „ ํ•™์Šต๋œ OLMo2-7B ๋ชจ๋ธ์€ ์—ฌ์„ฏ ๊ฐ€์ง€ ๋ฐ˜์„ฑ ๊ณผ์ œ์—์„œ ์„ฑ๊ณต์ ์œผ๋กœ ์ž๊ธฐ ๊ต์ • ๋Šฅ๋ ฅ์„ ๋ฐœํœ˜ํ•˜์˜€์Šต๋‹ˆ๋‹ค.

OLMoTrace: Tracing Language Model Outputs Back to Trillions of Training Tokens

Paper, Project

OLMoTrace๋Š” ์–ธ์–ด ๋ชจ๋ธ์ด ์ƒ์„ฑํ•œ ์ถœ๋ ฅ ๊ฒฐ๊ณผ๋ฅผ ์‹ค์‹œ๊ฐ„์œผ๋กœ ์ˆ˜์กฐ ๊ฐœ์˜ ํ•™์Šต ํ† ํฐ๊นŒ์ง€ ์ถ”์ ํ•  ์ˆ˜ ์žˆ๋Š” ์ตœ์ดˆ์˜ ์‹œ์Šคํ…œ์ž…๋‹ˆ๋‹ค. ์ด ์‹œ์Šคํ…œ์€ ๋ชจ๋ธ ์ถœ๋ ฅ๊ณผ ํ•™์Šต ๋ฐ์ดํ„ฐ ์‚ฌ์ด์˜ ์™„์ „ํ•œ ์ผ์น˜ ๋ถ€๋ถ„์„ ์‹ ์†ํ•˜๊ฒŒ ์ฐพ์•„๋‚ด์–ด ๋ช‡ ์ดˆ ์•ˆ์— ๊ฒฐ๊ณผ๋ฅผ ์ œ๊ณตํ•˜๋ฉฐ, ์‚ฌ์šฉ์ž๊ฐ€ ์–ธ์–ด ๋ชจ๋ธ์ด ์–ด๋–ค ๊ทผ๊ฑฐ ๋ฐ์ดํ„ฐ๋ฅผ ๋ฐ”ํƒ•์œผ๋กœ ๋‹ต๋ณ€์„ ์ƒ์„ฑํ•˜๋Š”์ง€ ํ™•์ธํ•  ์ˆ˜ ์žˆ๋„๋ก ๋„์™€์ค๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ์‚ฌ์‹ค ํ™•์ธ, ํ™˜๊ฐ ๋ฌธ์ œ ๋ถ„์„, ๊ทธ๋ฆฌ๊ณ  ์ฐฝ์˜์  ์ƒ์„ฑ ์›์ฒœ ํƒ๊ตฌ ๋“ฑ ๋‹ค์–‘ํ•œ ์šฉ๋„๋กœ ํ™œ์šฉ๋  ์ˆ˜ ์žˆ์œผ๋ฉฐ, ๊ณต๊ฐœ๋œ ์˜คํ”ˆ์†Œ์Šค ๋„๊ตฌ๋กœ์จ ์—ฐ๊ตฌ์ž์™€ ์‚ฌ์šฉ์ž๊ฐ€ ์–ธ์–ด ๋ชจ๋ธ์˜ ์ž‘๋™ ์›๋ฆฌ๋ฅผ ๋ณด๋‹ค ํˆฌ๋ช…ํ•˜๊ฒŒ ์ดํ•ดํ•  ์ˆ˜ ์žˆ๋„๋ก ์ง€์›ํ•ฉ๋‹ˆ๋‹ค.

profile
XR๊ณผ AI์— ๊ด€์‹ฌ์ด ๋งŽ์€ Sky ์ž…๋‹ˆ๋‹ค.

0๊ฐœ์˜ ๋Œ“๊ธ€