[2025/W09] ๐Ÿค— Weekly AI Research

Skyยท2025๋…„ 3์›” 1์ผ

Weekly AI Research Digest

๋ชฉ๋ก ๋ณด๊ธฐ
9/89

2025๋…„ 9์ฃผ์ฐจ์— ๊ณต๊ฐœ๋œ ์ฃผ๋ชฉํ• ๋งŒํ•œ AI ๋ถ„์•ผ์˜ ๋…ผ๋ฌธ๋“ค์„ ์†Œ๊ฐœํ•ฉ๋‹ˆ๋‹ค.

TL;DR

LLM ํ•ด์„ ๋ถ„์•ผ์—์„œ๋Š” LLM-Microscope๋ฅผ ํ†ตํ•ด ๊ธฐ์กด์—๋Š” ์ค‘์š”ํ•˜์ง€ ์•Š๋‹ค๊ณ  ์—ฌ๊ฒจ์ง„ ๊ด€์‚ฌ, ์‰ผํ‘œ ๋“ฑ์˜ ์‚ฌ์†Œํ•œ ํ† ํฐ์ด ์‹ค์ œ๋กœ ๋งฅ๋ฝ ์œ ์ง€์— ํ•„์ˆ˜์ ์ž„์„ ๋ฐํ˜€๋ƒˆ์œผ๋ฉฐ, SWE-RL๊ณผ ์ž๊ธฐ ๋ณด์ƒ ๊ธฐ๋ฐ˜ ์ˆ˜ํ•™ ์ถ”๋ก  ๊ฐ•ํ™” ๋ฐฉ๋ฒ•์ฒ˜๋Ÿผ ๊ฐ•ํ™”ํ•™์Šต๊ณผ ์ž์ฒด ์˜ค๋ฅ˜ ์ˆ˜์ •์„ ์ด์šฉํ•ด LLM์˜ ์ถ”๋ก  ๋Šฅ๋ ฅ์„ ํš๊ธฐ์ ์œผ๋กœ ํ–ฅ์ƒ์‹œํ‚ค๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ, LLM์˜ ๊ธด ๋งฅ๋ฝ(long-context)์˜ ์ฒ˜๋ฆฌ ๋Šฅ๋ ฅ์„ ๊ตฌ์กฐ, ์ธํ”„๋ผ, ํ›ˆ๋ จ ๋ฐ ํ‰๊ฐ€ ๊ด€์ ์—์„œ ์ข…ํ•ฉ์ ์œผ๋กœ ๋ถ„์„ํ•˜์—ฌ, ์žฅ๊ธฐ ๋งฅ๋ฝ ์ฒ˜๋ฆฌ๋ฅผ ์œ„ํ•œ ์—ฐ๊ตฌ ๋ฐฉํ–ฅ์„ฑ์„ ์ฒด๊ณ„์ ์œผ๋กœ ์ œ์‹œํ–ˆ์Šต๋‹ˆ๋‹ค.

๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๋ถ„์•ผ์—์„œ๋Š” OmniAlign-V์™€ MedVLM-R1์ด ์ธ๊ฐ„ ์„ ํ˜ธ๋„ ๋ฐ ์„ค๋ช… ๊ฐ€๋Šฅ์„ฑ ํ–ฅ์ƒ์„ ๋ชฉํ‘œ๋กœ ๋ฐœ์ „ํ•˜๊ณ  ์žˆ๊ณ , VideoGrain ๋ฐ GHOST 2.0์€ ์˜์ƒ ๋‚ด ๊ฐ์ฒด ๋ฐ ์ธ๋ฌผ์˜ ์ •๊ตํ•œ ํŽธ์ง‘ ๊ธฐ์ˆ ์„ ์ œ์‹œํ–ˆ์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ, DICEPTION์€ ์†Œ๋Ÿ‰ ๋ฐ์ดํ„ฐ๋กœ ์—ฌ๋Ÿฌ ์‹œ๊ฐ ์ธ์ง€ ์ž‘์—…์„ ํ†ตํ•ฉ์ ์œผ๋กœ ์ˆ˜ํ–‰ํ•˜๋Š” ํ™•์‚ฐ ๋ชจ๋ธ์„ ์ œ์•ˆํ–ˆ์Šต๋‹ˆ๋‹ค.

ํšจ์œจ์ ์ธ ํ•™์Šต ์ธก๋ฉด์—์„œ๋Š” Slamming์ด ๋‹จ ํ•˜๋‚˜์˜ GPU๋กœ ํ•˜๋ฃจ ๋งŒ์— ์Œ์„ฑ ์–ธ์–ด ๋ชจ๋ธ(SLM)์„ ํ•™์Šตํ•˜๋Š” ํ˜์‹ ์ ์ธ ๋ฐฉ๋ฒ•์„ ์ œ์‹œํ–ˆ๊ณ , SpargeAttn์€ ํฌ์†Œ ์–ดํ…์…˜์„ ํ†ตํ•ด ๋‹ค์–‘ํ•œ ๋ชจ๋ธ์˜ ์ถ”๋ก ์„ ๋น ๋ฅด๊ฒŒ ๊ฐ€์†ํ™”ํ–ˆ์œผ๋ฉฐ, Kanana๋Š” ํ•œ๊ตญ์–ด ๋ฐ ์˜์–ด ๋ชจ๋ธ์„ ํšจ์œจ์ ์œผ๋กœ ํ•™์Šตํ•˜์—ฌ ๋น„์šฉ ๋Œ€๋น„ ์„ฑ๋Šฅ์„ ๊ทน๋Œ€ํ™”ํ–ˆ์Šต๋‹ˆ๋‹ค.

๋งˆ์ง€๋ง‰์œผ๋กœ ๊ธฐํƒ€ ์‘์šฉ๋ถ„์•ผ์—์„œ๋Š” SurveyX๋Š” ํ•™์ˆ  ์„ค๋ฌธ์กฐ์‚ฌ๋ฅผ ์ž๋™์œผ๋กœ ์ƒ์„ฑํ•˜๋Š” ๊ณ ์„ฑ๋Šฅ ์‹œ์Šคํ…œ์„ ๊ฐœ๋ฐœํ–ˆ๊ณ , Mol-LLaMA๋Š” ๋ฒ”์šฉ์  ๋ถ„์ž ์ดํ•ด๋ฅผ ์œ„ํ•œ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๋ถ„์ž ์–ธ์–ด๋ชจ๋ธ์„ ํ†ตํ•ด ๋ถ„์ž ๋ถ„์„์˜ ํ™œ์šฉ๋„๋ฅผ ๋„“ํžˆ๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค.

LLM ํ•ด์„ ๋ฐ ์ถ”๋ก  ๋Šฅ๋ ฅ ๊ฐ•ํ™” ๋ถ„์•ผ

LLM-Microscope: Uncovering the Hidden Role of Punctuation in Context Memory of Transformers*

Paper, Project

๋ณธ ๋…ผ๋ฌธ์€ ์ตœ๊ทผ ํ™œ๋ฐœํžˆ ์—ฐ๊ตฌ๋˜๊ณ  ์žˆ๋Š” ๋Œ€ํ˜• ์–ธ์–ด ๋ชจ๋ธ(LLM)์˜ ๋งฅ๋ฝ ๊ธฐ์–ต(context memory) ์›๋ฆฌ๋ฅผ ํƒ๊ตฌํ•˜๋Š” ์—ฐ๊ตฌ์ž…๋‹ˆ๋‹ค. ๊ธฐ์กด์—๋Š” ์ฃผ๋กœ ์˜๋ฏธ์  ๋‚ด์šฉ์ด ํ’๋ถ€ํ•œ ์ฃผ์š” ๋‹จ์–ด๋“ค์ด ๋งฅ๋ฝ ์œ ์ง€์— ์ค‘์š”ํ•˜๋‹ค๊ณ  ์ƒ๊ฐํ–ˆ์ง€๋งŒ, ๋ณธ ์—ฐ๊ตฌ์—์„œ๋Š” ๊ด€์‚ฌ๋‚˜ ์‰ผํ‘œ ๊ฐ™์€ ์ผ๊ฒฌ ์‚ฌ์†Œํ•ด ๋ณด์ด๋Š” ํ† ํฐ๋“ค์ด ์˜์™ธ๋กœ ๋งค์šฐ ์ค‘์š”ํ•œ ์—ญํ• ์„ ํ•œ๋‹ค๋Š” ๊ฒƒ์„ ๋ฐํ˜€๋ƒˆ์Šต๋‹ˆ๋‹ค. ์‹คํ—˜ ๊ฒฐ๊ณผ, ๋ฌธ์žฅ ๋‚ด์—์„œ ์˜๋ฏธ์  ์ •๋ณด๊ฐ€ ์ ๋‹ค๊ณ  ๊ฐ„์ฃผ๋˜์–ด์˜จ ๊ด€์‚ฌ, ๋ถˆ์šฉ์–ด(stopwords), ๋ฌธ์žฅ๋ถ€ํ˜ธ ๋“ฑ์„ ์ œ๊ฑฐํ–ˆ์„ ๋•Œ, ๋ชจ๋ธ์˜ ์„ฑ๋Šฅ์ด ํ˜„์ €ํ•˜๊ฒŒ ์ €ํ•˜๋˜๋Š” ํ˜„์ƒ์ด ๊ด€์ฐฐ๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ, ์ด๋“ค ํ† ํฐ์€ ๋ณ€ํ™˜๊ธฐ(Transformer) ์ธต ๊ฐ„์˜ '์„ ํ˜•์„ฑ(linearity)'๊ณผ ๋†’์€ ์ƒ๊ด€์„ ๋‚˜ํƒ€๋ƒˆ๋Š”๋ฐ, ์ด๋Š” ๊ฐ ์ธต์˜ ํ‘œํ˜„(embedding)์ด ๋‹ค์Œ ์ธต์œผ๋กœ ๋„˜์–ด๊ฐˆ ๋•Œ ๋น„๊ต์  ๊ฐ„๋‹จํ•œ ์„ ํ˜• ๋ณ€ํ™˜์œผ๋กœ ๊ทผ์‚ฌ๋  ์ˆ˜ ์žˆ์Œ์„ ์˜๋ฏธํ•ฉ๋‹ˆ๋‹ค. ์—ฐ๊ตฌ์ง„์€ ์ด๋Ÿฌํ•œ ํ˜„์ƒ์„ ๊นŠ์ด ๋ถ„์„ํ•˜๊ธฐ ์œ„ํ•ด ์˜คํ”ˆ์†Œ์Šค ๋ถ„์„ ๋„๊ตฌ์ธ LLM-Microscope๋ฅผ ๊ณต๊ฐœํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด ๋„๊ตฌ๋Š” ๊ฐ ํ† ํฐ์˜ ์ค‘์š”๋„, ๋น„์„ ํ˜•์„ฑ ์ˆ˜์ค€, ๊ทธ๋ฆฌ๊ณ  ์ค‘๊ฐ„์ธต์—์„œ์˜ ๊ธฐ์—ฌ๋„๋ฅผ ์‹œ๊ฐํ™”ํ•˜์—ฌ, ๋ชจ๋ธ ๋‚ด๋ถ€์—์„œ ์ด๋ฅธ๋ฐ” 'ํ•„๋Ÿฌ(filler) ํ† ํฐ'์ด๋ผ๊ณ  ๋ถˆ๋ ธ๋˜ ์‚ฌ์†Œํ•œ ํ† ํฐ๋“ค์ด ์‹ค์ œ๋กœ๋Š” ์žฅ๊ธฐ์ ์ธ ๋ฌธ๋งฅ ์œ ์ง€์— ๊ฒฐ์ •์ ์ž„์„ ๋“œ๋Ÿฌ๋ƒ…๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด LLM์ด ๋งฅ๋ฝ์„ ์ €์žฅํ•˜๊ณ  ์œ ์ง€ํ•˜๋Š” ๋ฐฉ์‹์— ๋Œ€ํ•œ ๊ทผ๋ณธ์  ์ดํ•ด๋ฅผ ๋„“ํžˆ๋Š” ๋ฐ ๊ธฐ์—ฌํ–ˆ์Šต๋‹ˆ๋‹ค.

SWE-RL: Advancing LLM Reasoning via Reinforcement Learning on Open Software Evolution

Paper, Project

๋ณธ ๋…ผ๋ฌธ์€ ์‹ค์ œ ์†Œํ”„ํŠธ์›จ์–ด ์—”์ง€๋‹ˆ์–ด๋ง์˜ ํ’๋ถ€ํ•œ ๋ฐ์ดํ„ฐ๋ฅผ ํ™œ์šฉํ•˜์—ฌ ๋Œ€ํ˜• ์–ธ์–ด ๋ชจ๋ธ(LLM)์˜ ์ผ๋ฐ˜์  ์ถ”๋ก  ๋Šฅ๋ ฅ์„ ํฌ๊ฒŒ ๊ฐœ์„ ํ•˜๋Š” ์ƒˆ๋กœ์šด ๊ฐ•ํ™”ํ•™์Šต(RL) ๋ฐฉ๋ฒ•์ธ SWE-RL์„ ์†Œ๊ฐœํ•ฉ๋‹ˆ๋‹ค. ๊ธฐ์กด์˜ ์—ฐ๊ตฌ๋“ค์ด ๊ฒฝ์Ÿ์  ์ฝ”๋”ฉ์ด๋‚˜ ์ˆ˜ํ•™ ๋ฌธ์ œ ํ•ด๊ฒฐ ๋“ฑ์— ์ดˆ์ ์„ ๋งž์ท„๋˜ ๋ฐ˜๋ฉด, SWE-RL์€ ์†Œํ”„ํŠธ์›จ์–ด ๊ฐœ๋ฐœ์˜ ์‹ค์ œ ์ด์Šˆ, ์ฝ”๋“œ ๋ณ€ํ™”, Pull Request ๋“ฑ ์‹ค์ œ ๋ฐ์ดํ„ฐ๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ํ•™์Šต์„ ์ง„ํ–‰ํ•ฉ๋‹ˆ๋‹ค. ๊ทธ ๊ฒฐ๊ณผ, SWE-RL๋กœ ํ›ˆ๋ จ๋œ ๋ชจ๋ธ์ธ Llama3-SWE-RL-70B๋Š” ์‹ค์ œ GitHub์˜ ๋‹ค์–‘ํ•œ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๋Š” ๋ฒค์น˜๋งˆํฌ์ธ SWE-bench์—์„œ ์ด์ „ ์ค‘ํ˜• ๋ชจ๋ธ์˜ ์„ฑ๋Šฅ์„ ๋›ฐ์–ด๋„˜์œผ๋ฉฐ, ์‹ฌ์ง€์–ด GPT-4o์™€ ๊ฐ™์€ ๋Œ€ํ˜• ๋…์  ๋ชจ๋ธ์— ํ•„์ ํ•  ์ •๋„์˜ ์„ฑ๋Šฅ์„ ๊ธฐ๋กํ–ˆ์Šต๋‹ˆ๋‹ค. ๋” ๋†€๋ผ์šด ์ ์€, ์†Œํ”„ํŠธ์›จ์–ด ๋ฐ์ดํ„ฐ๋งŒ์„ ์‚ฌ์šฉํ•˜์—ฌ ํ›ˆ๋ จํ–ˆ์Œ์—๋„ ์ˆ˜ํ•™, ์ฝ”๋“œ ์ถ”๋ก , ์ผ๋ฐ˜ ์–ธ์–ด ์ดํ•ด ๋“ฑ ๋‹ค์–‘ํ•œ ๋ถ„์•ผ์—์„œ๋„ ๋›ฐ์–ด๋‚œ ์„ฑ๋Šฅ ํ–ฅ์ƒ์ด ๋‚˜ํƒ€๋‚ฌ๋‹ค๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค.

Self-rewarding correction for mathematical reasoning

Paper, Project

์ด ์—ฐ๊ตฌ๋Š” ์™ธ๋ถ€์˜ ํ”ผ๋“œ๋ฐฑ์ด๋‚˜ ๋ณด์ƒ ์—†์ด ์Šค์Šค๋กœ ์ž์‹ ์˜ ์ถ”๋ก  ๊ฒฐ๊ณผ๋ฅผ ํ‰๊ฐ€ํ•˜๊ณ  ์˜ค๋ฅ˜๋ฅผ ๋ฐœ๊ฒฌํ•˜์—ฌ ์ˆ˜์ •ํ•˜๋Š” '์ž๊ธฐ ๋ณด์ƒ(self-rewarding)' ๋ฐฉ์‹์„ ํ†ตํ•ด ์ˆ˜ํ•™์  ์ถ”๋ก  ๋Šฅ๋ ฅ์„ ๋†’์ด๋Š” ๋Œ€ํ˜• ์–ธ์–ด ๋ชจ๋ธ(LLM)์˜ ํ•™์Šต ๋ฐฉ๋ฒ•์„ ์†Œ๊ฐœํ•ฉ๋‹ˆ๋‹ค. ๊ธฐ์กด์˜ ์ž๊ธฐ ์ˆ˜์ •(self-correction) ๋ชจ๋ธ๋“ค์€ ์ฃผ๋กœ ์™ธ๋ถ€์˜ ๋ ˆ์ด๋ธ”์ด๋‚˜ ๋ณด์ƒ ์‹ ํ˜ธ์— ์˜์กดํ•˜์ง€๋งŒ, ์ด ์—ฐ๊ตฌ์—์„œ๋Š” ๋ชจ๋ธ ์ž์ฒด๊ฐ€ ์Šค์Šค๋กœ ํŒ๋‹จํ•˜์—ฌ ์˜ค๋ฅ˜๋ฅผ ๋ฐœ๊ฒฌํ•˜๊ณ , ๊ทธ ์˜ค๋ฅ˜๋ฅผ ์ž์ฒด์ ์œผ๋กœ ์ˆ˜์ •ํ•˜๋Š” ๋‘ ๋‹จ๊ณ„์˜ ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ ์ œ์•ˆํ–ˆ์Šต๋‹ˆ๋‹ค. ์ฒซ ๋ฒˆ์งธ ๋‹จ๊ณ„์—์„œ๋Š” ๋ชจ๋ธ์ด ์ง์ ‘ ์ƒ์„ฑํ•œ ๋ฐ์ดํ„ฐ๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ๊ธด ์ถ”๋ก  ๊ฒฝ๋กœ(chain-of-thought)๋ฅผ ์Šค์Šค๋กœ ํ‰๊ฐ€ํ•˜๊ณ , ์˜ค๋ฅ˜๊ฐ€ ํฌํ•จ๋œ ๋‹ต๋ณ€์„ ๋ฐ˜๋ณต์ ์œผ๋กœ ์ˆ˜์ •ํ•˜๋Š” ๊ณผ์ •์„ ํ†ตํ•ด ์ž๊ธฐ ์ˆ˜์ •์˜ ํŒจํ„ด์„ ํ•™์Šตํ•ฉ๋‹ˆ๋‹ค. ๋‘ ๋ฒˆ์งธ ๋‹จ๊ณ„์—์„œ๋Š” ๊ทœ์น™ ๊ธฐ๋ฐ˜์˜ ๋ณด์ƒ ์‹ ํ˜ธ๋ฅผ ํ™œ์šฉํ•œ ๊ฐ•ํ™”ํ•™์Šต์„ ์ˆ˜ํ–‰ํ•ด ๋ชจ๋ธ์ด ๋” ์ •ํ™•ํžˆ ์˜ค๋ฅ˜๋ฅผ ํŒ๋‹จํ•˜๊ณ  ๊ต์ •ํ•˜๋„๋ก ์œ ๋„ํ•ฉ๋‹ˆ๋‹ค. ์‹คํ—˜ ๊ฒฐ๊ณผ ์ด ๋ฐฉ๋ฒ•์€ ๊ธฐ์กด์˜ ์ž๊ธฐ ์ˆ˜์ • ๋ฐฉ์‹๋ณด๋‹ค ํ˜„์ €ํžˆ ์šฐ์ˆ˜ํ•œ ์„ฑ๋Šฅ์„ ๋‹ฌ์„ฑํ–ˆ๊ณ , ์‹ฌ์ง€์–ด ์™ธ๋ถ€ ๋ณด์ƒ ๋ชจ๋ธ์„ ์ด์šฉํ•œ ๋ฐฉ์‹๊ณผ๋„ ๋น„์Šทํ•œ ์ˆ˜์ค€์˜ ์„ฑ๋Šฅ์„ ๊ธฐ๋กํ–ˆ์Šต๋‹ˆ๋‹ค.

Thus Spake Long-Context Large Language Model

Paper

๊ธด ๋งฅ๋ฝ ์ฒ˜๋ฆฌ๋Š” ์ตœ๊ทผ ์ž์—ฐ์–ด ์ฒ˜๋ฆฌ(NLP) ๋ถ„์•ผ์—์„œ ๊ฐ€์žฅ ํ™œ๋ฐœํ•œ ์—ฐ๊ตฌ ์ฃผ์ œ ์ค‘ ํ•˜๋‚˜์ด๋ฉฐ, ํŠนํžˆ ๋Œ€ํ˜• ์–ธ์–ด ๋ชจ๋ธ(LLM)์˜ ๊ฒฝ์Ÿ๋ ฅ์„ ๋†’์ด๋Š” ํ•ต์‹ฌ ์š”์†Œ๋กœ ๋– ์˜ค๋ฅด๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. ์ด ๋…ผ๋ฌธ์—์„œ๋Š” ์ตœ๊ทผ 2๋…„ ๋™์•ˆ LLM์˜ ๋งฅ๋ฝ ์ฒ˜๋ฆฌ ๊ธธ์ด๊ฐ€ ์ˆ˜์ฒœ ํ† ํฐ์—์„œ ์ˆ˜๋ฐฑ๋งŒ ํ† ํฐ ๋‹จ์œ„๊นŒ์ง€ ํ™•์žฅ๋œ ํ˜„ํ™ฉ์„ ์กฐ๋งํ•˜๊ณ , ์ด๋ฅผ ๋‹จ์ˆœํžˆ ๊ธธ์ด๋ฅผ ๋Š˜๋ฆฌ๋Š” ์ฐจ์›์„ ๋„˜์–ด ๊ตฌ์กฐ(architecture), ์ธํ”„๋ผ(infrastructure), ํ›ˆ๋ จ ๋ฐฉ๋ฒ•(training), ํ‰๊ฐ€ ๋ฐฉ๋ฒ•(evaluation) ๋“ฑ ์ข…ํ•ฉ์ ์ธ ๊ด€์ ์—์„œ ๋ถ„์„ํ–ˆ์Šต๋‹ˆ๋‹ค. ์—ฐ๊ตฌ์ง„์€ ๊ธด ๋งฅ๋ฝ ์ฒ˜๋ฆฌ๋ผ๋Š” ๋„์ „ ๊ณผ์ œ๋ฅผ ์ธ๊ฐ„์ด ์ƒ๋ช…์˜ ํ•œ๊ณ„๋ฅผ ์ดˆ์›”ํ•˜๋ ค๋Š” ๋…ธ๋ ฅ์— ๋น„์œ ํ•˜์—ฌ, ๋งˆ์น˜ ์ธ๊ฐ„์˜ ์œ ํ•œ์„ฑ์„ ๊ทน๋ณตํ•˜๋ ค๋Š” ์‹œ๋„๊ฐ€ ๊ฒฐ๊ตญ ์œ ํ•œ์„ฑ ์ž์ฒด๋ฅผ ๋ฐ›์•„๋“ค์—ฌ์•ผ ํ•˜๋Š” ๊ฒƒ์ฒ˜๋Ÿผ LLM ๋˜ํ•œ ๊ธด ๋งฅ๋ฝ์— ๋Œ€ํ•œ ๋ฌดํ•œํ•œ ์š•๊ตฌ์™€ ํ˜„์‹ค์  ํ•œ๊ณ„ ์‚ฌ์ด์—์„œ ๊ณ ๊ตฐ๋ถ„ํˆฌํ•˜๊ณ  ์žˆ์Œ์„ ์‹œ์‚ฌํ–ˆ์Šต๋‹ˆ๋‹ค. ๋…ผ๋ฌธ์˜ ๋งˆ์ง€๋ง‰ ๋ถ€๋ถ„์—์„œ๋Š” ๊ธด ๋งฅ๋ฝ ์ฒ˜๋ฆฌ LLM ์—ฐ๊ตฌ๊ฐ€ ์ง๋ฉดํ•˜๊ณ  ์žˆ๋Š” ๋ฏธํ•ด๊ฒฐ ๋ฌธ์ œ 10๊ฐ€์ง€๋ฅผ ๊ตฌ์ฒด์ ์œผ๋กœ ์ •๋ฆฌํ•˜์—ฌ ํ–ฅํ›„ ์—ฐ๊ตฌ ๋ฐฉํ–ฅ์„ฑ์„ ๋ช…ํ™•ํžˆ ์ œ์‹œํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” ๊ธด ๋งฅ๋ฝ ์ฒ˜๋ฆฌ๋ฅผ ์—ฐ๊ตฌํ•˜๋Š” ๋ชจ๋“  ์—ฐ๊ตฌ์ž๋“ค์—๊ฒŒ ์œ ์šฉํ•œ ์•ˆ๋‚ด์„œ๋กœ ์ž‘์šฉํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๋ชจ๋ธ ๋ฐ ๋น„๋””์˜ค ์ƒ์„ฑ ๊ธฐ์ˆ 

VideoGrain: Modulating Space-Time Attention for Multi-grained Video Editing

Paper, Project

์ตœ๊ทผ ์˜์ƒ ํŽธ์ง‘ ๊ธฐ์ˆ ์€ ๊ธ‰์†ํžˆ ๋ฐœ์ „ํ–ˆ์œผ๋‚˜, ์˜์ƒ์˜ ํด๋ž˜์Šค ์ˆ˜์ค€(์˜ˆ: ์‚ฌ๋žŒ, ์ž๋™์ฐจ ๋“ฑ), ๊ฐ์ฒด ์ˆ˜์ค€(ํŠน์ • ์ธ๋ฌผ), ๋ถ€๋ถ„ ์ˆ˜์ค€(์˜ˆ: ์–ผ๊ตด ์ผ๋ถ€๋‚˜ ์‚ฌ๋ฌผ์˜ ์„ธ๋ถ€ ๋ถ€ํ’ˆ) ๋“ฑ ๋‹ค์–‘ํ•œ ์ˆ˜์ค€์—์„œ ๋™์‹œ์— ์„ธ๋ฐ€ํ•˜๊ฒŒ ํŽธ์ง‘ํ•˜๋Š” ๊ฒƒ์€ ์—ฌ์ „ํžˆ ํฐ ์–ด๋ ค์›€์œผ๋กœ ๋‚จ์•„ ์žˆ์Šต๋‹ˆ๋‹ค. ๋ณธ ๋…ผ๋ฌธ์—์„œ๋Š” ์ด๋Ÿฌํ•œ ๋‚œ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด VideoGrain์ด๋ผ๋Š” ํ˜์‹ ์ ์ธ ์˜์ƒ ํŽธ์ง‘ ๋ฐฉ์‹์„ ๊ฐœ๋ฐœํ–ˆ์Šต๋‹ˆ๋‹ค. VideoGrain์€ ์‚ฌ์ „์— ํ›ˆ๋ จ๋œ ํ™•์‚ฐ ๋ชจ๋ธ(diffusion model)์˜ ์‹œ๊ณต๊ฐ„ ์–ดํ…์…˜(space-time attention) ๋ฉ”์ปค๋‹ˆ์ฆ˜์„ ์ •๊ตํ•˜๊ฒŒ ์กฐ์ •ํ•จ์œผ๋กœ์จ, ์˜์ƒ ๋‚ด ๊ฐ ์˜์—ญ์— ๋Œ€ํ•ด ํ…์ŠคํŠธ ์„ค๋ช…๊ณผ ๋งค์šฐ ์ •ํ™•ํ•˜๊ฒŒ ๋งค์นญํ•  ์ˆ˜ ์žˆ๊ฒŒ ํ•ฉ๋‹ˆ๋‹ค. ์ด ๊ณผ์ •์—์„œ ์˜์ƒ ๋‚ด ์„œ๋กœ ๋‹ค๋ฅธ ์˜์—ญ ๊ฐ„์˜ ๊ฐ„์„ญ ํ˜„์ƒ์„ ์ตœ์†Œํ™”ํ•˜์—ฌ, ์›ํ•˜๋Š” ์˜์—ญ์—๋งŒ ์„ธ๋ฐ€ํ•˜๊ฒŒ ํŽธ์ง‘์ด ๊ฐ€ํ•ด์ง€๋„๋ก ํ•ฉ๋‹ˆ๋‹ค. ์—ฐ๊ตฌ์ง„์€ ์‹ค์ œ ์„ธ๊ณ„์˜ ๋‹ค์–‘ํ•œ ์‹œ๋‚˜๋ฆฌ์˜ค์—์„œ VideoGrain์ด ๊ธฐ์กด ์˜์ƒ ํŽธ์ง‘ ๊ธฐ์ˆ ์„ ๋›ฐ์–ด๋„˜๋Š” ์šฐ์ˆ˜ํ•œ ์„ฑ๋Šฅ์„ ๋ณด์ž„์„ ์ž…์ฆํ–ˆ๊ณ , ์‹ค์ œ ์‚ฌ์šฉ ๊ฐ€๋Šฅํ•œ ๋ฐ๋ชจ๋ฅผ ๊ณต๊ฐœํ•˜์—ฌ ๊ธฐ์ˆ ์˜ ๊ฐ€๋Šฅ์„ฑ์„ ์ œ์‹œํ–ˆ์Šต๋‹ˆ๋‹ค.

OmniAlign-V: Towards Enhanced Alignment of MLLMs with Human Preference

Paper, Project

์ตœ๊ทผ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์–ธ์–ด ๋ชจ๋ธ(Multi-modal LLM)์€ ์ด๋ฏธ์ง€์™€ ํ…์ŠคํŠธ๋ฅผ ๊ฒฐํ•ฉํ•œ ๋ณตํ•ฉ์  ์ถ”๋ก  ๋Šฅ๋ ฅ ๋ฉด์—์„œ ํฐ ๋ฐœ์ „์„ ์ด๋ฃจ์—ˆ์œผ๋‚˜, ์•„์ง ์ธ๊ฐ„์˜ ์„ ํ˜ธ๋‚˜ ๊ฐ€์น˜ ํŒ๋‹จ๊ณผ์˜ ์ •๋ ฌ(alignment)์€ ๋ถ€์กฑํ•œ ์ƒํƒœ์ž…๋‹ˆ๋‹ค. ์ด ๋…ผ๋ฌธ์€ ์ธ๊ฐ„์˜ ๊ฐ€์น˜์™€ ์„ ํ˜ธ๋ฅผ ๋ณด๋‹ค ์ •ํ™•ํžˆ ๋ฐ˜์˜ํ•˜๋Š” ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ LLM์„ ๊ฐœ๋ฐœํ•˜๊ธฐ ์œ„ํ•ด OmniAlign-V๋ผ๋Š” ๋Œ€๊ทœ๋ชจ ๊ณ ํ’ˆ์งˆ ๋ฐ์ดํ„ฐ์…‹(์•ฝ 20๋งŒ ๊ฐœ ์ƒ˜ํ”Œ)์„ ์ƒˆ๋กญ๊ฒŒ ๊ตฌ์ถ•ํ–ˆ์Šต๋‹ˆ๋‹ค. ๋‹ค์–‘ํ•œ ์ด๋ฏธ์ง€์™€ ๋ณต์žกํ•œ ์งˆ๋ฌธ, ๊ทธ๋ฆฌ๊ณ  ๋‹ค์–‘ํ•œ ๋‹ต๋ณ€ ํ˜•์‹์„ ํฌํ•จํ•œ ์ด ๋ฐ์ดํ„ฐ์…‹์„ ์ด์šฉํ•ด Supervised Fine-Tuning(SFT)๊ณผ ์ง์ ‘ ์„ ํ˜ธ ์ตœ์ ํ™”(DPO)๋ฅผ ์ˆ˜ํ–‰ํ•œ ๊ฒฐ๊ณผ, ๊ธฐ์กด์˜ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๋ชจ๋ธ ๋Œ€๋น„ ์ธ๊ฐ„ ์„ ํ˜ธ์™€์˜ ์ •๋ ฌ์ด ํฌ๊ฒŒ ํ–ฅ์ƒ๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ์—ฐ๊ตฌ์ง„์€ ์ด ๋ชจ๋ธ์ด ๊ธฐ๋ณธ์ ์ธ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๋Šฅ๋ ฅ๊นŒ์ง€ ์œ ์ง€ํ•˜๊ฑฐ๋‚˜ ์˜คํžˆ๋ ค ๊ฐœ์„ ํ•˜๋ฉฐ ์ธ๊ฐ„๊ณผ์˜ ์ƒํ˜ธ์ž‘์šฉ์— ๋”์šฑ ์ ํ•ฉํ•œ AI ์‹œ์Šคํ…œ์œผ๋กœ ์ง„ํ™”ํ–ˆ๋‹ค๊ณ  ๊ฐ•์กฐํ•ฉ๋‹ˆ๋‹ค. ๊ด€๋ จ ๋ฐ์ดํ„ฐ์…‹๊ณผ ๋ฒค์น˜๋งˆํฌ๋Š” ์˜คํ”ˆ์†Œ์Šค๋กœ ๊ณต๊ฐœ๋˜์—ˆ์Šต๋‹ˆ๋‹ค.

DICEPTION: A Generalist Diffusion Model for Visual Perceptual Tasks

Paper, Project

์ด ๋…ผ๋ฌธ์€ ์—ฌ๋Ÿฌ ์ข…๋ฅ˜์˜ ์‹œ๊ฐ์  ์ธ์ง€ ์ž‘์—…(์˜ˆ: ๊ฐ์ฒด ๋ถ„ํ• , ์˜๋ฏธ์  ๋ถ„ํ•  ๋“ฑ)์„ ๋‹จ ํ•˜๋‚˜์˜ ๋ชจ๋ธ๋กœ ํšจ์œจ์ ์œผ๋กœ ์ฒ˜๋ฆฌํ•˜๊ธฐ ์œ„ํ•œ ๋ฒ”์šฉ์  ํ™•์‚ฐ(diffusion) ๋ชจ๋ธ์ธ DICEPTION์„ ์†Œ๊ฐœํ•ฉ๋‹ˆ๋‹ค. DICEPTION์€ ๊ธฐ์กด์˜ ๋ง‰๋Œ€ํ•œ ๋ฐ์ดํ„ฐ์™€ ๊ณ„์‚ฐ ์ž์›์ด ํ•„์š”ํ•œ ์‹œ๊ฐ ๋ชจ๋ธ๊ณผ ๋‹ฌ๋ฆฌ, ์ˆ˜์‹ญ์–ต ๊ฐœ์˜ ์ด๋ฏธ์ง€๋กœ ๋ฏธ๋ฆฌ ํ•™์Šต๋œ ํ…์ŠคํŠธ-์ด๋ฏธ์ง€ ์ƒ์„ฑ ๋ชจ๋ธ์„ ํ™œ์šฉํ•˜์—ฌ ํ›จ์”ฌ ์ ์€ ๋ฐ์ดํ„ฐ๋กœ ๋‹ค์–‘ํ•œ ์ธ์ง€ ๊ณผ์ œ๋ฅผ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ํŠนํžˆ ์ปฌ๋Ÿฌ ์ธ์ฝ”๋”ฉ(color encoding)์„ ํ†ตํ•ด ๋‹ค์–‘ํ•œ ์‹œ๊ฐ ์ž‘์—…์„ ํ†ตํ•ฉํ•œ ๋ฐฉ์‹์ด ํƒ์›”ํ•œ ํšจ๊ณผ๋ฅผ ๋ณด์˜€์œผ๋ฉฐ, ์ ์€ ์–‘์˜ ์ถ”๊ฐ€ ๋ฐ์ดํ„ฐ(50์žฅ ์ด๋ฏธ์ง€ ์ •๋„)์™€ ํŒŒ๋ผ๋ฏธํ„ฐ์˜ ๋‹จ 1%๋งŒ ๋ฏธ์„ธ ์กฐ์ •ํ•จ์œผ๋กœ์จ ์ƒˆ๋กœ์šด ์ž‘์—…์— ์†์‰ฝ๊ฒŒ ์ ์‘ํ•  ์ˆ˜ ์žˆ์—ˆ์Šต๋‹ˆ๋‹ค. ์—ฐ๊ตฌ์ง„์€ DICEPTION์ด ํ–ฅํ›„ ์‹œ๊ฐ์  ์ง€๊ฐ ๊ณผ์ œ๋ฅผ ์œ„ํ•œ ํšจ์œจ์ ์ด๊ณ  ์œ ์—ฐํ•œ ์ผ๋ฐ˜ํ™” ๋ชจ๋ธ๋กœ ์ฃผ๋ชฉ๋ฐ›์„ ์ˆ˜ ์žˆ๋‹ค๊ณ  ๊ฐ•์กฐํ•ฉ๋‹ˆ๋‹ค.

MedVLM-R1: Incentivizing Medical Reasoning Capability of Vision-Language Models (VLMs) via Reinforcement Learning

Paper

์ตœ๊ทผ ์˜๋ฃŒ ์˜์ƒ ๋ถ„์„ ๋ถ„์•ผ์—์„œ๋Š” ๋ชจ๋ธ์ด ๋‹จ์ˆœํžˆ ์ง„๋‹จ ๊ฒฐ๊ณผ๋งŒ ์ œ์‹œํ•˜๋Š” ๊ฒƒ์ด ์•„๋‹ˆ๋ผ, ๊ทธ ์ง„๋‹จ์— ์ด๋ฅธ ๊ณผ์ •๊ณผ ์ด์œ ๋ฅผ ๋ช…ํ™•ํ•˜๊ฒŒ ์„ค๋ช…ํ•  ์ˆ˜ ์žˆ๋Š” ๋Šฅ๋ ฅ์ด ๋”์šฑ ์ค‘์š”ํ•ด์ง€๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. ์ด ๋…ผ๋ฌธ์€ ์ด๋Ÿฌํ•œ ์„ค๋ช… ๊ฐ€๋Šฅํ•œ ์ถ”๋ก  ๋Šฅ๋ ฅ์„ ๊ฐ•ํ™”ํ•™์Šต์„ ํ†ตํ•ด ํš๊ธฐ์ ์œผ๋กœ ํ–ฅ์ƒ์‹œํ‚จ ์˜๋ฃŒ ํŠนํ™” ์‹œ๊ฐ-์–ธ์–ด ๋ชจ๋ธ(Vision-Language Model, VLM)์ธ MedVLM-R1์„ ์†Œ๊ฐœํ•ฉ๋‹ˆ๋‹ค. ๊ธฐ์กด์˜ ์ง€๋„ํ•™์Šต ๋ฐฉ์‹(supervised fine-tuning)์€ ํ›ˆ๋ จ ๋ฐ์ดํ„ฐ์— ๊ณผ์ ํ•ฉ๋˜์–ด ์‹ค์ œ ์ถ”๋ก  ๊ณผ์ •์„ ์ž˜ ํ•™์Šตํ•˜์ง€ ๋ชปํ•˜๋Š” ํ•œ๊ณ„๊ฐ€ ์žˆ์—ˆ์Šต๋‹ˆ๋‹ค. ๋ณธ ์—ฐ๊ตฌ์—์„œ๋Š” ์ธ๊ฐ„์ด ์‚ฌ์ „์— ์ •์˜ํ•œ ์ถ”๋ก  ๊ฒฝ๋กœ ์—†์ด ๋ชจ๋ธ ์Šค์Šค๋กœ ์ธ๊ฐ„์ด ์ดํ•ด ๊ฐ€๋Šฅํ•œ ํ˜•ํƒœ์˜ ์ถ”๋ก ์„ ๋ฐœ๊ฒฌํ•˜๋„๋ก ๊ฐ•ํ™”ํ•™์Šต ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ๋„์ž…ํ–ˆ์Šต๋‹ˆ๋‹ค. ์‹คํ—˜ ๊ฒฐ๊ณผ MedVLM-R1 ๋ชจ๋ธ์€ ๋‹จ 600๊ฐœ์˜ ์˜์ƒ ์งˆ์˜์‘๋‹ต ๋ฐ์ดํ„ฐ์™€ ์ž‘์€ ๋ชจ๋ธ ํฌ๊ธฐ(2B ํŒŒ๋ผ๋ฏธํ„ฐ)์—๋„ ๋ถˆ๊ตฌํ•˜๊ณ , MRI, CT, X-ray ์˜์ƒ ๋ถ„์„์—์„œ ๊ธฐ์กด์˜ ํฐ ๋ชจ๋ธ๋“ค๋ณด๋‹ค ๋›ฐ์–ด๋‚œ ์„ฑ๋Šฅ์„ ๋ณด์˜€์œผ๋ฉฐ, ๋ฐ์ดํ„ฐ๊ฐ€ ๋ถ€์กฑํ•œ ํ™˜๊ฒฝ์—์„œ๋„ ํƒ์›”ํ•œ ์ผ๋ฐ˜ํ™” ๋Šฅ๋ ฅ์„ ๋ฐœํœ˜ํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด ์—ฐ๊ตฌ๋Š” ์˜๋ฃŒ ์˜์ƒ ๋ถ„์„์—์„œ AI์˜ ์‹ ๋ขฐ์„ฑ ๋ฐ ํˆฌ๋ช…์„ฑ์„ ๋†’์ด๋Š” ์ค‘์š”ํ•œ ๋ฐœ๊ฑธ์Œ์ด ๋  ๊ฒƒ์œผ๋กœ ๊ธฐ๋Œ€๋ฉ๋‹ˆ๋‹ค.

GHOST 2.0: generative high-fidelity one shot transfer of heads

Paper, Project

์ตœ๊ทผ ์–ผ๊ตด ๊ต์ฒด(face swap) ๊ธฐ์ˆ ์€ ๋งŽ์€ ๋ฐœ์ „์„ ์ด๋ฃจ์—ˆ์œผ๋‚˜, ์–ผ๊ตด๋ฟ ์•„๋‹ˆ๋ผ ๋จธ๋ฆฌ ์ „์ฒด๋ฅผ ์ž์—ฐ์Šค๋Ÿฝ๊ฒŒ ๊ต์ฒดํ•˜๋Š” ํ—ค๋“œ ์Šค์™‘(head swap)์€ ์•„์ง ์–ด๋ ค์›€์ด ํฐ ๋ถ„์•ผ๋กœ ๋‚จ์•„ ์žˆ์Šต๋‹ˆ๋‹ค. ํŠนํžˆ ๋จธ๋ฆฌ ์ „์ฒด์˜ ๊ต์ฒด ์ž‘์—…์—์„œ๋Š” ํ”ผ๋ถ€์ƒ‰ ์กฐ์ •๋ฟ ์•„๋‹ˆ๋ผ ๋จธ๋ฆฌ์˜ ๊ตฌ์กฐ์  ์ •๋ณด ๋ณด์กด, ๋ฐฐ๊ฒฝ๊ณผ์˜ ์ž์—ฐ์Šค๋Ÿฌ์šด ์—ฐ๊ฒฐ(์ธํŽ˜์ธํŒ…) ๋“ฑ ์ถ”๊ฐ€์ ์ด๊ณ  ๋ณต์žกํ•œ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•ด์•ผ ํ•ฉ๋‹ˆ๋‹ค. ์ด ๋…ผ๋ฌธ์—์„œ๋Š” ํ—ค๋“œ ์Šค์™‘ ์ž‘์—…์—์„œ ๋ฐœ์ƒํ•˜๋Š” ์ด๋Ÿฌํ•œ ๋ฌธ์ œ๋“ค์„ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด ํŠนํ™”๋œ ๋‘ ๊ฐ€์ง€ ๋ชจ๋“ˆ๋กœ ๊ตฌ์„ฑ๋œ GHOST 2.0์„ ๊ฐœ๋ฐœํ–ˆ์Šต๋‹ˆ๋‹ค. ์ฒซ ๋ฒˆ์งธ ๋ชจ๋“ˆ์ธ Aligner๋Š” ๋‹ค์–‘ํ•œ ์ž์„ธ์™€ ๊ฐ๋„ ๋ณ€ํ™”์—๋„ ์‚ฌ๋žŒ์˜ ์–ผ๊ตด๊ณผ ๋จธ๋ฆฌ์˜ ๊ตฌ์กฐ์  ์ •๋ณด๋ฅผ ์—ฌ๋Ÿฌ ์Šค์ผ€์ผ์—์„œ ์ •ํ™•ํžˆ ์œ ์ง€ํ•˜๋ฉฐ ๋Œ€์ƒ ์ธ๋ฌผ๋กœ ์ž์—ฐ์Šค๋Ÿฝ๊ฒŒ ๋ฐ”๊ฟ”์ฃผ๋Š” ์—ญํ• ์„ ์ˆ˜ํ–‰ํ•ฉ๋‹ˆ๋‹ค. ๋‘ ๋ฒˆ์งธ ๋ชจ๋“ˆ์ธ Blender๋Š” ๊ต์ฒด๋œ ๋จธ๋ฆฌ๋ฅผ ๋ชฉํ‘œ ๋ฐฐ๊ฒฝ์— ์ž์—ฐ์Šค๋Ÿฝ๊ฒŒ ์œตํ•ฉ์‹œ์ผœ ํ”ผ๋ถ€์ƒ‰์„ ์ •๋ฐ€ํ•˜๊ฒŒ ์กฐ์ •ํ•˜๊ณ  ๊ฒฝ๊ณ„ ๋ถ€๋ถ„์˜ ๋นˆ ๊ณต๊ฐ„์ด๋‚˜ ๋ถ€์ž์—ฐ์Šค๋Ÿฌ์šด ์˜์—ญ์„ ๊น”๋”ํ•˜๊ฒŒ ์ธํŽ˜์ธํŒ…ํ•˜์—ฌ ์ตœ์ข… ์™„์„ฑ๋„๋ฅผ ๋†’์ž…๋‹ˆ๋‹ค. ์‹คํ—˜ ๊ฒฐ๊ณผ, GHOST 2.0์€ ๋‹ค์–‘ํ•œ ๋ฐฐ๊ฒฝ๊ณผ ๊ทน๋‹จ์ ์ธ ์ž์„ธ, ํ—ค์–ด์Šคํƒ€์ผ ์ฐจ์ด ๋“ฑ ์–ด๋ ค์šด ์กฐ๊ฑด์—์„œ๋„ ๊ธฐ์กด์˜ ๊ธฐ์ˆ ๋ณด๋‹ค ํ˜„์ €ํžˆ ๋›ฐ์–ด๋‚œ ํ’ˆ์งˆ์˜ ๊ฒฐ๊ณผ๋ฌผ์„ ๋งŒ๋“ค์–ด๋ƒˆ์Šต๋‹ˆ๋‹ค.

ํšจ์œจ์ ์ธ ํ•™์Šต ๋ฐ ์ถ”๋ก  ๊ฐ€์†ํ™”

Slamming: Training a Speech Language Model on One GPU in a Day

Paper, Project

์ด ๋…ผ๋ฌธ์€ ์Œ์„ฑ ์–ธ์–ด ๋ชจ๋ธ(Speech Language Model, SLM)์˜ ํ•™์Šต ๋น„์šฉ์„ ํš๊ธฐ์ ์œผ๋กœ ์ค„์ด๊ณ ์ž ๋‹จ ํ•˜๋‚˜์˜ ํ•™์ˆ ์šฉ GPU๋กœ ๋‹จ ํ•˜๋ฃจ(24์‹œ๊ฐ„) ๋งŒ์— ๊ณ ์„ฑ๋Šฅ SLM์„ ํ•™์Šตํ•  ์ˆ˜ ์žˆ๋Š” ํ˜์‹ ์ ์ธ ๋ฐฉ๋ฒ•์ธ Slam์„ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค. ์ผ๋ฐ˜์ ์œผ๋กœ ๋Œ€ํ˜• ๋ชจ๋ธ ํ•™์Šต์€ ๋ง‰๋Œ€ํ•œ ์ž์›๊ณผ ์‹œ๊ฐ„์„ ์š”๊ตฌํ•˜์ง€๋งŒ, Slam์€ ๋ชจ๋ธ ๊ตฌ์กฐ ์ตœ์ ํ™”, ํšจ๊ณผ์ ์ธ ์ดˆ๊ธฐํ™” ๋ฐฉ๋ฒ• ํƒ์ƒ‰, ํ•ฉ์„ฑ ๋ฐ์ดํ„ฐ(synthetic data)์˜ ์ „๋žต์  ํ™œ์šฉ, ๊ทธ๋ฆฌ๊ณ  ํ•™์Šต ํšจ์œจ์„ ๊ทน๋Œ€ํ™”ํ•˜๋Š” ํŠœ๋‹ ๊ธฐ๋ฒ•์„ ๊ฒฐํ•ฉํ•˜์—ฌ ๊ทน๋„์˜ ํšจ์œจ์„ฑ์„ ๋‹ฌ์„ฑํ–ˆ์Šต๋‹ˆ๋‹ค. ์‹คํ—˜ ๊ฒฐ๊ณผ, Slam์€ ์ œํ•œ๋œ ์ž์›์—์„œ๋„ ์ตœ์‹ ์˜ ์„ฑ๋Šฅ์„ ๊ฐ€์ง„ SLM์— ๊ทผ์ ‘ํ•˜๊ฑฐ๋‚˜ ๋Šฅ๊ฐ€ํ•˜๋Š” ๊ฒฐ๊ณผ๋ฅผ ์–ป์—ˆ์Šต๋‹ˆ๋‹ค. ์—ฐ๊ตฌ์ง„์€ ์ด ๋ฐฉ๋ฒ•๋ก ์ด ๋” ๋งŽ์€ ์—ฐ๊ตฌ์ž๋“ค์ด ์‰ฝ๊ฒŒ ์ ‘๊ทผํ•  ์ˆ˜ ์žˆ๋Š” ์Œ์„ฑ ์–ธ์–ด ๋ชจ๋ธ ์—ฐ๊ตฌ๋ฅผ ์ด‰์ง„ํ•  ๊ฒƒ์ด๋ผ๊ณ  ๊ธฐ๋Œ€ํ•˜๋ฉฐ ์ฝ”๋“œ์™€ ๋ฐ์ดํ„ฐ๋ฅผ ๊ณต๊ฐœํ–ˆ์Šต๋‹ˆ๋‹ค.

SpargeAttn: Accurate Sparse Attention Accelerating Any Model Inference

Paper, Project

์–ดํ…์…˜(Attention)์€ ์ตœ๊ทผ AI ๋ชจ๋ธ์˜ ํ•ต์‹ฌ ์š”์†Œ์ด์ง€๋งŒ, ์—ฐ์‚ฐ ๋ณต์žก๋„๊ฐ€ ๋†’์•„ ๊ณ„์‚ฐ ์†๋„์˜ ๋ณ‘๋ชฉ์ด ๋ฉ๋‹ˆ๋‹ค. ์ด ๋…ผ๋ฌธ์€ SpargeAttn์ด๋ผ๋Š” ์ƒˆ๋กœ์šด ํ˜•ํƒœ์˜ ํฌ์†Œ ์–ดํ…์…˜ ๊ธฐ๋ฒ•์„ ์ œ์•ˆํ•˜์—ฌ ๋‹ค์–‘ํ•œ ๋ชจ๋ธ์—์„œ ์ถ”๋ก  ์†๋„๋ฅผ ํฌ๊ฒŒ ๋†’์ด๋ฉด์„œ๋„ ์„ฑ๋Šฅ ์ €ํ•˜๊ฐ€ ์—†๋Š” ๋ฒ”์šฉ์ ์ธ ์†”๋ฃจ์…˜์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค. SpargeAttn์€ ๋‘ ๋‹จ๊ณ„์˜ ์˜จ๋ผ์ธ ํ•„ํ„ฐ๋ฅผ ํ†ตํ•ด ๋น ๋ฅด๊ณ  ์ •ํ™•ํ•˜๊ฒŒ ์–ดํ…์…˜ ๊ฐ’์„ ์˜ˆ์ธกํ•˜์—ฌ ๋งŽ์€ ๊ณ„์‚ฐ์„ ๊ฑด๋„ˆ๋›ฐ๋„๋ก ์„ค๊ณ„๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ์–ธ์–ด ๋ชจ๋ธ, ์ด๋ฏธ์ง€ ๋ชจ๋ธ, ๋น„๋””์˜ค ๋ชจ๋ธ ๋“ฑ ๋‹ค์–‘ํ•œ ๋ชจ๋ธ ์‹คํ—˜์—์„œ ๋›ฐ์–ด๋‚œ ์†๋„ ํ–ฅ์ƒ์„ ๋ณด์˜€์œผ๋ฉฐ, ์‹ค์งˆ์ ์ธ ์„ฑ๋Šฅ ์†์‹ค๋„ ์—†์—ˆ์Šต๋‹ˆ๋‹ค. ์—ฐ๊ตฌ์ง„์€ ์ด ๋ฐฉ๋ฒ•์ด ์•ž์œผ๋กœ ๋” ๋งŽ์€ ๋ชจ๋ธ์˜ ํšจ์œจ์„ฑ์„ ํฌ๊ฒŒ ๋†’์ด๋Š” ๋ฐ ๊ธฐ์—ฌํ•  ๊ฒƒ์œผ๋กœ ๊ธฐ๋Œ€ํ•˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค.

Kanana: Compute-efficient Bilingual Language Models

Paper, Project

์ด ๋…ผ๋ฌธ์€ ํ•œ๊ตญ์–ด์—์„œ ๋›ฐ์–ด๋‚œ ์„ฑ๋Šฅ์„ ๋ณด์ด๋ฉด์„œ ๋™์‹œ์— ์˜์–ด์—์„œ๋„ ๊ฒฝ์Ÿ๋ ฅ ์žˆ๋Š” ์„ฑ๋Šฅ์„ ๊ฐ–์ถ”๊ณ  ์žˆ๋Š” ์ด์ค‘์–ธ์–ด(bilingual) ์–ธ์–ด ๋ชจ๋ธ ์‹œ๋ฆฌ์ฆˆ์ธ Kanana๋ฅผ ์†Œ๊ฐœํ•ฉ๋‹ˆ๋‹ค. Kanana ๋ชจ๋ธ์€ ์ตœ์‹  ์–ธ์–ด ๋ชจ๋ธ๊ณผ ๋น„์Šทํ•œ ์„ฑ๋Šฅ์„ ๊ฐ€์ง€๋ฉด์„œ๋„ ํ•™์Šต์— ํ•„์š”ํ•œ ๊ณ„์‚ฐ ๋น„์šฉ์ด ํฌ๊ฒŒ ๋‚ฎ๋‹ค๋Š” ์ ์ด ํŠน์ง•์ž…๋‹ˆ๋‹ค. ์—ฐ๊ตฌ์ง„์€ ๊ณ ํ’ˆ์งˆ์˜ ๋ฐ์ดํ„ฐ ํ•„ํ„ฐ๋ง, ๋‹จ๊ณ„์ ์œผ๋กœ ๊ทœ๋ชจ๋ฅผ ํ™•๋Œ€ํ•˜๋Š” ํ•™์Šต ๊ธฐ๋ฒ•(staged pre-training), ๋ชจ๋ธ์˜ ๊นŠ์ด๋ฅผ ์ „๋žต์ ์œผ๋กœ ์ฆ๊ฐ€์‹œํ‚ค๋Š” ๊ธฐ๋ฒ•(depth up-scaling), ๊ทธ๋ฆฌ๊ณ  ํŒŒ๋ผ๋ฏธํ„ฐ ์ œ๊ฑฐ(pruning) ๋ฐ ์ง€์‹ ์ฆ๋ฅ˜(distillation) ๊ธฐ๋ฒ• ๋“ฑ์„ ํ†ตํ•ด ํšจ์œจ์„ฑ์„ ๊ทน๋Œ€ํ™”ํ–ˆ์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ ํ›„์† ํ•™์Šต ๋‹จ๊ณ„(post-training)์—์„œ๋Š” ์‚ฌ์šฉ์ž์˜ ์˜๋„์— ๋งž๋Š” ๋” ์ž์—ฐ์Šค๋Ÿฌ์šด ์ƒํ˜ธ์ž‘์šฉ์„ ์œ„ํ•œ ์„ธ๋ฐ€ํ•œ ์ง€๋„ํ•™์Šต(supervised fine-tuning) ๋ฐ ์‚ฌ์šฉ์ž ์„ ํ˜ธ ๊ธฐ๋ฐ˜ ์ตœ์ ํ™”(preference optimization)๊นŒ์ง€ ์ง„ํ–‰ํ–ˆ์Šต๋‹ˆ๋‹ค. ์—ฐ๊ตฌ์ง„์€ ๋˜ํ•œ ํŠน์ • ์‘์šฉ ์‹œ๋‚˜๋ฆฌ์˜ค(์ž„๋ฒ ๋”ฉ, ๊ฒ€์ƒ‰ ๊ธฐ๋ฐ˜ ์ƒ์„ฑ, ํ•จ์ˆ˜ ํ˜ธ์ถœ ๋“ฑ)์— ํŠนํ™”๋œ ๋ชจ๋ธ ์กฐ์ • ๊ธฐ๋ฒ•๋„ ์†Œ๊ฐœํ–ˆ์œผ๋ฉฐ, ๊ณต๊ฐœ๋œ Kanana ๋ชจ๋ธ(2.1B ํŒŒ๋ผ๋ฏธํ„ฐ ๊ทœ๋ชจ)์ด ํ•œ๊ตญ์–ด NLP ์—ฐ๊ตฌ ํ™œ์„ฑํ™”์— ๊ธฐ์—ฌํ•  ๊ฒƒ์œผ๋กœ ๊ธฐ๋Œ€ํ•ฉ๋‹ˆ๋‹ค.

๊ธฐํƒ€ ์‘์šฉ๋ถ„์•ผ

SurveyX: Academic Survey Automation via Large Language Models*

Paper, Project

์ด ๋…ผ๋ฌธ์€ ๋Œ€ํ˜• ์–ธ์–ด ๋ชจ๋ธ(LLM)์˜ ๋›ฐ์–ด๋‚œ ์ดํ•ด๋ ฅ๊ณผ ๋ฐฉ๋Œ€ํ•œ ์ง€์‹์„ ํ™œ์šฉํ•˜์—ฌ ํ•™์ˆ ์  ์„ค๋ฌธ์กฐ์‚ฌ๋ฅผ ์ž๋™์œผ๋กœ ์ƒ์„ฑํ•˜๋Š” ํ˜์‹ ์ ์ธ ์‹œ์Šคํ…œ์„ ์†Œ๊ฐœํ•ฉ๋‹ˆ๋‹ค. ๊ธฐ์กด์˜ ์ž๋™ ์„ค๋ฌธ ์ƒ์„ฑ ์—ฐ๊ตฌ๋Š” ๋งฅ๋ฝ ์ฐฝ์˜ ์ œํ•œ์„ฑ์ด๋‚˜ ์‹ฌ๋„ ์žˆ๋Š” ๋‚ด์šฉ ๋ถ€์กฑ ๋“ฑ ๋‹ค์–‘ํ•œ ํ•œ๊ณ„๊ฐ€ ์žˆ์—ˆ์Šต๋‹ˆ๋‹ค. ์ด๋ฅผ ๊ทน๋ณตํ•˜๊ธฐ ์œ„ํ•ด ์—ฐ๊ตฌ์ง„์€ ์ธ๊ฐ„์ด ์‹ค์ œ๋กœ ์„ค๋ฌธ์„ ์ž‘์„ฑํ•  ๋•Œ ์‚ฌ์šฉํ•˜๋Š” ๋‹จ๊ณ„์  ์ ‘๊ทผ๋ฒ•์„ ๋ณธ๋œฌ ์ฒด๊ณ„์ ์ธ ์‹œ์Šคํ…œ์ธ SurveyX๋ฅผ ๊ฐœ๋ฐœํ–ˆ์Šต๋‹ˆ๋‹ค. SurveyX ์‹œ์Šคํ…œ์€ ํฌ๊ฒŒ ์ค€๋น„ ๋‹จ๊ณ„์™€ ์ƒ์„ฑ ๋‹จ๊ณ„๋ผ๋Š” ๋‘ ๋‹จ๊ณ„๋กœ ๊ตฌ๋ถ„๋ฉ๋‹ˆ๋‹ค. ์ค€๋น„ ๋‹จ๊ณ„์—์„œ๋Š” ์˜จ๋ผ์ธ์—์„œ ์‹ค์‹œ๊ฐ„์œผ๋กœ ์ฐธ๊ณ ์ž๋ฃŒ๋ฅผ ์ž๋™์œผ๋กœ ๊ฒ€์ƒ‰ํ•˜์—ฌ ํ’๋ถ€ํ•œ ํ•™์ˆ  ์ •๋ณด๋ฅผ ์ˆ˜์ง‘ํ•˜๊ณ , AttributeTree๋ผ๋Š” ๋…์ž์ ์ธ ์ •๋ณด ๊ตฌ์กฐํ™” ๊ธฐ๋ฒ•์„ ํ†ตํ•ด ์ด๋ฅผ ์ฒด๊ณ„์ ์œผ๋กœ ์ •๋ฆฌํ•ฉ๋‹ˆ๋‹ค. ์ด์–ด์ง€๋Š” ์ƒ์„ฑ ๋‹จ๊ณ„์—์„œ๋Š” ์ด๋ ‡๊ฒŒ ์ค€๋น„๋œ ์ž๋ฃŒ๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ์„ค๋ฌธ ๋ฌธํ•ญ์„ ์ƒ์„ฑํ•œ ๋’ค, ์ตœ์ข…์ ์œผ๋กœ ๊ฒฐ๊ณผ๋ฌผ์„ ํ•œ ๋ฒˆ ๋” ์ •๊ตํ•˜๊ฒŒ ๋‹ค๋“ฌ๋Š”(re-polishing) ๊ณผ์ •์„ ๊ฑฐ์นฉ๋‹ˆ๋‹ค. ์‹คํ—˜ ๊ฒฐ๊ณผ SurveyX๋Š” ์ฝ˜ํ…์ธ  ํ’ˆ์งˆ๊ณผ ์ธ์šฉ ํ’ˆ์งˆ ๋ฉด์—์„œ ๋ชจ๋‘ ๊ธฐ์กด์˜ ์„ค๋ฌธ ์ž๋™ํ™” ์‹œ์Šคํ…œ์„ ํฐ ์ฐจ์ด๋กœ ๋Šฅ๊ฐ€ํ–ˆ์œผ๋ฉฐ, ์ผ๋ถ€ ์ง€ํ‘œ์—์„œ๋Š” ์ธ๊ฐ„ ์ „๋ฌธ๊ฐ€ ์ˆ˜์ค€์˜ ์„ฑ๋Šฅ์— ๊ทผ์ ‘ํ–ˆ์Šต๋‹ˆ๋‹ค. ์—ฐ๊ตฌ์ง„์€ ์‹ค์ œ ์˜ˆ์‹œ๋“ค์„ ๊ณต๊ฐœํ•˜์—ฌ ํ•™์ˆ ์  ์„ค๋ฌธ ์—ฐ๊ตฌ๋ฅผ ์ˆ˜ํ–‰ํ•˜๋Š” ์—ฐ๊ตฌ์ž๋“ค์—๊ฒŒ ์‹ค์งˆ์ ์ธ ๋„์›€์„ ์ œ๊ณตํ•˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค.

Mol-LLaMA: Towards General Understanding of Molecules in Large Molecular Language Model

Paper, Project

๋ถ„์ž๋ฅผ ์ž˜ ์ดํ•ดํ•˜๋Š” ๊ฒƒ์€ ์ƒ๋ช…์ฒด์˜ ์ดํ•ด๋‚˜ ์‹ ์•ฝ ๊ฐœ๋ฐœ ๋“ฑ ๋‹ค์–‘ํ•œ ๋ถ„์•ผ์—์„œ ํ•ต์‹ฌ์ ์ธ ์—ญํ• ์„ ํ•ฉ๋‹ˆ๋‹ค. ์ตœ๊ทผ ๋ถ„์ž ๊ตฌ์กฐ๋ฅผ ์–ธ์–ด ๋ชจ๋ธ ํ˜•ํƒœ๋กœ ํ•ด์„ํ•˜๋Š” ์—ฐ๊ตฌ๋“ค์ด ๋งŽ์•˜์ง€๋งŒ, ๊ธฐ์กด์˜ ๋ถ„์ž ์–ธ์–ด ๋ชจ๋ธ๋“ค์€ ํŠน์ • ์ž‘์—…(task-oriented)์— ํŠนํ™”๋œ ์ œํ•œ๋œ ๋ฐ์ดํ„ฐ์…‹๋งŒ์„ ์‚ฌ์šฉํ•˜์—ฌ ํ›ˆ๋ จ๋˜์–ด ์žˆ์–ด, ๋ถ„์ž์˜ ๋ณธ์งˆ์ ์ธ ํŠน์„ฑ์— ๋Œ€ํ•œ ์ผ๋ฐ˜์  ์ดํ•ด๊ฐ€ ๋ถ€์กฑํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด ์—ฐ๊ตฌ๋Š” ๊ทธ๋Ÿฌํ•œ ํ•œ๊ณ„๋ฅผ ๊ทน๋ณตํ•˜๊ณ ์ž ๋ฒ”์šฉ์ ์ธ ๋ถ„์ž ์ดํ•ด๋ฅผ ๋ชฉํ‘œ๋กœ ํ•˜๋Š” ์ƒˆ๋กœ์šด ๋ถ„์ž ์–ธ์–ด ๋ชจ๋ธ์ธ Mol-LLaMA๋ฅผ ์ œ์•ˆํ–ˆ์Šต๋‹ˆ๋‹ค. Mol-LLaMA๋Š” ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ง€์‹œ ํ•™์Šต(multi-modal instruction tuning) ๊ธฐ๋ฒ•์„ ํ™œ์šฉํ•ด ๋ถ„์ž ๊ตฌ์กฐ์—์„œ ์œ ๋ž˜ํ•˜๋Š” ๋ณธ์งˆ์  ํŠน์„ฑ๋“ค์„ ํฌ๊ด„์ ์œผ๋กœ ํ•™์Šตํ•˜๋ฉฐ, ๋‹ค์–‘ํ•œ ํ˜•ํƒœ์˜ ๋ถ„์ž ํ‘œํ˜„๋ฒ•์„ ๊ฒฐํ•ฉํ•œ ๋‹ค์ค‘ ์ธ์ฝ”๋” ๋ชจ๋“ˆ์„ ํƒ‘์žฌํ•˜์—ฌ ๋ณด๋‹ค ๊นŠ์ด ์žˆ๋Š” ๋ถ„์ž ํŠน์„ฑ์„ ํ•™์Šตํ•ฉ๋‹ˆ๋‹ค. ๊ทธ ๊ฒฐ๊ณผ, ์‚ฌ์šฉ์ž์˜ ์งˆ์˜์— ๋Œ€ํ•ด ๋ถ„์ž์˜ ์ผ๋ฐ˜์ ์ธ ํŠน์„ฑ์„ ๊ธฐ๋ฐ˜์œผ๋กœ ์ƒ์„ธํ•˜๊ณ  ๋ช…ํ™•ํ•œ ์„ค๋ช…์„ ์ œ๊ณตํ•  ์ˆ˜ ์žˆ๋Š” ์ˆ˜์ค€์œผ๋กœ ๋ฐœ์ „ํ–ˆ์Šต๋‹ˆ๋‹ค. ์—ฐ๊ตฌ์ง„์€ ์ด ๋ชจ๋ธ์ด ํ–ฅํ›„ ์ผ๋ฐ˜ ๋ชฉ์ ์˜ ๋ถ„์ž ๋ถ„์„์„ ์œ„ํ•œ ๋ฒ”์šฉ AI ๋„๊ตฌ๋กœ ๋ฐœ์ „ํ•  ๊ฐ€๋Šฅ์„ฑ์„ ๊ฐ•์กฐํ–ˆ์Šต๋‹ˆ๋‹ค.

profile
XR๊ณผ AI์— ๊ด€์‹ฌ์ด ๋งŽ์€ Sky ์ž…๋‹ˆ๋‹ค.

0๊ฐœ์˜ ๋Œ“๊ธ€