[2025/W06] ๐Ÿค— Weekly AI Research

Skyยท2025๋…„ 2์›” 8์ผ

Weekly AI Research Digest

๋ชฉ๋ก ๋ณด๊ธฐ
6/89

2025๋…„ 6์ฃผ์ฐจ์— ๊ณต๊ฐœ๋œ ์ฃผ๋ชฉํ• ๋งŒํ•œ AI ๋ถ„์•ผ์˜ ๋…ผ๋ฌธ๋“ค์„ ์†Œ๊ฐœํ•ฉ๋‹ˆ๋‹ค.

์–ธ์–ด ๋ชจ๋ธ (Language Models) ๊ด€๋ จ

s1: Simple test-time scaling

Paper, Project

์ด ๋…ผ๋ฌธ์€ ์–ธ์–ด ๋ชจ๋ธ์˜ ์„ฑ๋Šฅ์„ ํ–ฅ์ƒ์‹œํ‚ค๋Š” ์ƒˆ๋กœ์šด ๋ฐฉ๋ฒ•์ธ 'ํ…Œ์ŠคํŠธ ์‹œ๊ฐ„ ์Šค์ผ€์ผ๋ง'์— ๊ด€ํ•œ ์—ฐ๊ตฌ๋ฅผ ๋‹ค๋ฃจ๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. ์ตœ๊ทผ OpenAI์˜ o1 ๋ชจ๋ธ์ด ์ด๋Ÿฌํ•œ ๋Šฅ๋ ฅ์„ ๋ณด์—ฌ์ฃผ์—ˆ์ง€๋งŒ, ๊ตฌ์ฒด์ ์ธ ๋ฐฉ๋ฒ•๋ก ์„ ๊ณต๊ฐœํ•˜์ง€ ์•Š์•„ ๋งŽ์€ ์—ฐ๊ตฌ์ž๋“ค์ด ์ด๋ฅผ ์žฌํ˜„ํ•˜๋ ค ์‹œ๋„ํ•ด์™”์Šต๋‹ˆ๋‹ค.

์—ฐ๊ตฌ์ง„์€ ๊ฐ€์žฅ ๋‹จ์ˆœํ•˜๋ฉด์„œ๋„ ํšจ๊ณผ์ ์ธ ๋ฐฉ๋ฒ•์„ ์ฐพ๊ณ ์ž ํ–ˆ์Šต๋‹ˆ๋‹ค. ๋จผ์ €, ๋‚œ์ด๋„, ๋‹ค์–‘์„ฑ, ํ’ˆ์งˆ์ด๋ผ๋Š” ์„ธ ๊ฐ€์ง€ ๊ธฐ์ค€์„ ๋ฐ”ํƒ•์œผ๋กœ 1,000๊ฐœ์˜ ๋ฌธ์ œ์™€ ๊ทธ์— ๋”ฐ๋ฅธ ์ถ”๋ก  ๊ณผ์ •์„ ์—„์„ ํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ๊ธฐ์ค€์˜ ์œ ํšจ์„ฑ์€ ์‹คํ—˜์„ ํ†ตํ•ด ๊ฒ€์ฆ๋˜์—ˆ์Šต๋‹ˆ๋‹ค.

๋‹ค์Œ์œผ๋กœ, '์˜ˆ์‚ฐ ๊ฐ•์ œ(budget forcing)'๋ผ๋Š” ์ƒˆ๋กœ์šด ๊ธฐ๋ฒ•์„ ๊ฐœ๋ฐœํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” AI๊ฐ€ ๋‹ต์„ ๋„์ถœํ•˜๋Š” ๊ณผ์ •์—์„œ ์ƒ๊ฐํ•˜๋Š” ์‹œ๊ฐ„์„ ์กฐ์ ˆํ•˜๋Š” ๋ฐฉ๋ฒ•์ž…๋‹ˆ๋‹ค. AI๊ฐ€ ๋„ˆ๋ฌด ๋นจ๋ฆฌ ๊ฒฐ๋ก ์„ ๋‚ด๋ฆฌ๋ ค ํ•  ๋•Œ๋Š” ๊ฐ•์ œ๋กœ ์ค‘๋‹จํ•˜๊ฑฐ๋‚˜, "Wait"๋ผ๋Š” ๋ช…๋ น์–ด๋ฅผ ์—ฌ๋Ÿฌ ๋ฒˆ ์ถ”๊ฐ€ํ•˜์—ฌ ๋” ์˜ค๋ž˜ ์ƒ๊ฐํ•˜๋„๋ก ์œ ๋„ํ•ฉ๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด AI๋Š” ์ž์‹ ์˜ ๋‹ต๋ณ€์„ ์žฌ๊ฒ€ํ† ํ•˜๊ณ  ์ž˜๋ชป๋œ ์ถ”๋ก  ๋‹จ๊ณ„๋ฅผ ์ˆ˜์ •ํ•  ์ˆ˜ ์žˆ๊ฒŒ ๋ฉ๋‹ˆ๋‹ค.

์ด๋Ÿฌํ•œ ๋ฐฉ๋ฒ•์„ Qwen2.5-32B-Instruct ์–ธ์–ด ๋ชจ๋ธ์— ์ ์šฉํ•œ ๊ฒฐ๊ณผ, ์ˆ˜ํ•™ ๊ฒฝ์‹œ๋Œ€ํšŒ ์ˆ˜์ค€์˜ ๋ฌธ์ œ ํ•ด๊ฒฐ์—์„œ ๋†€๋ผ์šด ์„ฑ๊ณผ๋ฅผ ๋ณด์˜€์Šต๋‹ˆ๋‹ค. ํŠนํžˆ MATH์™€ AIME24์™€ ๊ฐ™์€ ๊ณ ๋‚œ๋„ ์ˆ˜ํ•™ ๋ฌธ์ œ์—์„œ ๊ธฐ์กด o1-preview ๋ชจ๋ธ๋ณด๋‹ค ์ตœ๋Œ€ 27% ํ–ฅ์ƒ๋œ ์„ฑ๋Šฅ์„ ๋ณด์˜€์Šต๋‹ˆ๋‹ค. ๋”์šฑ ์ฃผ๋ชฉํ•  ๋งŒํ•œ ์ ์€, ์˜ˆ์‚ฐ ๊ฐ•์ œ ๊ธฐ๋ฒ•์„ ํ†ตํ•œ ์Šค์ผ€์ผ๋ง์œผ๋กœ AIME24์—์„œ ๊ธฐ์กด 50%์—์„œ 57%๋กœ ์„ฑ๋Šฅ์ด ํ–ฅ์ƒ๋˜์—ˆ๋‹ค๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค.

์ด ์—ฐ๊ตฌ๋Š” AI๊ฐ€ ๋” ์‹ ์ค‘ํ•˜๊ฒŒ ์‚ฌ๊ณ ํ•˜๊ณ  ๋‹ต๋ณ€์„ ๊ฒ€ํ† ํ•  ์ˆ˜ ์žˆ๋„๋ก ํ•˜๋Š” ๊ฐ„๋‹จํ•˜๋ฉด์„œ๋„ ํšจ๊ณผ์ ์ธ ๋ฐฉ๋ฒ•์„ ์ œ์‹œํ–ˆ๋‹ค๋Š” ์ ์—์„œ ํฐ ์˜๋ฏธ๊ฐ€ ์žˆ์Šต๋‹ˆ๋‹ค. ํŠนํžˆ ๋ณต์žกํ•œ ์ถ”๋ก ์ด ํ•„์š”ํ•œ ๋ฌธ์ œ ํ•ด๊ฒฐ์—์„œ๋„ ๋›ฐ์–ด๋‚œ ์„ฑ๋Šฅ ํ–ฅ์ƒ์„ ๋ณด์—ฌ์ฃผ์–ด, ํ–ฅํ›„ AI ๋ฐœ์ „์— ์ค‘์š”ํ•œ ํ†ต์ฐฐ์„ ์ œ๊ณตํ•˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค.

The Differences Between Direct Alignment Algorithms are a Blur

Paper

์ด ๋…ผ๋ฌธ์€ ์–ธ์–ด ๋ชจ๋ธ์„ ๊ฐœ์„ ํ•˜๋Š” ์ƒˆ๋กœ์šด ๋ฐฉ์‹์ธ 'Direct Alignment Algorithms (DAAs)'์— ๋Œ€ํ•ด ์—ฐ๊ตฌํ•œ ๋‚ด์šฉ์ž…๋‹ˆ๋‹ค. ๊ธฐ์กด์— ์‚ฌ์šฉ๋˜๋˜ RLHF(Reinforcement Learning from Human Feedback) ๋ฐฉ์‹์€ ๋ณต์žกํ–ˆ๋Š”๋ฐ, DAAs๋Š” ์ด๋ฅผ ๋” ๋‹จ์ˆœํ•˜๊ฒŒ ๋งŒ๋“ค์–ด ํšจ์œจ์ ์ธ ํ•™์Šต์ด ๊ฐ€๋Šฅํ•˜๋„๋ก ํ–ˆ์Šต๋‹ˆ๋‹ค.

์—ฐ๊ตฌ์ง„์€ DAAs๋ฅผ ํฌ๊ฒŒ ๋‘ ๊ฐ€์ง€ ๋ฐฉ์‹์œผ๋กœ ๋ถ„๋ฅ˜ํ–ˆ์Šต๋‹ˆ๋‹ค. ํ•˜๋‚˜๋Š” ๋‘ ๊ฐœ์˜ ๋‹ต๋ณ€์„ ์„œ๋กœ ๋น„๊ตํ•˜๋Š” ๋ฐฉ์‹(pairwise)์ด๊ณ , ๋‹ค๋ฅธ ํ•˜๋‚˜๋Š” ๊ฐœ๋ณ„ ๋‹ต๋ณ€์„ ๋…๋ฆฝ์ ์œผ๋กœ ํ‰๊ฐ€ํ•˜๋Š” ๋ฐฉ์‹(pointwise)์ž…๋‹ˆ๋‹ค. ๋˜ํ•œ ํ•™์Šต ๊ณผ์ •์„ ํ•œ ๋ฒˆ์— ์ง„ํ–‰ํ•˜๋Š” 1๋‹จ๊ณ„ ๋ฐฉ์‹๊ณผ, ๊ธฐ๋ณธ ํ•™์Šต ํ›„ ์ถ”๊ฐ€ ํ•™์Šต์„ ํ•˜๋Š” 2๋‹จ๊ณ„ ๋ฐฉ์‹์œผ๋กœ๋„ ๋‚˜๋ˆŒ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

์—ฐ๊ตฌ ๊ฒฐ๊ณผ, 1๋‹จ๊ณ„ ๋ฐฉ์‹์ด 2๋‹จ๊ณ„ ๋ฐฉ์‹๋ณด๋‹ค ์„ฑ๋Šฅ์ด ๋–จ์–ด์ง„๋‹ค๋Š” ์‚ฌ์‹ค์„ ๋ฐœ๊ฒฌํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด๋ฅผ ๊ฐœ์„ ํ•˜๊ธฐ ์œ„ํ•ด ์—ฐ๊ตฌ์ง„์€ 'beta ํŒŒ๋ผ๋ฏธํ„ฐ'๋ผ๋Š” ์ƒˆ๋กœ์šด ์š”์†Œ๋ฅผ ๋„์ž…ํ–ˆ๊ณ , ์ด๋ฅผ ํ†ตํ•ด 1๋‹จ๊ณ„ ๋ฐฉ์‹์˜ ์„ฑ๋Šฅ์„ ํฌ๊ฒŒ ํ–ฅ์ƒ์‹œํ‚ฌ ์ˆ˜ ์žˆ์—ˆ์Šต๋‹ˆ๋‹ค. ํŠนํžˆ ORPO์™€ ASFT๋ผ๋Š” ๋ฐฉ์‹์—์„œ ๊ฐ๊ฐ 3.46์ ๊ณผ 8.27์ ์˜ ์„ฑ๋Šฅ ํ–ฅ์ƒ์„ ์ด๋Œ์–ด๋ƒˆ์Šต๋‹ˆ๋‹ค.

๋” ๋‚˜์•„๊ฐ€ ์—ฐ๊ตฌ์ง„์€ ํ•™์Šต ๋ฐฉ์‹์˜ ์„ฑ๋Šฅ์„ ์ขŒ์šฐํ•˜๋Š” ํ•ต์‹ฌ ์š”์ธ์ด ํŠน์ • ๋ณด์ƒ์ด๋‚˜ ์†์‹ค ํ•จ์ˆ˜๊ฐ€ ์•„๋‹ˆ๋ผ, pairwise ๋ฐฉ์‹์„ ์‚ฌ์šฉํ•˜๋Š”์ง€ pointwise ๋ฐฉ์‹์„ ์‚ฌ์šฉํ•˜๋Š”์ง€์— ์žˆ๋‹ค๋Š” ๊ฒƒ์„ ๋ฐํ˜€๋ƒˆ์Šต๋‹ˆ๋‹ค.

์ด ์—ฐ๊ตฌ์˜ ๊ฐ€์žฅ ์ค‘์š”ํ•œ ์‹œ์‚ฌ์ ์€ ์ƒˆ๋กœ์šด AI ํ•™์Šต ๋ฐฉ๋ฒ•์„ ๋„์ž…ํ•  ๋•Œ ์‹ ์ค‘ํ•œ ํ‰๊ฐ€๊ฐ€ ํ•„์š”ํ•˜๋‹ค๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. ์„ฑ๊ธ‰ํ•˜๊ฒŒ ์„ฑ๋Šฅ ํ–ฅ์ƒ์„ ์ฃผ์žฅํ•˜๊ฑฐ๋‚˜ ํŠน์ • ๋ฐฉ์‹์˜ ์šฐ์ˆ˜์„ฑ์„ ๋‹จ์ • ์ง“๋Š” ๊ฒƒ์€ ์œ„ํ—˜ํ•  ์ˆ˜ ์žˆ๋‹ค๋Š” ์ ์„ ๊ฐ•์กฐํ•˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ์—ฐ๊ตฌ ๊ฒฐ๊ณผ๋Š” ์•ž์œผ๋กœ์˜ AI ์–ธ์–ด ๋ชจ๋ธ ๊ฐœ๋ฐœ์— ์ค‘์š”ํ•œ ์ง€์นจ์ด ๋  ๊ฒƒ์œผ๋กœ ๊ธฐ๋Œ€๋ฉ๋‹ˆ๋‹ค.

SmolLM2: When Smol Goes Big -- Data-Centric Training of a Small Language Model

Paper, Project

์ตœ๊ทผ ์ธ๊ณต์ง€๋Šฅ ๋ถ„์•ผ์—์„œ ํฐ ์ฃผ๋ชฉ์„ ๋ฐ›๊ณ  ์žˆ๋Š” ๋Œ€ํ˜• ์–ธ์–ด ๋ชจ๋ธ๋“ค์€ ๋›ฐ์–ด๋‚œ ์„ฑ๋Šฅ์„ ๋ณด์—ฌ์ฃผ๊ณ  ์žˆ์ง€๋งŒ, ๊ทธ ํฌ๊ธฐ๊ฐ€ ๋„ˆ๋ฌด ์ปค์„œ ์ผ๋ฐ˜์ ์ธ ์ปดํ“จํ„ฐ๋‚˜ ๊ธฐ๊ธฐ์—์„œ ์‚ฌ์šฉํ•˜๊ธฐ ์–ด๋ ต๋‹ค๋Š” ํ•œ๊ณ„๊ฐ€ ์žˆ์—ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด ์—ฐ๊ตฌ์ง„์€ SmolLM2๋ผ๋Š” ์ƒˆ๋กœ์šด ์†Œํ˜• ์–ธ์–ด ๋ชจ๋ธ์„ ๊ฐœ๋ฐœํ–ˆ์Šต๋‹ˆ๋‹ค.

SmolLM2๋Š” 1.7B(17์–ต) ๊ฐœ์˜ ๋งค๊ฐœ๋ณ€์ˆ˜๋งŒ์„ ์‚ฌ์šฉํ•˜๋Š” ์ž‘์€ ๋ชจ๋ธ์ž„์—๋„ ๋ถˆ๊ตฌํ•˜๊ณ , ์•ฝ 11์กฐ ๊ฐœ์˜ ๋‹ค์–‘ํ•œ ํ…์ŠคํŠธ ๋ฐ์ดํ„ฐ๋ฅผ ํ™œ์šฉํ•œ ํŠน๋ณ„ํ•œ ํ•™์Šต ๋ฐฉ์‹์„ ํ†ตํ•ด ๋›ฐ์–ด๋‚œ ์„ฑ๋Šฅ์„ ๋‹ฌ์„ฑํ–ˆ์Šต๋‹ˆ๋‹ค. ์—ฐ๊ตฌํŒ€์€ ์ผ๋ฐ˜์ ์ธ ์›น ํ…์ŠคํŠธ๋ฟ๋งŒ ์•„๋‹ˆ๋ผ ์ˆ˜ํ•™, ํ”„๋กœ๊ทธ๋ž˜๋ฐ ์ฝ”๋“œ, ์ง€์‹œ์‚ฌํ•ญ ๋”ฐ๋ฅด๊ธฐ์™€ ๊ฐ™์€ ์ „๋ฌธ์ ์ธ ๋ฐ์ดํ„ฐ๋„ ํ•จ๊ป˜ ํ™œ์šฉํ–ˆ์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ, ๊ธฐ์กด ๋ฐ์ดํ„ฐ์…‹์˜ ํ•œ๊ณ„๋ฅผ ๊ทน๋ณตํ•˜๊ธฐ ์œ„ํ•ด FineMath, Stack-Edu, SmolTalk์™€ ๊ฐ™์€ ์ƒˆ๋กœ์šด ๋ฐ์ดํ„ฐ์…‹์„ ์ง์ ‘ ๊ฐœ๋ฐœํ•˜์—ฌ ํ•™์Šต์— ํ™œ์šฉํ–ˆ์Šต๋‹ˆ๋‹ค.

์—ฐ๊ตฌ ๊ฒฐ๊ณผ, SmolLM2๋Š” ๋น„์Šทํ•œ ํฌ๊ธฐ์˜ ๋‹ค๋ฅธ ์–ธ์–ด ๋ชจ๋ธ๋“ค์ธ Qwen2.5-1.5B์™€ Llama3.2-1B๋ณด๋‹ค ๋” ์šฐ์ˆ˜ํ•œ ์„ฑ๋Šฅ์„ ๋ณด์—ฌ์ฃผ์—ˆ์Šต๋‹ˆ๋‹ค. ์—ฐ๊ตฌํŒ€์€ ์ด๋Ÿฌํ•œ ์„ฑ๊ณผ๋ฅผ ๋‹ค๋ฅธ ์—ฐ๊ตฌ์ž๋“ค๊ณผ ๊ณต์œ ํ•˜๊ณ  ๋” ๋‚˜์€ ๋ฐœ์ „์„ ์ด๋ฃจ๊ธฐ ์œ„ํ•ด ๊ฐœ๋ฐœํ•œ ๋ชจ๋ธ๊ณผ ๋ฐ์ดํ„ฐ์…‹์„ ๋ชจ๋‘ ๊ณต๊ฐœํ–ˆ์Šต๋‹ˆ๋‹ค.

์ด ์—ฐ๊ตฌ๋Š” ๋Œ€ํ˜• ์–ธ์–ด ๋ชจ๋ธ์˜ ํฌ๊ธฐ๋ฅผ ๋Œ€ํญ ์ค„์ด๋ฉด์„œ๋„ ๋†’์€ ์„ฑ๋Šฅ์„ ์œ ์ง€ํ•  ์ˆ˜ ์žˆ๋‹ค๋Š” ๊ฒƒ์„ ์ž…์ฆํ–ˆ๋‹ค๋Š” ์ ์—์„œ ํฐ ์˜๋ฏธ๊ฐ€ ์žˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” ํ–ฅํ›„ ์ผ๋ฐ˜ ์‚ฌ์šฉ์ž๋“ค๋„ ๊ฐœ์ธ ์ปดํ“จํ„ฐ๋‚˜ ๋ชจ๋ฐ”์ผ ๊ธฐ๊ธฐ์—์„œ ๊ณ ์„ฑ๋Šฅ AI๋ฅผ ํ™œ์šฉํ•  ์ˆ˜ ์žˆ๋Š” ๊ฐ€๋Šฅ์„ฑ์„ ์ œ์‹œํ–ˆ๋‹ค๋Š” ์ ์—์„œ ๋งค์šฐ ์ค‘์š”ํ•œ ์—ฐ๊ตฌ๋กœ ํ‰๊ฐ€๋ฉ๋‹ˆ๋‹ค.

Analyze Feature Flow to Enhance Interpretation and Steering in Language Models

Paper

์ด ๋…ผ๋ฌธ์€ ๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ์˜ ๋‚ด๋ถ€ ์ž‘๋™ ๋ฐฉ์‹์„ ๋” ์ž˜ ์ดํ•ดํ•˜๊ณ  ์ œ์–ดํ•˜๊ธฐ ์œ„ํ•œ ์ƒˆ๋กœ์šด ์ ‘๊ทผ ๋ฐฉ๋ฒ•์„ ์†Œ๊ฐœํ•˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค.

์—ฐ๊ตฌ์ง„์€ ์–ธ์–ด ๋ชจ๋ธ์˜ ์—ฌ๋Ÿฌ ์ธต(layer)์—์„œ ๋ฐœ๊ฒฌ๋˜๋Š” ํŠน์ง•๋“ค์ด ์–ด๋–ป๊ฒŒ ์—ฐ๊ฒฐ๋˜๊ณ  ๋ฐœ์ „ํ•˜๋Š”์ง€๋ฅผ ์ฒด๊ณ„์ ์œผ๋กœ ์ถ”์ ํ•˜๋Š” ๋ฐฉ๋ฒ•์„ ๊ฐœ๋ฐœํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด ๋ฐฉ๋ฒ•์€ ๋ฐ์ดํ„ฐ๋ฅผ ํ•„์š”๋กœ ํ•˜์ง€ ์•Š๋Š” ์ฝ”์‚ฌ์ธ ์œ ์‚ฌ๋„ ๊ธฐ๋ฒ•์„ ์‚ฌ์šฉํ•˜์—ฌ, ๊ฐ ์ธต์—์„œ ํŠน์ • ํŠน์ง•๋“ค์ด ์–ด๋–ป๊ฒŒ ์œ ์ง€๋˜๊ฑฐ๋‚˜, ๋ณ€ํ™”ํ•˜๊ฑฐ๋‚˜, ์ƒˆ๋กญ๊ฒŒ ๋‚˜ํƒ€๋‚˜๋Š”์ง€๋ฅผ ๊ด€์ฐฐํ•  ์ˆ˜ ์žˆ๊ฒŒ ํ•ด์ค๋‹ˆ๋‹ค.

์ด๋Ÿฌํ•œ ์ ‘๊ทผ ๋ฐฉ์‹์€ ๋งˆ์น˜ ํŠน์ง•๋“ค์˜ 'ํ๋ฆ„๋„'๋ฅผ ๋งŒ๋“ค์–ด๋‚ด๋Š” ๊ฒƒ๊ณผ ๊ฐ™์Šต๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด AI ๋ชจ๋ธ์ด ์ •๋ณด๋ฅผ ์ฒ˜๋ฆฌํ•˜๋Š” ์„ธ๋ถ€์ ์ธ ๊ณผ์ •์„ ์ดํ•ดํ•  ์ˆ˜ ์žˆ๊ฒŒ ๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ๋” ๋‚˜์•„๊ฐ€, ์ด ์—ฐ๊ตฌ์˜ ๊ฐ€์žฅ ์ค‘์š”ํ•œ ๋ฐœ๊ฒฌ์€ ์ด๋Ÿฌํ•œ ์ธต๊ฐ„ ํŠน์ง• ์ง€๋„๋ฅผ ํ™œ์šฉํ•˜์—ฌ ๋ชจ๋ธ์˜ ๋™์ž‘์„ ์ง์ ‘์ ์œผ๋กœ ์กฐ์ ˆํ•  ์ˆ˜ ์žˆ๋‹ค๋Š” ์ ์ž…๋‹ˆ๋‹ค. ์›ํ•˜๋Š” ํŠน์ง•์„ ๊ฐ•ํ™”ํ•˜๊ฑฐ๋‚˜ ์•ฝํ™”์‹œํ‚ด์œผ๋กœ์จ, ํ…์ŠคํŠธ ์ƒ์„ฑ ๊ณผ์ •์—์„œ ํŠน์ • ์ฃผ์ œ๋‚˜ ์Šคํƒ€์ผ์„ ์›ํ•˜๋Š” ๋Œ€๋กœ ์ œ์–ดํ•  ์ˆ˜ ์žˆ๊ฒŒ ๋˜์—ˆ์Šต๋‹ˆ๋‹ค.

๊ฒฐ๊ณผ์ ์œผ๋กœ ์ด ์—ฐ๊ตฌ๋Š” ๋‹จ์ˆœํžˆ ๋ชจ๋ธ์˜ ์ž‘๋™ ๋ฐฉ์‹์„ ์ดํ•ดํ•˜๋Š” ๊ฒƒ์„ ๋„˜์–ด์„œ, ๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ์„ ํˆฌ๋ช…ํ•˜๊ณ  ํšจ๊ณผ์ ์œผ๋กœ ์ œ์–ดํ•  ์ˆ˜ ์žˆ๋Š” ์ƒˆ๋กœ์šด ๋ฐฉ๋ฒ•์„ ์ œ์‹œํ–ˆ๋‹ค๋Š” ์ ์—์„œ ํฐ ์˜์˜๊ฐ€ ์žˆ์Šต๋‹ˆ๋‹ค.

๋น„๋””์˜ค/์• ๋‹ˆ๋ฉ”์ด์…˜ ์ƒ์„ฑ ๊ด€๋ จ

OmniHuman-1: Rethinking the Scaling-Up of One-Stage Conditioned Human Animation Models

Paper, Project

OmniHuman์€ ์ธ๊ณต์ง€๋Šฅ์„ ํ™œ์šฉํ•ด ์‚ฌ๋žŒ์˜ ์›€์ง์ž„์„ ์ž์—ฐ์Šค๋Ÿฝ๊ฒŒ ์ƒ์„ฑํ•˜๋Š” ์ƒˆ๋กœ์šด ์‹œ์Šคํ…œ์„ ์†Œ๊ฐœํ•˜๋Š” ์—ฐ๊ตฌ์ž…๋‹ˆ๋‹ค. ์ตœ๊ทผ ๋ช‡ ๋…„๊ฐ„ ์Œ์„ฑ์„ ๊ธฐ๋ฐ˜์œผ๋กœ ๋งํ•˜๋Š” ์‚ฌ๋žŒ์˜ ์˜์ƒ์„ ๋งŒ๋“œ๋Š” ๊ธฐ์ˆ ์ด ๋งŽ์ด ๋ฐœ์ „ํ–ˆ์ง€๋งŒ, ์‹ค์ œ ์‘์šฉํ•˜๊ธฐ์—๋Š” ์—ฌ์ „ํžˆ ํ•œ๊ณ„๊ฐ€ ์žˆ์—ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ํ•œ๊ณ„๋ฅผ ๊ทน๋ณตํ•˜๊ธฐ ์œ„ํ•ด ์—ฐ๊ตฌ์ง„์€ '๋””ํ“จ์ „ ํŠธ๋žœ์Šคํฌ๋จธ'๋ผ๋Š” AI ๊ธฐ์ˆ ์„ ๊ธฐ๋ฐ˜์œผ๋กœ OmniHuman์„ ๊ฐœ๋ฐœํ–ˆ์Šต๋‹ˆ๋‹ค.

OmniHuman์˜ ๊ฐ€์žฅ ํฐ ํŠน์ง•์€ ๋‹ค์–‘ํ•œ ํ˜•ํƒœ์˜ ์ธ๋ฌผ ์˜์ƒ์„ ์ž์—ฐ์Šค๋Ÿฝ๊ฒŒ ๋‹ค๋ฃฐ ์ˆ˜ ์žˆ๋‹ค๋Š” ์ ์ž…๋‹ˆ๋‹ค. ์–ผ๊ตด ํด๋กœ์ฆˆ์—…๋ถ€ํ„ฐ ์ƒ๋ฐ˜์‹ , ์ „์‹ ๊นŒ์ง€ ๋‹ค์–‘ํ•œ ํ™”๋ฉด ๊ตฌ๋„๋ฅผ ์ง€์›ํ•˜๋ฉฐ, ๋งํ•˜๊ธฐ๋ฟ๋งŒ ์•„๋‹ˆ๋ผ ๋…ธ๋ž˜ํ•˜๋Š” ๋ชจ์Šต๋„ ์ƒ์„ฑํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ ์‚ฌ๋žŒ์ด ๋ฌผ์ฒด์™€ ์ƒํ˜ธ์ž‘์šฉํ•˜๋Š” ๋ณต์žกํ•œ ๋™์ž‘๋„ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ์œผ๋ฉฐ, ๋‹ค์–‘ํ•œ ์ด๋ฏธ์ง€ ์Šคํƒ€์ผ๋„ ์ง€์›ํ•ฉ๋‹ˆ๋‹ค.

๊ธฐ์กด ์‹œ์Šคํ…œ๋“ค๊ณผ ๋น„๊ตํ–ˆ์„ ๋•Œ OmniHuman์˜ ๊ฐ€์žฅ ํฐ ์žฅ์ ์€ ์ž…๋ ฅ ๋ฐฉ์‹์˜ ์œ ์—ฐ์„ฑ์ž…๋‹ˆ๋‹ค. ์Œ์„ฑ๋งŒ์œผ๋กœ๋„, ์˜์ƒ๋งŒ์œผ๋กœ๋„, ๋˜๋Š” ๋‘˜์„ ์กฐํ•ฉํ•ด์„œ๋„ ์›ํ•˜๋Š” ์›€์ง์ž„์„ ๋งŒ๋“ค์–ด๋‚ผ ์ˆ˜ ์žˆ์–ด ํ™œ์šฉ๋„๊ฐ€ ๋งค์šฐ ๋†’์Šต๋‹ˆ๋‹ค. ๋”๋ถˆ์–ด ์ƒ์„ฑ๋˜๋Š” ์˜์ƒ์˜ ํ’ˆ์งˆ๋„ ๋”์šฑ ํ˜„์‹ค์ ์ด์–ด์„œ, ์˜ํ™” ์ œ์ž‘, ๊ฐ€์ƒ ์œ ํŠœ๋ฒ„, ๊ต์œก์šฉ ์ฝ˜ํ…์ธ  ์ œ์ž‘ ๋“ฑ ๋‹ค์–‘ํ•œ ๋ถ„์•ผ์—์„œ ํ™œ์šฉ๋  ์ˆ˜ ์žˆ์„ ๊ฒƒ์œผ๋กœ ๊ธฐ๋Œ€๋ฉ๋‹ˆ๋‹ค.

์ด ์—ฐ๊ตฌ๋Š” ์ธ๊ณต์ง€๋Šฅ ๊ธฐ์ˆ ์„ ํ†ตํ•ด ์ธ๊ฐ„์˜ ์›€์ง์ž„์„ ๋”์šฑ ์ž์—ฐ์Šค๋Ÿฝ๊ณ  ๋‹ค์–‘ํ•˜๊ฒŒ ํ‘œํ˜„ํ•  ์ˆ˜ ์žˆ๋Š” ๊ฐ€๋Šฅ์„ฑ์„ ๋ณด์—ฌ์ฃผ์—ˆ๋‹ค๋Š” ์ ์—์„œ ํฐ ์˜์˜๊ฐ€ ์žˆ์Šต๋‹ˆ๋‹ค.

VideoJAM: Joint Appearance-Motion Representations for Enhanced Motion Generation in Video Models

Paper, Project

์ตœ๊ทผ AI๋ฅผ ํ™œ์šฉํ•œ ๋น„๋””์˜ค ์ƒ์„ฑ ๊ธฐ์ˆ ์ด ํฌ๊ฒŒ ๋ฐœ์ „ํ–ˆ์ง€๋งŒ, ํ˜„์‹ค ์„ธ๊ณ„์˜ ์ž์—ฐ์Šค๋Ÿฌ์šด ์›€์ง์ž„๊ณผ ๋ฌผ๋ฆฌ์  ํŠน์„ฑ์„ ์ •ํ™•ํ•˜๊ฒŒ ํ‘œํ˜„ํ•˜๋Š” ๋ฐ๋Š” ์—ฌ์ „ํžˆ ํ•œ๊ณ„๊ฐ€ ์žˆ์—ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” ๊ธฐ์กด ๋ชจ๋ธ๋“ค์ด ์˜์ƒ์˜ ์‹œ๊ฐ์  ํ’ˆ์งˆ์—๋งŒ ์ค‘์ ์„ ๋‘๊ณ , ์›€์ง์ž„์˜ ์ž์—ฐ์Šค๋Ÿฌ์›€์€ ์ƒ๋Œ€์ ์œผ๋กœ ์†Œํ™€ํžˆ ๋‹ค๋ฃจ์—ˆ๊ธฐ ๋•Œ๋ฌธ์ž…๋‹ˆ๋‹ค.

์ด๋Ÿฌํ•œ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด ์—ฐ๊ตฌ์ง„์€ 'VideoJAM'์ด๋ผ๋Š” ์ƒˆ๋กœ์šด ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ๊ฐœ๋ฐœํ–ˆ์Šต๋‹ˆ๋‹ค. VideoJAM์˜ ํ•ต์‹ฌ์€ ์˜์ƒ์˜ ์™ธํ˜•๊ณผ ์›€์ง์ž„์„ ๋™์‹œ์— ๊ณ ๋ คํ•˜๋Š” ํ•™์Šต ๋ฐฉ์‹์ž…๋‹ˆ๋‹ค. ์ด๋Š” ๋งˆ์น˜ ์‚ฌ๋žŒ์ด ์˜์ƒ์„ ๋ณผ ๋•Œ ๋ชจ์Šต๊ณผ ์›€์ง์ž„์„ ์ž์—ฐ์Šค๋Ÿฝ๊ฒŒ ํ•จ๊ป˜ ์ธ์‹ํ•˜๋Š” ๊ฒƒ๊ณผ ์œ ์‚ฌํ•œ ๋ฐฉ์‹์ž…๋‹ˆ๋‹ค. ๋˜ํ•œ, 'Inner-Guidance'๋ผ๋Š” ํŠน๋ณ„ํ•œ ์‹œ์Šคํ…œ์„ ๋„์ž…ํ•˜์—ฌ AI๊ฐ€ ์˜์ƒ์„ ์ƒ์„ฑํ•˜๋Š” ๊ณผ์ •์—์„œ ์Šค์Šค๋กœ ์›€์ง์ž„์„ ์˜ˆ์ธกํ•˜๊ณ  ๋ณด์ •ํ•  ์ˆ˜ ์žˆ๊ฒŒ ๋งŒ๋“ค์—ˆ์Šต๋‹ˆ๋‹ค.

VideoJAM์˜ ์ฃผ๋ชฉํ•  ๋งŒํ•œ ํŠน์ง•์€ ๊ธฐ์กด ๋น„๋””์˜ค ์ƒ์„ฑ ๋ชจ๋ธ์— ํฐ ๋ณ€ํ™” ์—†์ด ์ ์šฉํ•  ์ˆ˜ ์žˆ๋‹ค๋Š” ์ ์ž…๋‹ˆ๋‹ค. ์ƒˆ๋กœ์šด ํ•™์Šต ๋ฐ์ดํ„ฐ๋ฅผ ์ถ”๊ฐ€ํ•˜๊ฑฐ๋‚˜ ๋ชจ๋ธ์˜ ๊ทœ๋ชจ๋ฅผ ํ‚ค์šธ ํ•„์š”๊ฐ€ ์—†์œผ๋ฉด์„œ๋„, ์ƒ์„ฑ๋œ ์˜์ƒ์˜ ์‹œ๊ฐ์  ํ’ˆ์งˆ๊ณผ ์›€์ง์ž„์˜ ์ž์—ฐ์Šค๋Ÿฌ์›€์„ ๋ชจ๋‘ ํ–ฅ์ƒ์‹œํ‚ฌ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

์ด ์—ฐ๊ตฌ๋Š” ๋น„๋””์˜ค ์ƒ์„ฑ์— ์žˆ์–ด ์‹œ๊ฐ์  ์š”์†Œ์™€ ๋™์  ์š”์†Œ๊ฐ€ ์„œ๋กœ ๋ณด์™„์ ์ธ ๊ด€๊ณ„์— ์žˆ์Œ์„ ๋ณด์—ฌ์ฃผ๋ฉฐ, ์ด ๋‘ ๊ฐ€์ง€ ์š”์†Œ๋ฅผ ํšจ๊ณผ์ ์œผ๋กœ ํ†ตํ•ฉํ•  ๋•Œ ๋” ๋†’์€ ํ’ˆ์งˆ์˜ ๋น„๋””์˜ค๋ฅผ ์ƒ์„ฑํ•  ์ˆ˜ ์žˆ๋‹ค๋Š” ๊ฒƒ์„ ์ž…์ฆํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” ์•ž์œผ๋กœ์˜ AI ๋น„๋””์˜ค ์ƒ์„ฑ ๊ธฐ์ˆ  ๋ฐœ์ „์— ์ค‘์š”ํ•œ ํ†ต์ฐฐ์„ ์ œ๊ณตํ•  ๊ฒƒ์œผ๋กœ ๊ธฐ๋Œ€๋ฉ๋‹ˆ๋‹ค.

profile
XR๊ณผ AI์— ๊ด€์‹ฌ์ด ๋งŽ์€ Sky ์ž…๋‹ˆ๋‹ค.

0๊ฐœ์˜ ๋Œ“๊ธ€