[2025/W07] ๐Ÿค— Weekly AI Research

Skyยท2025๋…„ 2์›” 15์ผ

Weekly AI Research Digest

๋ชฉ๋ก ๋ณด๊ธฐ
7/89

2025๋…„ 7์ฃผ์ฐจ์— ๊ณต๊ฐœ๋œ ์ฃผ๋ชฉํ• ๋งŒํ•œ AI ๋ถ„์•ผ์˜ ๋…ผ๋ฌธ๋“ค์„ ์†Œ๊ฐœํ•ฉ๋‹ˆ๋‹ค.

TL;DR

LLM ์„ฑ๋Šฅ ๊ฐœ์„  ๋ถ„์•ผ์—์„œ๋Š” ํŠนํžˆ ํ˜์‹ ์ ์ธ ์ ‘๊ทผ ๋ฐฉ์‹๋“ค์ด ์ œ์‹œ๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ์ž ์žฌ ๊ณต๊ฐ„์„ ํ†ตํ•œ ์ถ”๋ก ์œผ๋กœ ํ…Œ์ŠคํŠธ ์‹œ์ ์˜ ๊ณ„์‚ฐ ๋Šฅ๋ ฅ์„ ํ™•์žฅํ•˜๋Š” ์—ฐ๊ตฌ, 1B ๊ทœ๋ชจ์˜ ์ž‘์€ ๋ชจ๋ธ์ด ํ…Œ์ŠคํŠธ ํƒ€์ž„ ์Šค์ผ€์ผ๋ง์„ ํ†ตํ•ด 405B ๋ชจ๋ธ์˜ ์„ฑ๋Šฅ์„ ๋›ฐ์–ด๋„˜์„ ์ˆ˜ ์žˆ๋‹ค๋Š” ํš๊ธฐ์ ์ธ ๋ฐœ๊ฒฌ, ๊ทธ๋ฆฌ๊ณ  ๋‹จ์ผ GPU์—์„œ 300๋งŒ ํ† ํฐ๊นŒ์ง€ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ๋Š” InfiniteHiP์˜ ๊ฐœ๋ฐœ ๋“ฑ์ด ์ฃผ๋ชฉ๋ฉ๋‹ˆ๋‹ค. ๋˜ํ•œ ๊ฒฝ์Ÿ์  ํ”„๋กœ๊ทธ๋ž˜๋ฐ ๋ถ„์•ผ์—์„œ LLM์ด ์ธ๊ฐ„ ์ˆ˜์ค€์˜ ์„ฑ๋Šฅ์„ ๋‹ฌ์„ฑํ–ˆ๋‹ค๋Š” ์—ฐ๊ตฌ ๊ฒฐ๊ณผ๋„ ๋ฐœํ‘œ๋˜์—ˆ์Šต๋‹ˆ๋‹ค.

๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๋ฐ ํŠน์ˆ˜ ๋ชฉ์  AI ์—ฐ๊ตฌ ๋ถ„์•ผ์—์„œ๋Š” ์‹ค์šฉ์ ์ธ ์‘์šฉ์— ์ดˆ์ ์„ ๋งž์ถ˜ ๋ฐœ์ „์ด ์ด๋ฃจ์–ด์กŒ์Šต๋‹ˆ๋‹ค. Goku๋Š” ์ตœ์‹  ํ”Œ๋กœ์šฐ ๊ธฐ๋ฐ˜ ๋น„๋””์˜ค ์ƒ์„ฑ ๋ชจ๋ธ์„ ํ†ตํ•ด ๊ณ ํ’ˆ์งˆ ์‹œ๊ฐ ์ฝ˜ํ…์ธ  ์ƒ์„ฑ์˜ ์ƒˆ๋กœ์šด ๊ธฐ์ค€์„ ์ œ์‹œํ–ˆ์œผ๋ฉฐ, VideoRoPE๋Š” ๋น„๋””์˜ค ์ฒ˜๋ฆฌ๋ฅผ ์œ„ํ•œ ํšจ๊ณผ์ ์ธ ํฌ์ง€์…˜ ์ž„๋ฒ ๋”ฉ ๋ฐฉ์‹์„ ์ œ์•ˆํ–ˆ์Šต๋‹ˆ๋‹ค. ํŠน์ˆ˜ ๋ชฉ์  ์—ฐ๊ตฌ์—์„œ๋Š” ๋‹ค๊ตญ์–ด ํ…์ŠคํŠธ ๋””ํ†ก์‹œํ”ผ์ผ€์ด์…˜์„ ์œ„ํ•œ SynthDetoxM๊ณผ ๊ธˆ์œต ๋ถ„์•ผ์— ํŠนํ™”๋œ ์žฅ๋ฌธ QA ์‹œ์Šคํ…œ์ธ FailSafeQA๊ฐ€ ๊ฐœ๋ฐœ๋˜์–ด, AI ๊ธฐ์ˆ ์˜ ์‹ค์ œ ์‘์šฉ ๊ฐ€๋Šฅ์„ฑ์„ ํ•œ์ธต ๋” ๋„“ํ˜”์Šต๋‹ˆ๋‹ค.

LLM ์„ฑ๋Šฅ ๊ฐœ์„  ๋ฐ ํ™•์žฅ ์—ฐ๊ตฌ

Scaling up Test-Time Compute with Latent Reasoning: A Recurrent Depth Approach

Paper, Project

์ด ๋…ผ๋ฌธ์€ ํ…Œ์ŠคํŠธ ์‹œ์ ์—์„œ ์ž ์žฌ ๊ณต๊ฐ„์„ ํ†ตํ•œ ์ถ”๋ก ์œผ๋กœ ๊ณ„์‚ฐ ๋Šฅ๋ ฅ์„ ํ™•์žฅํ•  ์ˆ˜ ์žˆ๋Š” ์ƒˆ๋กœ์šด ์–ธ์–ด ๋ชจ๋ธ ์•„ํ‚คํ…์ฒ˜๋ฅผ ์—ฐ๊ตฌํ•ฉ๋‹ˆ๋‹ค. ์ด ๋ชจ๋ธ์˜ ๊ฐ€์žฅ ํฐ ํŠน์ง•์€ ๋ฐ˜๋ณต์ ์ธ ๋ธ”๋ก์„ ์‚ฌ์šฉํ•˜์—ฌ ํ…Œ์ŠคํŠธ ์‹œ์ ์—์„œ ์ž„์˜์˜ ๊นŠ์ด๋กœ ํ™•์žฅ์ด ๊ฐ€๋Šฅํ•˜๋‹ค๋Š” ์ ์ž…๋‹ˆ๋‹ค. ์ด๋Š” ๋” ๋งŽ์€ ํ† ํฐ์„ ์ƒ์„ฑํ•˜์—ฌ ๊ณ„์‚ฐ ๋Šฅ๋ ฅ์„ ํ™•์žฅํ•˜๋Š” ๊ธฐ์กด์˜ ์ฃผ๋ฅ˜ ์ถ”๋ก  ๋ชจ๋ธ๋“ค๊ณผ๋Š” ์ฐจ๋ณ„ํ™”๋˜๋Š” ์ ‘๊ทผ ๋ฐฉ์‹์ž…๋‹ˆ๋‹ค.
์ด ์—ฐ๊ตฌ์˜ ์ค‘์š”ํ•œ ์žฅ์ ์€ Chain-of-thought์™€ ๊ฐ™์€ ๊ธฐ์กด ๋ฐฉ์‹๋“ค๊ณผ ๋‹ฌ๋ฆฌ ํŠน๋ณ„ํ•œ ํ•™์Šต ๋ฐ์ดํ„ฐ๊ฐ€ ํ•„์š”ํ•˜์ง€ ์•Š๋‹ค๋Š” ์ ์ž…๋‹ˆ๋‹ค. ๋˜ํ•œ ์ž‘์€ ์ปจํ…์ŠคํŠธ ์œˆ๋„์šฐ๋กœ๋„ ์ž‘๋™์ด ๊ฐ€๋Šฅํ•˜๋ฉฐ, ์–ธ์–ด๋กœ ์‰ฝ๊ฒŒ ํ‘œํ˜„ํ•˜๊ธฐ ์–ด๋ ค์šด ์œ ํ˜•์˜ ์ถ”๋ก ๋„ ํฌ์ฐฉํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
์—ฐ๊ตฌํŒ€์€ ์ด ๊ฐœ๋…์„ ์ฆ๋ช…ํ•˜๊ธฐ ์œ„ํ•ด 35์–ต ๊ฐœ์˜ ๋งค๊ฐœ๋ณ€์ˆ˜์™€ 8,000์–ต ๊ฐœ์˜ ํ† ํฐ์„ ์‚ฌ์šฉํ•˜์—ฌ ๋ชจ๋ธ์„ ๊ตฌ์ถ•ํ–ˆ์Šต๋‹ˆ๋‹ค. ์‹คํ—˜ ๊ฒฐ๊ณผ, ์ด ๋ชจ๋ธ์€ ์ถ”๋ก  ๋ฒค์น˜๋งˆํฌ์—์„œ ์ƒ๋‹นํ•œ ์„ฑ๋Šฅ ํ–ฅ์ƒ์„ ๋ณด์—ฌ์ฃผ์—ˆ์œผ๋ฉฐ, ์ผ๋ถ€ ๊ฒฝ์šฐ์—๋Š” 500์–ต ๊ฐœ์˜ ๋งค๊ฐœ๋ณ€์ˆ˜์— ํ•ด๋‹นํ•˜๋Š” ๊ณ„์‚ฐ ๋Šฅ๋ ฅ๊นŒ์ง€ ๋„๋‹ฌํ•˜๋Š” ๊ทน์ ์ธ ์„ฑ๋Šฅ ํ–ฅ์ƒ์„ ๋ณด์—ฌ์ฃผ์—ˆ์Šต๋‹ˆ๋‹ค.
์ด ์—ฐ๊ตฌ๋Š” ๊ธฐ์กด์˜ ์–ธ์–ด ๋ชจ๋ธ๊ณผ๋Š” ๋‹ค๋ฅธ ์ƒˆ๋กœ์šด ์ ‘๊ทผ ๋ฐฉ์‹์„ ์ œ์‹œํ•จ์œผ๋กœ์จ, ๋” ํšจ์œจ์ ์ด๊ณ  ์œ ์—ฐํ•œ ์ถ”๋ก  ๋Šฅ๋ ฅ์„ ๊ฐ€์ง„ ์–ธ์–ด ๋ชจ๋ธ์˜ ๊ฐ€๋Šฅ์„ฑ์„ ๋ณด์—ฌ์ฃผ์—ˆ๋‹ค๋Š” ์ ์—์„œ ํฐ ์˜๋ฏธ๊ฐ€ ์žˆ์Šต๋‹ˆ๋‹ค.

Can 1B LLM Surpass 405B LLM? Rethinking Compute-Optimal Test-Time Scaling

Paper, Project

ํ…Œ์ŠคํŠธ ํƒ€์ž„ ์Šค์ผ€์ผ๋ง(TTS)์€ ์ถ”๋ก  ๋‹จ๊ณ„์—์„œ ์ถ”๊ฐ€ ์—ฐ์‚ฐ์„ ํ™œ์šฉํ•˜์—ฌ ๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ(LLM)์˜ ์„ฑ๋Šฅ์„ ํ–ฅ์ƒ์‹œํ‚ค๋Š” ์ค‘์š”ํ•œ ๋ฐฉ๋ฒ•์ž…๋‹ˆ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ์ง€๊ธˆ๊นŒ์ง€์˜ ์—ฐ๊ตฌ๋“ค์€ ์ •์ฑ… ๋ชจ๋ธ, ํ”„๋กœ์„ธ์Šค ๋ณด์ƒ ๋ชจ๋ธ(PRM), ๊ทธ๋ฆฌ๊ณ  ๋ฌธ์ œ์˜ ๋‚œ์ด๋„๊ฐ€ TTS์— ๋ฏธ์น˜๋Š” ์˜ํ–ฅ์— ๋Œ€ํ•ด ์ฒด๊ณ„์ ์ธ ๋ถ„์„์„ ์ˆ˜ํ–‰ํ•˜์ง€ ์•Š์•˜๊ณ , ์ด๋Š” TTS ๋ฐฉ๋ฒ•์˜ ์ดํ•ด์™€ ์‹ค์ œ ํ™œ์šฉ์„ ์ œํ•œํ•˜๋Š” ์š”์ธ์ด ๋˜์–ด์™”์Šต๋‹ˆ๋‹ค.
์ด๋Ÿฌํ•œ ํ•œ๊ณ„๋ฅผ ๊ทน๋ณตํ•˜๊ธฐ ์œ„ํ•ด ์—ฐ๊ตฌ์ง„์€ ๋‘ ๊ฐ€์ง€ ํ•ต์‹ฌ ์งˆ๋ฌธ์— ์ฃผ๋ชฉํ–ˆ์Šต๋‹ˆ๋‹ค. ์ฒซ์งธ, ๋‹ค์–‘ํ•œ ์ •์ฑ… ๋ชจ๋ธ, PRM, ๋ฌธ์ œ ๋‚œ์ด๋„์— ๋”ฐ๋ฅธ ํ…Œ์ŠคํŠธ ํƒ€์ž„ ์—ฐ์‚ฐ์˜ ์ตœ์  ํ™•์žฅ ๋ฐฉ์‹์„ ์ฐพ๋Š” ๊ฒƒ์ด์—ˆ๊ณ , ๋‘˜์งธ, ๋ณต์žกํ•œ ์ž‘์—…์—์„œ ํ™•์žฅ๋œ ์—ฐ์‚ฐ์ด LLM์˜ ์„ฑ๋Šฅ์„ ์–ผ๋งˆ๋‚˜ ํ–ฅ์ƒ์‹œํ‚ฌ ์ˆ˜ ์žˆ๋Š”์ง€, ๊ทธ๋ฆฌ๊ณ  ์ด๋ฅผ ํ†ตํ•ด ์ž‘์€ ์–ธ์–ด ๋ชจ๋ธ์ด ๋” ํฐ ๋ชจ๋ธ์˜ ์„ฑ๋Šฅ์„ ๋›ฐ์–ด๋„˜์„ ์ˆ˜ ์žˆ๋Š”์ง€๋ฅผ ํ™•์ธํ•˜๋Š” ๊ฒƒ์ด์—ˆ์Šต๋‹ˆ๋‹ค.
MATH-500๊ณผ AIME24๋ผ๋Š” ๋„์ „์ ์ธ ์ž‘์—…๋“ค์— ๋Œ€ํ•œ ํฌ๊ด„์ ์ธ ์‹คํ—˜์„ ํ†ตํ•ด ์ค‘์š”ํ•œ ๋ฐœ๊ฒฌ๋“ค์ด ์žˆ์—ˆ์Šต๋‹ˆ๋‹ค. ์šฐ์„ , ์—ฐ์‚ฐ ์ตœ์ ํ™”๋œ TTS ์ „๋žต์€ ์ •์ฑ… ๋ชจ๋ธ, PRM, ๋ฌธ์ œ ๋‚œ์ด๋„์˜ ์„ ํƒ์— ๋”ฐ๋ผ ํฌ๊ฒŒ ๋‹ฌ๋ผ์ง„๋‹ค๋Š” ๊ฒƒ์„ ํ™•์ธํ–ˆ์Šต๋‹ˆ๋‹ค. ๋”์šฑ ์ฃผ๋ชฉํ•  ๋งŒํ•œ ์ ์€, ์—ฐ์‚ฐ ์ตœ์ ํ™”๋œ TTS ์ „๋žต์„ ์ ์šฉํ–ˆ์„ ๋•Œ ๋งค์šฐ ์ž‘์€ ์ •์ฑ… ๋ชจ๋ธ๋„ ๋” ํฐ ๋ชจ๋ธ์˜ ์„ฑ๋Šฅ์„ ๋›ฐ์–ด๋„˜์„ ์ˆ˜ ์žˆ๋‹ค๋Š” ๊ฒƒ์ด์—ˆ์Šต๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, 1B ๊ทœ๋ชจ์˜ LLM์ด 405B LLM์˜ ์„ฑ๋Šฅ์„ ๋Šฅ๊ฐ€ํ–ˆ๊ณ , 0.5B LLM์€ GPT-4๋ฅผ, 3B LLM์€ 405B LLM์„, 7B LLM์€ ๋” ๋†’์€ ์ถ”๋ก  ํšจ์œจ์„ฑ์œผ๋กœ Claude์™€ DeepSeek-R1์˜ ์„ฑ๋Šฅ์„ ๋›ฐ์–ด๋„˜์—ˆ์Šต๋‹ˆ๋‹ค.
์ด๋Ÿฌํ•œ ์—ฐ๊ตฌ ๊ฒฐ๊ณผ๋Š” ๊ฐ ์ž‘์—…๊ณผ ๋ชจ๋ธ์˜ ํŠน์„ฑ์— ๋งž๊ฒŒ TTS ์ „๋žต์„ ์ ์ ˆํžˆ ์กฐ์ •ํ•˜๋Š” ๊ฒƒ์ด ๋งค์šฐ ์ค‘์š”ํ•˜๋‹ค๋Š” ๊ฒƒ์„ ๋ณด์—ฌ์ฃผ๋ฉฐ, TTS๊ฐ€ LLM์˜ ์ถ”๋ก  ๋Šฅ๋ ฅ์„ ํ–ฅ์ƒ์‹œํ‚ค๋Š” ๋งค์šฐ ์œ ๋งํ•œ ์ ‘๊ทผ ๋ฐฉ์‹์ด๋ผ๋Š” ๊ฒƒ์„ ์ž…์ฆํ•ฉ๋‹ˆ๋‹ค. ์ด๋Š” ์•ž์œผ๋กœ์˜ LLM ๊ฐœ๋ฐœ์— ์žˆ์–ด ๋ชจ๋ธ ํฌ๊ธฐ๋งŒ์„ ๋Š˜๋ฆฌ๋Š” ๊ฒƒ์ด ์•„๋‹Œ, ํšจ์œจ์ ์ธ ์—ฐ์‚ฐ ์ „๋žต์˜ ์ค‘์š”์„ฑ์„ ์‹œ์‚ฌํ•˜๋Š” ์ค‘์š”ํ•œ ๋ฐœ๊ฒฌ์ด๋ผ๊ณ  ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

InfiniteHiP: Extending Language Model Context Up to 3 Million Tokens on a Single GPU

Paper, Project

ํ˜„๋Œ€์˜ ๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ(LLM)์—์„œ ๋งค์šฐ ๊ธด ๋ฌธ๋งฅ์„ ์ฒ˜๋ฆฌํ•˜๋Š” ๊ฒƒ์€ ๋‘ ๊ฐ€์ง€ ์ค‘์š”ํ•œ ๋„์ „ ๊ณผ์ œ๋ฅผ ์•ˆ๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. ์ถ”๋ก  ์†๋„๊ฐ€ ํ˜„์ €ํžˆ ๋А๋ ค์ง„๋‹ค๋Š” ์ ๊ณผ ๋ฉ”๋ชจ๋ฆฌ ์‚ฌ์šฉ๋Ÿ‰์ด ํฌ๊ฒŒ ์ฆ๊ฐ€ํ•œ๋‹ค๋Š” ์ ์ž…๋‹ˆ๋‹ค. ๋”์šฑ์ด ๋Œ€๋ถ€๋ถ„์˜ ๊ธฐ์กด ์‚ฌ์ „ ํ•™์Šต๋œ LLM๋“ค์€ ์›๋ž˜ ํ•™์Šต๋œ ์‹œํ€€์Šค ๊ธธ์ด๋ฅผ ๋„˜์–ด์„œ๋Š” ์ผ๋ฐ˜ํ™”์— ์‹คํŒจํ•˜๋Š” ํ•œ๊ณ„๋ฅผ ๋ณด์—ฌ์™”์Šต๋‹ˆ๋‹ค.
์ด๋Ÿฌํ•œ ๋ฌธ์ œ๋“ค์„ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด ์—ฐ๊ตฌ์ง„์€ โ€˜InfiniteHiPโ€™๋ผ๋Š” ํ˜์‹ ์ ์ธ LLM ์ถ”๋ก  ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ๊ฐœ๋ฐœํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด ํ”„๋ ˆ์ž„์›Œํฌ๋Š” ๋ชจ๋“ˆ์‹ ๊ณ„์ธต์  ํ† ํฐ ๊ฐ€์ง€์น˜๊ธฐ ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ ํ†ตํ•ด ๊ด€๋ จ ์—†๋Š” ๋ฌธ๋งฅ ํ† ํฐ์„ ๋™์ ์œผ๋กœ ์ œ๊ฑฐํ•จ์œผ๋กœ์จ ์ฒ˜๋ฆฌ ์†๋„๋ฅผ ํฌ๊ฒŒ ํ–ฅ์ƒ์‹œ์ผฐ์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ LLM ๋‚ด๋ถ€์˜ ์–ดํ…์…˜ ํŒจํ„ด์— ๋”ฐ๋ผ ๋‹ค์–‘ํ•œ RoPE ์กฐ์ • ๋ฐฉ๋ฒ•์„ ์„ ํƒ์ ์œผ๋กœ ์ ์šฉํ•˜์—ฌ ๋” ๊ธด ์‹œํ€€์Šค๋กœ์˜ ์ผ๋ฐ˜ํ™”๋ฅผ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ–ˆ์œผ๋ฉฐ, ์ถ”๋ก  ์ค‘์— key-value ์บ์‹œ๋ฅผ ํ˜ธ์ŠคํŠธ ๋ฉ”๋ชจ๋ฆฌ๋กœ ์˜คํ”„๋กœ๋“œํ•˜์—ฌ GPU ๋ฉ”๋ชจ๋ฆฌ ๋ถ€๋‹ด์„ ํš๊ธฐ์ ์œผ๋กœ ์ค„์˜€์Šต๋‹ˆ๋‹ค.
์ด๋Ÿฌํ•œ ํ˜์‹ ์ ์ธ ์ ‘๊ทผ ๋ฐฉ์‹์„ ํ†ตํ•ด InfiniteHiP๋Š” ์ฃผ๋ชฉํ•  ๋งŒํ•œ ์„ฑ๊ณผ๋ฅผ ๋‹ฌ์„ฑํ–ˆ์Šต๋‹ˆ๋‹ค. ๋‹จ์ผ L40s 48GB GPU์—์„œ ์ตœ๋Œ€ 300๋งŒ ํ† ํฐ๊นŒ์ง€ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ๊ฒŒ ๋˜์—ˆ๋Š”๋ฐ, ์ด๋Š” ๊ธฐ์กด ๋Œ€๋น„ 3๋ฐฐ ์ฆ๊ฐ€ํ•œ ์ˆ˜์น˜์ž…๋‹ˆ๋‹ค. ํŠนํžˆ ๋ฌธ๋งฅ ์ •๋ณด์˜ ์˜๊ตฌ์  ์†์‹ค ์—†์ด ์ด๋Ÿฌํ•œ ์ฒ˜๋ฆฌ๊ฐ€ ๊ฐ€๋Šฅํ•˜๋‹ค๋Š” ์ ์ด ์ค‘์š”ํ•ฉ๋‹ˆ๋‹ค. ๋˜ํ•œ 100๋งŒ ํ† ํฐ ๋ฌธ๋งฅ์— ๋Œ€ํ•ด ์ถ”๊ฐ€ ํ•™์Šต ์—†์ด๋„ 18.95๋ฐฐ์˜ ์–ดํ…์…˜ ๋””์ฝ”๋”ฉ ์†๋„ ํ–ฅ์ƒ์„ ๋‹ฌ์„ฑํ–ˆ์Šต๋‹ˆ๋‹ค.
์—ฐ๊ตฌ์ง„์€ ์ด ๋ฐฉ๋ฒ•์„ SGLang ํ”„๋ ˆ์ž„์›Œํฌ์— ์„ฑ๊ณต์ ์œผ๋กœ ๊ตฌํ˜„ํ•˜๊ณ , ๊ด‘๋ฒ”์œ„ํ•œ ํ‰๊ฐ€๋ฅผ ํ†ตํ•ด ๊ทธ ํšจ๊ณผ์„ฑ๊ณผ ์‹ค์šฉ์„ฑ์„ ์ž…์ฆํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” LLM์˜ ๊ธด ๋ฌธ๋งฅ ์ฒ˜๋ฆฌ ๋Šฅ๋ ฅ์„ ํš๊ธฐ์ ์œผ๋กœ ํ–ฅ์ƒ์‹œํ‚ค๋Š” ์ค‘์š”ํ•œ ๊ธฐ์ˆ ์  ์ง„๋ณด๋กœ, ํ–ฅํ›„ LLM์˜ ์‹ค์ œ ์‘์šฉ ๋ฒ”์œ„๋ฅผ ํฌ๊ฒŒ ํ™•์žฅํ•  ์ˆ˜ ์žˆ๋Š” ๊ฐ€๋Šฅ์„ฑ์„ ์ œ์‹œํ–ˆ๋‹ค๋Š” ์ ์—์„œ ํฐ ์˜๋ฏธ๊ฐ€ ์žˆ์Šต๋‹ˆ๋‹ค.

Competitive Programming with Large Reasoning Models

Paper

๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ(LLM)์— ๊ฐ•ํ™”ํ•™์Šต์„ ์ ์šฉํ•˜๋Š” ์—ฐ๊ตฌ์—์„œ ์ฃผ๋ชฉํ•  ๋งŒํ•œ ๊ฒฐ๊ณผ๊ฐ€ ๋„์ถœ๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ์—ฐ๊ตฌ์ง„์€ LLM์— ๊ฐ•ํ™”ํ•™์Šต์„ ์ ์šฉํ–ˆ์„ ๋•Œ ๋ณต์žกํ•œ ์ฝ”๋”ฉ๊ณผ ์ถ”๋ก  ๊ณผ์ œ์—์„œ ์„ฑ๋Šฅ์ด ํ˜„์ €ํ•˜๊ฒŒ ํ–ฅ์ƒ๋œ๋‹ค๋Š” ์‚ฌ์‹ค์„ ํ™•์ธํ–ˆ์œผ๋ฉฐ, ์ด๋ฅผ ๊ฒ€์ฆํ•˜๊ธฐ ์œ„ํ•ด ๋‹ค์–‘ํ•œ ๋ชจ๋ธ๋“ค์„ ๋น„๊ต ๋ถ„์„ํ–ˆ์Šต๋‹ˆ๋‹ค.
์ด ์—ฐ๊ตฌ์—์„œ๋Š” ๋ฒ”์šฉ ์ถ”๋ก  ๋ชจ๋ธ์ธ OpenAI o1๊ณผ o3์˜ ์ดˆ๊ธฐ ๋ฒ„์ „์„ 2024๋…„ ๊ตญ์ œ์ •๋ณด์˜ฌ๋ฆผํ”ผ์•„๋“œ(IOI)๋ฅผ ์œ„ํ•ด ํŠน๋ณ„ํžˆ ์„ค๊ณ„๋œ ๋„๋ฉ”์ธ ํŠนํ™” ์‹œ์Šคํ…œ์ธ o1-ioi์™€ ๋น„๊ตํ–ˆ์Šต๋‹ˆ๋‹ค. o1-ioi๋Š” ์ˆ˜์ž‘์—…์œผ๋กœ ์„ค๊ณ„๋œ ์ถ”๋ก  ์ „๋žต์„ ํ™œ์šฉํ•˜์—ฌ ์‹ค์ œ 2024 IOI์— ์ฐธ๊ฐ€ํ–ˆ๊ณ , ์ˆ˜์ž‘์—…์œผ๋กœ ๋งŒ๋“  ํ…Œ์ŠคํŠธ ์ „๋žต์„ ํ†ตํ•ด ์ƒ์œ„ 49% ์ˆ˜์ค€์˜ ์„ฑ์ ์„ ๋‹ฌ์„ฑํ–ˆ์Šต๋‹ˆ๋‹ค. ๋Œ€ํšŒ์˜ ์ œ์•ฝ ์กฐ๊ฑด์„ ์™„ํ™”ํ–ˆ์„ ๋•Œ๋Š” ๊ธˆ๋ฉ”๋‹ฌ์— ํ•ด๋‹นํ•˜๋Š” ์„ฑ๊ณผ๊นŒ์ง€ ์ด๋ฃจ์–ด๋ƒˆ์Šต๋‹ˆ๋‹ค.
๊ทธ๋Ÿฌ๋‚˜ ๋”์šฑ ํฅ๋ฏธ๋กœ์šด ๋ฐœ๊ฒฌ์€ ํ›„์† ๋ชจ๋ธ์ธ o3์˜ ์„ฑ๋Šฅ์ด์—ˆ์Šต๋‹ˆ๋‹ค. o3๋Š” ์ˆ˜์ž‘์—…์œผ๋กœ ๋งŒ๋“  ๋„๋ฉ”์ธ ํŠนํ™” ์ „๋žต์ด๋‚˜ ์ œ์•ฝ ์กฐ๊ฑด ์™„ํ™” ์—†์ด๋„ ๊ธˆ๋ฉ”๋‹ฌ ์ˆ˜์ค€์˜ ์„ฑ๊ณผ๋ฅผ ๋‹ฌ์„ฑํ–ˆ์œผ๋ฉฐ, Codeforces์—์„œ๋Š” ์ตœ์ƒ์œ„๊ถŒ ์ธ๊ฐ„ ์ฐธ๊ฐ€์ž๋“ค๊ณผ ๋Œ€๋“ฑํ•œ ์ˆ˜์ค€์˜ ๋ ˆ์ดํŒ…์„ ๊ธฐ๋กํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” o1-ioi์™€ ๊ฐ™์€ ํŠนํ™”๋œ ํŒŒ์ดํ”„๋ผ์ธ์ด ์„ฑ๋Šฅ ํ–ฅ์ƒ์— ๋„์›€์ด ๋˜๊ธฐ๋Š” ํ•˜์ง€๋งŒ, ๋ฒ”์šฉ ๋ชจ๋ธ์ธ o3๊ฐ€ ๋ณ„๋„์˜ ์ˆ˜์ž‘์—… ์ถ”๋ก  ํœด๋ฆฌ์Šคํ‹ฑ ์—†์ด๋„ ๋” ๋›ฐ์–ด๋‚œ ์„ฑ๊ณผ๋ฅผ ๋‚ผ ์ˆ˜ ์žˆ๋‹ค๋Š” ๊ฒƒ์„ ์ž…์ฆํ•œ ๊ฒƒ์ž…๋‹ˆ๋‹ค.
์ด๋Ÿฌํ•œ ์—ฐ๊ตฌ ๊ฒฐ๊ณผ๋Š” ๊ฒฝ์Ÿ์  ํ”„๋กœ๊ทธ๋ž˜๋ฐ์„ ๋น„๋กฏํ•œ ๋ณต์žกํ•œ ์ถ”๋ก  ์˜์—ญ์—์„œ ์ตœ์ฒจ๋‹จ AI๋ฅผ ๊ฐœ๋ฐœํ•˜๋Š” ๋ฐ ์žˆ์–ด, ๋„๋ฉ”์ธ ํŠนํ™” ๊ธฐ์ˆ ๋ณด๋‹ค๋Š” ๋ฒ”์šฉ ๊ฐ•ํ™”ํ•™์Šต์˜ ํ™•์žฅ์ด ๋” ํšจ๊ณผ์ ์ธ ์ ‘๊ทผ ๋ฐฉ์‹์ด๋ผ๋Š” ์ค‘์š”ํ•œ ์‹œ์‚ฌ์ ์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค. ์ด๋Š” AI ๊ธฐ์ˆ  ๋ฐœ์ „์˜ ๋ฐฉํ–ฅ์„ฑ์„ ์ œ์‹œํ•˜๋Š” ์˜๋ฏธ ์žˆ๋Š” ๋ฐœ๊ฒฌ์œผ๋กœ, ํ–ฅํ›„ AI ๊ฐœ๋ฐœ ์ „๋žต์— ์ค‘์š”ํ•œ ์˜ํ–ฅ์„ ๋ฏธ์น  ๊ฒƒ์œผ๋กœ ์˜ˆ์ƒ๋ฉ๋‹ˆ๋‹ค.

๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๋ฐ ํŠน์ˆ˜ ๋ชฉ์  AI ์—ฐ๊ตฌ

Goku: Flow Based Video Generative Foundation Models

Paper, Project

์ด ๋…ผ๋ฌธ์€ ์ตœ์‹  ์ด๋ฏธ์ง€์™€ ๋น„๋””์˜ค ํ†ตํ•ฉ ์ƒ์„ฑ ๋ชจ๋ธ๊ตฐ์ธ โ€˜Gokuโ€™๋ฅผ ์†Œ๊ฐœํ•˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. Goku๋Š” ์ •๋ฅ˜๋œ ํ”Œ๋กœ์šฐ ํŠธ๋žœ์Šคํฌ๋จธ ๊ธฐ์ˆ ์„ ํ™œ์šฉํ•˜์—ฌ ์—…๊ณ„ ์ตœ๊ณ  ์ˆ˜์ค€์˜ ์„ฑ๋Šฅ์„ ๋‹ฌ์„ฑํ•œ ๋ชจ๋ธ์ž…๋‹ˆ๋‹ค.
Goku์˜ ํ•ต์‹ฌ์€ ๊ณ ํ’ˆ์งˆ ์‹œ๊ฐ ์ฝ˜ํ…์ธ  ์ƒ์„ฑ์„ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•˜๋Š” ์—ฌ๋Ÿฌ ๊ธฐ์ˆ ์  ์š”์†Œ์— ์žˆ์Šต๋‹ˆ๋‹ค. ํŠนํžˆ ์ฒด๊ณ„์ ์ธ ๋ฐ์ดํ„ฐ ํ๋ ˆ์ด์…˜ ํŒŒ์ดํ”„๋ผ์ธ, ํ˜์‹ ์ ์ธ ๋ชจ๋ธ ์•„ํ‚คํ…์ฒ˜ ์„ค๊ณ„, ์ •๊ตํ•œ ํ”Œ๋กœ์šฐ ๊ณต์‹ํ™”, ๊ทธ๋ฆฌ๊ณ  ๋Œ€๊ทœ๋ชจ ํ•™์Šต์„ ์œ„ํ•œ ํšจ์œจ์ ์ด๊ณ  ๊ฐ•๊ฑดํ•œ ์ธํ”„๋ผ๊ฐ€ ์ฃผ๋ชฉํ•  ๋งŒํ•œ ํŠน์ง•์ž…๋‹ˆ๋‹ค.
์„ฑ๋Šฅ ํ‰๊ฐ€์—์„œ Goku๋Š” ์ธ์ƒ์ ์ธ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์—ฌ์ฃผ์—ˆ์Šต๋‹ˆ๋‹ค. ํ…์ŠคํŠธ-์ด๋ฏธ์ง€ ์ƒ์„ฑ ๋ถ„์•ผ์—์„œ๋Š” GenEval์—์„œ 0.76, DPG-Bench์—์„œ 83.65์˜ ์ ์ˆ˜๋ฅผ ๊ธฐ๋กํ–ˆ์œผ๋ฉฐ, ํ…์ŠคํŠธ-๋น„๋””์˜ค ์ƒ์„ฑ ๋ถ„์•ผ์—์„œ๋Š” VBench์—์„œ 84.85๋ผ๋Š” ๋†’์€ ์ ์ˆ˜๋ฅผ ๋‹ฌ์„ฑํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ๊ฒฐ๊ณผ๋Š” ์ฃผ์š” ์‹œ๊ฐ ์ƒ์„ฑ ์ž‘์—…์—์„œ ์ƒˆ๋กœ์šด ๊ธฐ์ค€์„ ์ œ์‹œํ–ˆ๋‹ค๊ณ  ๋ณผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
์ด ์—ฐ๊ตฌ์˜ ๊ฐ€์žฅ ํฐ ์˜์˜๋Š” ์ด๋ฏธ์ง€์™€ ๋น„๋””์˜ค ์ƒ์„ฑ์„ ํ†ตํ•ฉ์ ์œผ๋กœ ๋‹ค๋ฃจ๋Š” ๋ชจ๋ธ์„ ๊ฐœ๋ฐœํ–ˆ๋‹ค๋Š” ์ ์ž…๋‹ˆ๋‹ค. ์ด๋Š” ์‹œ๊ฐ์  ์ฝ˜ํ…์ธ  ์ƒ์„ฑ ๋ถ„์•ผ์—์„œ ์ค‘์š”ํ•œ ์ง„์ „์„ ์ด๋ฃจ์—ˆ์œผ๋ฉฐ, ํ–ฅํ›„ ๊ด€๋ จ ์—ฐ๊ตฌ ๋ฐœ์ „์— ๊ท€์ค‘ํ•œ ํ†ต์ฐฐ์„ ์ œ๊ณตํ•  ๊ฒƒ์œผ๋กœ ๊ธฐ๋Œ€๋ฉ๋‹ˆ๋‹ค. ์—ฐ๊ตฌ ์ปค๋ฎค๋‹ˆํ‹ฐ์— ์‹ค์งˆ์ ์ธ ๋„์›€์ด ๋  ์ˆ˜ ์žˆ๋Š” ๋‹ค์–‘ํ•œ ๊ธฐ์ˆ ์  ๋ฐœ์ „์„ ์ œ์‹œํ–ˆ๋‹ค๋Š” ์ ์—์„œ๋„ ํฐ ์˜๋ฏธ๊ฐ€ ์žˆ์Šต๋‹ˆ๋‹ค.

VideoRoPE: What Makes for Good Video Rotary Position Embedding?

Paper, Project

Rotary Position Embedding(RoPE)๊ณผ ๊ทธ ๋ณ€ํ˜•๋“ค์€ ๊ธด ๋ฌธ๋งฅ์„ ์ฒ˜๋ฆฌํ•˜๋Š” ๋ฐ ํƒ์›”ํ•œ ์„ฑ๋Šฅ์„ ๋ณด์—ฌ ๋„๋ฆฌ ํ™œ์šฉ๋˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. ํ•˜์ง€๋งŒ 1์ฐจ์›์˜ RoPE๋ฅผ ๋ณต์žกํ•œ ์‹œ๊ณต๊ฐ„ ๊ตฌ์กฐ๋ฅผ ๊ฐ€์ง„ ๋น„๋””์˜ค์— ํ™•์žฅํ•˜๋Š” ๊ฒƒ์€ ์•„์ง ํ•ด๊ฒฐํ•ด์•ผ ํ•  ๊ณผ์ œ๋กœ ๋‚จ์•„์žˆ์—ˆ์Šต๋‹ˆ๋‹ค.
์ด ์—ฐ๊ตฌ๋Š” ๋น„๋””์˜ค์— RoPE๋ฅผ ํšจ๊ณผ์ ์œผ๋กœ ์ ์šฉํ•˜๊ธฐ ์œ„ํ•ด ํ•„์ˆ˜์ ์ธ ๋„ค ๊ฐ€์ง€ ์ฃผ์š” ํŠน์„ฑ์„ ๋ถ„์„ํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” ์ด์ „ ์—ฐ๊ตฌ์—์„œ๋Š” ์ถฉ๋ถ„ํžˆ ๋‹ค๋ฃจ์–ด์ง€์ง€ ์•Š์•˜๋˜ ๋ถ€๋ถ„์ž…๋‹ˆ๋‹ค. ์—ฐ๊ตฌ์ง„์€ ๋ถ„์„ ๊ณผ์ •์—์„œ V-NIAH-D(Visual Needle-In-A-Haystack with Distractors)๋ผ๋Š” ์ƒˆ๋กœ์šด ํ‰๊ฐ€ ์ž‘์—…์„ ๋„์ž…ํ–ˆ๋Š”๋ฐ, ์ด๋Š” ๊ธฐ์กด V-NIAH์— ์ฃผ๊ธฐ์ ์ธ ๋ฐฉํ•ด ์š”์†Œ๋ฅผ ์ถ”๊ฐ€ํ•œ ๊ฒƒ์ž…๋‹ˆ๋‹ค. ์ด ํ‰๊ฐ€๋ฅผ ํ†ตํ•ด ์ ์ ˆํ•œ ์‹œ๊ฐ„ ์ฐจ์› ํ• ๋‹น์ด ์—†๋Š” ๊ธฐ์กด์˜ RoPE ๋ณ€ํ˜•๋“ค์ด ๋ฐฉํ•ด ์š”์†Œ์— ์‰ฝ๊ฒŒ ์˜ํ–ฅ์„ ๋ฐ›๋Š”๋‹ค๋Š” ๋ฌธ์ œ์ ์ด ๋“œ๋Ÿฌ๋‚ฌ์Šต๋‹ˆ๋‹ค.
์ด๋Ÿฌํ•œ ๋ถ„์„์„ ๋ฐ”ํƒ•์œผ๋กœ ์—ฐ๊ตฌ์ง„์€ ์‹œ๊ณต๊ฐ„ ๊ด€๊ณ„๋ฅผ ํšจ๊ณผ์ ์œผ๋กœ ๋ณด์กดํ•  ์ˆ˜ ์žˆ๋Š” 3D ๊ตฌ์กฐ์˜ VideoRoPE๋ฅผ ๊ฐœ๋ฐœํ–ˆ์Šต๋‹ˆ๋‹ค. VideoRoPE๋Š” ์ฃผ๊ธฐ์  ์ง„๋™์„ ์ค„์ด๊ธฐ ์œ„ํ•œ ์ €์ฃผํŒŒ ์‹œ๊ฐ„ ํ• ๋‹น, ๊ณต๊ฐ„ ๋Œ€์นญ์„ฑ์„ ์œ ์ง€ํ•˜๊ธฐ ์œ„ํ•œ ๋Œ€๊ฐ์„  ๋ ˆ์ด์•„์›ƒ, ๊ทธ๋ฆฌ๊ณ  ์‹œ๊ฐ„๊ณผ ๊ณต๊ฐ„ ์ธ๋ฑ์‹ฑ์„ ๋ถ„๋ฆฌํ•˜๊ธฐ ์œ„ํ•œ ์กฐ์ ˆ ๊ฐ€๋Šฅํ•œ ์‹œ๊ฐ„ ๊ฐ„๊ฒฉ๊ณผ ๊ฐ™์€ ํŠน์ง•์„ ๊ฐ€์ง€๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค.
๊ฒฐ๊ณผ์ ์œผ๋กœ VideoRoPE๋Š” ๊ธด ๋น„๋””์˜ค ๊ฒ€์ƒ‰, ๋น„๋””์˜ค ์ดํ•ด, ๋น„๋””์˜ค ์ƒ์„ฑ๊ณผ ๊ฐ™์€ ๋‹ค์–‘ํ•œ downstream ์ž‘์—…์—์„œ ๊ธฐ์กด์˜ RoPE ๋ณ€ํ˜•๋“ค๋ณด๋‹ค ์ผ๊ด€๋˜๊ฒŒ ์šฐ์ˆ˜ํ•œ ์„ฑ๋Šฅ์„ ๋ณด์—ฌ์ฃผ์—ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” VideoRoPE๊ฐ€ ๋น„๋””์˜ค ์ฒ˜๋ฆฌ๋ฅผ ์œ„ํ•œ ๋” ํšจ๊ณผ์ ์ธ embedding ๋ฐฉ๋ฒ•์ž„์„ ์ž…์ฆํ•ฉ๋‹ˆ๋‹ค.

SynthDetoxM: Modern LLMs are Few-Shot Parallel Detoxification Data Annotators

Paper, Project

๋‹ค๊ตญ์–ด ํ…์ŠคํŠธ ๋””ํ†ก์‹œํ”ผ์ผ€์ด์…˜(์œ ํ•ด ์ฝ˜ํ…์ธ  ์ œ๊ฑฐ) ์—ฐ๊ตฌ๋Š” ํ˜„์žฌ ๋ณ‘๋ ฌ ๋‹ค๊ตญ์–ด ๋ฐ์ดํ„ฐ์…‹์˜ ๋ถ€์กฑ์ด๋ผ๋Š” ์‹ฌ๊ฐํ•œ ์ œ์•ฝ์— ์ง๋ฉดํ•ด ์žˆ์Šต๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ํ•œ๊ณ„๋ฅผ ๊ทน๋ณตํ•˜๊ธฐ ์œ„ํ•ด ์—ฐ๊ตฌ์ง„์€ ๋‹ค๊ตญ์–ด ๋ณ‘๋ ฌ ๋””ํ†ก์‹œํ”ผ์ผ€์ด์…˜ ๋ฐ์ดํ„ฐ๋ฅผ ์ƒ์„ฑํ•  ์ˆ˜ ์žˆ๋Š” ์ƒˆ๋กœ์šด ํŒŒ์ดํ”„๋ผ์ธ์„ ๊ฐœ๋ฐœํ•˜์˜€๊ณ , ์ด๋ฅผ ํ†ตํ•ด โ€˜SynthDetoxMโ€™์ด๋ผ๋Š” ํ˜์‹ ์ ์ธ ๋ฐ์ดํ„ฐ์…‹์„ ๊ตฌ์ถ•ํ•˜๋Š”๋ฐ ์„ฑ๊ณตํ–ˆ์Šต๋‹ˆ๋‹ค.
SynthDetoxM์€ ๋…์ผ์–ด, ํ”„๋ž‘์Šค์–ด, ์ŠคํŽ˜์ธ์–ด, ๋Ÿฌ์‹œ์•„์–ด ๋“ฑ 4๊ฐœ ์–ธ์–ด์— ๊ฑธ์ณ 16,000๊ฐœ์˜ ๊ณ ํ’ˆ์งˆ ๋””ํ†ก์‹œํ”ผ์ผ€์ด์…˜ ๋ฌธ์žฅ ์Œ์„ ํฌํ•จํ•˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. ์ด ๋ฐ์ดํ„ฐ์…‹์€ ๋‹ค์–‘ํ•œ ์œ ํ•ด์„ฑ ํ‰๊ฐ€ ๋ฐ์ดํ„ฐ์…‹์—์„œ ์ˆ˜์ง‘ํ•œ ๋ฐ์ดํ„ฐ๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ํ•˜๋ฉฐ, 9๊ฐœ์˜ ์ตœ์‹  ์˜คํ”ˆ์†Œ์Šค LLM์„ few-shot ์„ค์ •์œผ๋กœ ํ™œ์šฉํ•˜์—ฌ ์žฌ์ž‘์„ฑ๋˜์—ˆ์Šต๋‹ˆ๋‹ค.
์‹คํ—˜์„ ํ†ตํ•ด ๋งค์šฐ ๊ณ ๋ฌด์ ์ธ ๊ฒฐ๊ณผ๊ฐ€ ๋„์ถœ๋˜์—ˆ์Šต๋‹ˆ๋‹ค. SynthDetoxM์œผ๋กœ ํ•™์Šต๋œ ๋ชจ๋ธ๋“ค์€ ๋ฐ์ดํ„ฐ๊ฐ€ ์ œํ•œ๋œ ํ™˜๊ฒฝ์—์„œ๋„ ์ธ๊ฐ„์ด ์ง์ ‘ ์ฃผ์„์„ ๋‹จ MultiParaDetox ๋ฐ์ดํ„ฐ์…‹์œผ๋กœ ํ•™์Šต๋œ ๋ชจ๋ธ๋“ค๋ณด๋‹ค ์šฐ์ˆ˜ํ•œ ์„ฑ๋Šฅ์„ ๋ณด์—ฌ์ฃผ์—ˆ์Šต๋‹ˆ๋‹ค. ํŠนํžˆ ์ฃผ๋ชฉํ•  ๋งŒํ•œ ์ ์€ SynthDetoxM์œผ๋กœ ํ•™์Šต๋œ ๋ชจ๋ธ๋“ค์ด few-shot ์„ค์ •์—์„œ ํ‰๊ฐ€๋œ ๋ชจ๋“  LLM์˜ ์„ฑ๋Šฅ์„ ๋›ฐ์–ด๋„˜์—ˆ๋‹ค๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค.
์—ฐ๊ตฌ์ง„์€ ์ด ๋ถ„์•ผ์˜ ๋ฐœ์ „์„ ๊ฐ€์†ํ™”ํ•˜๊ธฐ ์œ„ํ•ด ๋ฐ์ดํ„ฐ์…‹๊ณผ ๊ด€๋ จ ์ฝ”๋“œ๋ฅผ ๋ชจ๋‘ ๊ณต๊ฐœํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” ๋‹ค๊ตญ์–ด ํ…์ŠคํŠธ ๋””ํ†ก์‹œํ”ผ์ผ€์ด์…˜ ์—ฐ๊ตฌ์˜ ๋ฐœ์ „์— ์ค‘์š”ํ•œ ๊ธฐ์—ฌ๋ฅผ ํ•  ๊ฒƒ์œผ๋กœ ๊ธฐ๋Œ€๋˜๋ฉฐ, ๋” ๋‚˜์•„๊ฐ€ ๋‹ค์–‘ํ•œ ์–ธ์–ด๊ถŒ์—์„œ์˜ ์œ ํ•ด ์ฝ˜ํ…์ธ  ์ œ๊ฑฐ ๊ธฐ์ˆ  ๋ฐœ์ „์— ํ•ต์‹ฌ์ ์ธ ์—ญํ• ์„ ํ•  ๊ฒƒ์œผ๋กœ ์ „๋ง๋ฉ๋‹ˆ๋‹ค.

Expect the Unexpected: FailSafe Long Context QA for Finance

Paper, Project

๊ธˆ์œต ๋ถ„์•ผ์˜ ์žฅ๋ฌธ ๋งฅ๋ฝ ์ฒ˜๋ฆฌ๋ฅผ ์œ„ํ•ด ์ƒˆ๋กญ๊ฒŒ ์ œ์•ˆ๋œ โ€˜FailSafeQAโ€™ ๋ฒค์น˜๋งˆํฌ๋Š” LLM ๊ธฐ๋ฐ˜ ์งˆ์˜-์‘๋‹ต ์‹œ์Šคํ…œ์—์„œ ๋ฐœ์ƒํ•  ์ˆ˜ ์žˆ๋Š” ๋‹ค์–‘ํ•œ ์‚ฌ์šฉ์ž ์ธํ„ฐํŽ˜์ด์Šค ์ƒํ˜ธ์ž‘์šฉ์˜ ๋ณ€ํ˜•์— ๋Œ€ํ•œ LLM์˜ ๊ฒฌ๊ณ ์„ฑ๊ณผ ๋งฅ๋ฝ ์ธ์‹ ๋Šฅ๋ ฅ์„ ํ‰๊ฐ€ํ•˜๊ธฐ ์œ„ํ•ด ์„ค๊ณ„๋˜์—ˆ์Šต๋‹ˆ๋‹ค.
์—ฐ๊ตฌ์ง„์€ ํŠนํžˆ โ€˜์ฟผ๋ฆฌ ์‹คํŒจโ€™์™€ โ€˜๋งฅ๋ฝ ์‹คํŒจโ€™๋ผ๋Š” ๋‘ ๊ฐ€์ง€ ์ฃผ์š” ์ผ€์ด์Šค์— ์ดˆ์ ์„ ๋งž์ถ”์—ˆ์Šต๋‹ˆ๋‹ค. ์ฟผ๋ฆฌ ์‹คํŒจ ์‹œ๋‚˜๋ฆฌ์˜ค์—์„œ๋Š” ๋„๋ฉ”์ธ ์ „๋ฌธ์„ฑ ์ˆ˜์ค€, ์™„์„ฑ๋„, ์–ธ์–ด์  ์ •ํ™•์„ฑ ์ธก๋ฉด์—์„œ ์›๋ž˜ ์ฟผ๋ฆฌ๋ฅผ ๋ณ€ํ˜•ํ•˜์—ฌ ํ…Œ์ŠคํŠธ๋ฅผ ์ง„ํ–‰ํ–ˆ์œผ๋ฉฐ, ๋งฅ๋ฝ ์‹คํŒจ ์‹œ๋‚˜๋ฆฌ์˜ค์—์„œ๋Š” ํ’ˆ์งˆ์ด ์ €ํ•˜๋œ ๋ฌธ์„œ, ๊ด€๋ จ ์—†๋Š” ๋ฌธ์„œ, ๋นˆ ๋ฌธ์„œ ๋“ฑ ๋‹ค์–‘ํ•œ ๋ฌธ์„œ ์—…๋กœ๋“œ ์ƒํ™ฉ์„ ์‹œ๋ฎฌ๋ ˆ์ด์…˜ํ–ˆ์Šต๋‹ˆ๋‹ค.
์—ฐ๊ตฌ ๋ฐฉ๋ฒ•๋ก ์œผ๋กœ๋Š” Qwen2.5-72B-Instruct๋ฅผ ํŒ๋‹จ์ž๋กœ ํ™œ์šฉํ•˜๋Š” โ€˜LLM-as-a-Judgeโ€™ ๋ฐฉ์‹์„ ์ฑ„ํƒํ–ˆ์œผ๋ฉฐ, 24๊ฐœ์˜ ๊ธฐ์„ฑ ๋ชจ๋ธ์— ๋Œ€ํ•ด ๊ฒฌ๊ณ ์„ฑ, ๋งฅ๋ฝ ๊ธฐ๋ฐ˜์„ฑ, ์ค€์ˆ˜์„ฑ์„ ์„ธ๋ฐ€ํ•˜๊ฒŒ ํ‰๊ฐ€ํ–ˆ์Šต๋‹ˆ๋‹ค. ์‹คํ—˜ ๊ฒฐ๊ณผ, ์ผ๋ถ€ ๋ชจ๋ธ๋“ค์ด ์ž…๋ ฅ ๋ณ€๋™์— ๋Œ€ํ•œ ๋Œ€์‘์€ ์šฐ์ˆ˜ํ–ˆ์œผ๋‚˜ ๊ฒฌ๊ณ ํ•œ ๋‹ต๋ณ€๊ณผ ํ™˜๊ฐ ๋ฐฉ์ง€ ๋Šฅ๋ ฅ ์‚ฌ์ด์˜ ๊ท ํ˜•์„ ๋งž์ถ”๋Š” ๋ฐ ์–ด๋ ค์›€์„ ๋ณด์ด๋Š” ๊ฒƒ์œผ๋กœ ๋‚˜ํƒ€๋‚ฌ์Šต๋‹ˆ๋‹ค.
ํŠนํžˆ ์ฃผ๋ชฉํ•  ๋งŒํ•œ ์ ์€, ๊ฐ€์žฅ ๋†’์€ ์ค€์ˆ˜์„ฑ์„ ๋ณด์ธ Palmyra-Fin-128k-Instruct ๋ชจ๋ธ์ด ๊ธฐ๋ณธ ์„ฑ๋Šฅ์€ ์šฐ์ˆ˜ํ–ˆ์œผ๋‚˜ 17%์˜ ํ…Œ์ŠคํŠธ ์ผ€์ด์Šค์—์„œ ๊ฒฌ๊ณ ํ•œ ์˜ˆ์ธก ์œ ์ง€์— ์‹คํŒจํ–ˆ๋‹ค๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. ๋ฐ˜๋ฉด ๊ฐ€์žฅ ๊ฒฌ๊ณ ํ•œ ๋ชจ๋ธ๋กœ ํ‰๊ฐ€๋œ OpenAI o3-mini๋Š” 41%์˜ ํ…Œ์ŠคํŠธ ์ผ€์ด์Šค์—์„œ ์ •๋ณด๋ฅผ ์กฐ์ž‘ํ•˜๋Š” ์‹ฌ๊ฐํ•œ ๋ฌธ์ œ๋ฅผ ๋ณด์˜€์Šต๋‹ˆ๋‹ค.
์ด๋Ÿฌํ•œ ์—ฐ๊ตฌ ๊ฒฐ๊ณผ๋Š” ํ˜„์žฌ ์ตœ๊ณ  ์„ฑ๋Šฅ์„ ๋ณด์ด๋Š” ๋ชจ๋ธ๋“ค์กฐ์ฐจ๋„ ์ƒ๋‹นํ•œ ๊ฐœ์„ ์˜ ์—ฌ์ง€๊ฐ€ ์žˆ์Œ์„ ๋ช…ํ™•ํžˆ ๋ณด์—ฌ์ฃผ๋ฉฐ, FailSafeQA๊ฐ€ ๊ธˆ์œต ์• ํ”Œ๋ฆฌ์ผ€์ด์…˜์—์„œ์˜ ์‹ ๋ขฐ์„ฑ์„ ์ตœ์ ํ™”ํ•˜๋Š” LLM ๊ฐœ๋ฐœ์„ ์œ„ํ•œ ์ค‘์š”ํ•œ ํ‰๊ฐ€ ๋„๊ตฌ๋กœ ํ™œ์šฉ๋  ์ˆ˜ ์žˆ์Œ์„ ์‹œ์‚ฌํ•ฉ๋‹ˆ๋‹ค. ์ด๋Š” ๊ธˆ์œต ๋ถ„์•ผ์—์„œ LLM์˜ ์‹ค์ œ ํ™œ์šฉ์„ ์œ„ํ•œ ์ค‘์š”ํ•œ ๋ฐœ์ „ ๋ฐฉํ–ฅ์„ ์ œ์‹œํ•˜๋Š” ์˜๋ฏธ ์žˆ๋Š” ์—ฐ๊ตฌ๋ผ๊ณ  ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

profile
XR๊ณผ AI์— ๊ด€์‹ฌ์ด ๋งŽ์€ Sky ์ž…๋‹ˆ๋‹ค.

0๊ฐœ์˜ ๋Œ“๊ธ€