[2025/W19] ๐Ÿค— Weekly AI Research

Skyยท2025๋…„ 5์›” 9์ผ

Weekly AI Research Digest

๋ชฉ๋ก ๋ณด๊ธฐ
22/89

AI, ์™ธ๋ถ€ ๋ฐ์ดํ„ฐ ์—†์ด ์Šค์Šค๋กœ ์ถ”๋ก ํ•˜๊ณ  CoTยทRL๋กœ ์„ฑ๋Šฅ ๊ณ ๋„ํ™”
๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ํ†ตํ•ฉ๊ณผ ์ธ๊ฐ„์  ์ƒํ˜ธ์ž‘์šฉ, ๋งŒ๋Šฅ AI(AGI)๋ฅผ ํ–ฅํ•œ ๋„์•ฝ

TL;DR

AI ์ž์œจ ํ•™์Šต ๋ฐ ์ถ”๋ก  ๋Šฅ๋ ฅ ๊ฐ•ํ™” ๋ถ„์•ผ์—์„œ๋Š” 'Absolute Zero'๊ฐ€ ์™ธ๋ถ€ ๋ฐ์ดํ„ฐ ์—†์ด ๋ชจ๋ธ ์Šค์Šค๋กœ ์ถ”๋ก  ๊ณผ์ œ๋ฅผ ์ƒ์„ฑํ•˜๊ณ  ์ฝ”๋“œ ์‹คํ–‰๊ธฐ๋กœ ๊ฒ€์ฆํ•˜๋ฉฐ ์ฝ”๋”ฉ ๋ฐ ์ˆ˜ํ•™ ์ถ”๋ก  ๋Šฅ๋ ฅ์„ SOTA ์ˆ˜์ค€์œผ๋กœ ํ–ฅ์ƒ์‹œํ‚ค๋Š” ํŒจ๋Ÿฌ๋‹ค์ž„์„ ์ œ์‹œํ•œ๋‹ค. ์œ ์‚ฌํ•˜๊ฒŒ 'Grokking in the Wild'๋Š” ํ•ฉ์„ฑ ๋ฐ์ดํ„ฐ ์ฆ๊ฐ•์„ ํ†ตํ•ด ํŠธ๋žœ์Šคํฌ๋จธ๊ฐ€ ํฌ์†Œํ•œ ์‹ค์ œ ๋ฐ์ดํ„ฐ ํ™˜๊ฒฝ์—์„œ๋„ ๋‹ค๋‹จ๊ณ„ ์‚ฌ์‹ค ์ถ”๋ก  ํŒจํ„ด(๊ทธ๋กœํ‚น)์„ ํ•™์Šตํ•˜๋„๋ก ์œ ๋„ํ•œ๋‹ค. 'ZeroSearch'๋Š” ์‹ค์ œ ๊ฒ€์ƒ‰ ์—”์ง„ ์—†์ด LLM ์ž์ฒด๋ฅผ ๊ฒ€์ƒ‰ ๋ชจ๋“ˆ๋กœ ๋ณ€ํ™˜ํ•˜๊ณ  ๊ฐ•ํ™”ํ•™์Šต์œผ๋กœ ๊ฒ€์ƒ‰ ๋Šฅ๋ ฅ์„ ๊ฐ•ํ™”ํ•˜์—ฌ ๋น„์šฉ๊ณผ ๋ถˆ์•ˆ์ •์„ฑ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•œ๋‹ค.

๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ AI์™€ ์ธ๊ฐ„-AI ์ƒํ˜ธ์ž‘์šฉ ๋ถ„์•ผ์—์„œ๋Š” 'Voila'๊ฐ€ ๋‚ฎ์€ ์ง€์—ฐ ์‹œ๊ฐ„๊ณผ ํ’๋ถ€ํ•œ ๊ฐ์ • ํ‘œํ˜„์œผ๋กœ ์‹ค์‹œ๊ฐ„ ์ž์œจ ์ƒํ˜ธ์ž‘์šฉ ๋ฐ ์Œ์„ฑ ์—ญํ• ๊ทน์ด ๊ฐ€๋Šฅํ•œ ์Œ์„ฑ-์–ธ์–ด ํŒŒ์šด๋ฐ์ด์…˜ ๋ชจ๋ธ์„ ์ œ์•ˆํ•˜๋ฉฐ ์˜คํ”ˆ์†Œ์Šค๋กœ ๊ณต๊ฐœ๋œ๋‹ค. ํ•œํŽธ, 'Unified Multimodal Understanding and Generation Models' ์„œ๋ฒ ์ด ๋…ผ๋ฌธ์€ ์ด๋ฏธ์ง€ ์ดํ•ด(์ž๊ธฐํšŒ๊ท€)์™€ ์ƒ์„ฑ(ํ™•์‚ฐ) ๋ชจ๋ธ์˜ ์•„ํ‚คํ…์ฒ˜ ์ฐจ์ด๋ฅผ ๊ทน๋ณตํ•˜๊ณ  ํ†ตํ•ฉํ•˜๋ ค๋Š” ๋‹ค์–‘ํ•œ ์‹œ๋„์™€ ๊ณผ์ œ๋ฅผ ๋ถ„์„ํ•œ๋‹ค. 'On Path to Multimodal Generalist' ํ”„๋กœ์ ํŠธ๋Š” MLLM์˜ ์ผ๋ฐ˜์„ฑ์„ ํ‰๊ฐ€ํ•˜๋Š” 'General-Level' ํ”„๋ ˆ์ž„์›Œํฌ์™€ 'General-Bench' ๋ฒค์น˜๋งˆํฌ๋ฅผ ํ†ตํ•ด ์ง„์ •ํ•œ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๋งŒ๋Šฅ AI ๋ฐ AGI๋กœ์˜ ์ง„์ฒ™๋„๋ฅผ ์ธก์ •ํ•œ๋‹ค.

์—ฐ์‡„์  ์‚ฌ๊ณ (CoT) ๋ฐ ๊ฐ•ํ™”ํ•™์Šต(RL)์„ ํ†ตํ•œ ๋ชจ๋ธ ์„ฑ๋Šฅ ์ตœ์ ํ™” ๋ถ„์•ผ์—์„œ๋Š” 'UnifiedReward-Think'๊ฐ€ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ RM์— ๋ช…์‹œ์ ์ธ ์—ฐ์‡„์  ์‚ฌ๊ณ (CoT)๋ฅผ ํ†ตํ•ฉํ•˜๊ณ  ๊ฐ•ํ™” ๋ฏธ์„ธ์กฐ์ •์„ ํ†ตํ•ด ๋ณด์ƒ ์ถ”๋ก ์˜ ๊นŠ์ด๋ฅผ ๋”ํ•œ๋‹ค. 'RM-R1'์€ ๋ณด์ƒ ๋ชจ๋ธ๋ง ์ž์ฒด๋ฅผ ์ถ”๋ก  ์ž‘์—…์œผ๋กœ ์ •์˜ํ•˜์—ฌ CoT ๊ธฐ๋ฐ˜ ์ƒ์„ฑ์  RM์ด ์Šค์Šค๋กœ ํ‰๊ฐ€ ๊ธฐ์ค€์„ ๋งŒ๋“ค๊ณ  ์‘๋‹ต์„ ํ‰๊ฐ€ํ•˜๋„๋ก ํ•œ๋‹ค. 'Flow-GRPO'๋Š” ํ”Œ๋กœ์šฐ ๋งค์นญ ์ด๋ฏธ์ง€ ์ƒ์„ฑ ๋ชจ๋ธ์— ์˜จ๋ผ์ธ ๊ฐ•ํ™”ํ•™์Šต์„ ์ตœ์ดˆ๋กœ ํ†ตํ•ฉํ•˜์—ฌ, ODE-SDE ๋ณ€ํ™˜๊ณผ ๋…ธ์ด์ฆˆ ์ œ๊ฑฐ ๊ฐ์†Œ ์ „๋žต์œผ๋กœ ๋ณต์žกํ•œ ์ด๋ฏธ์ง€ ์ƒ์„ฑ ํ’ˆ์งˆ์„ ํฌ๊ฒŒ ํ–ฅ์ƒ์‹œํ‚ค๋ฉด์„œ๋„ ๋ณด์ƒ ํ•ดํ‚น ๋ฌธ์ œ๋ฅผ ์ตœ์†Œํ™”ํ•˜๋Š” ์„ฑ๊ณผ๋ฅผ ๋ณด์˜€๋‹ค.

AI ์ž์œจ ํ•™์Šต ๋ฐ ์ถ”๋ก  ๋Šฅ๋ ฅ ๊ฐ•ํ™” ๋ถ„์•ผ

Absolute Zero: Reinforced Self-play Reasoning with Zero Data

Paper, Project

๊ธฐ์กด์˜ ๊ฒ€์ฆ ๊ฐ€๋Šฅํ•œ ๋ณด์ƒ ๊ธฐ๋ฐ˜ ๊ฐ•ํ™”ํ•™์Šต(RLVR) ์—ฐ๊ตฌ๋“ค์ด ์ถ”๋ก  ๊ณผ์ •์— ๋Œ€ํ•œ ์ธ๊ฐ„์˜ ์ง์ ‘์ ์ธ ๊ฐ๋…์€ ํ”ผํ•˜๋ฉด์„œ๋„, ํ›ˆ๋ จ์„ ์œ„ํ•ด์„œ๋Š” ์—ฌ์ „ํžˆ ์ˆ˜๋™์œผ๋กœ ์„ ๋ณ„๋œ ์งˆ๋ฌธ๊ณผ ๋‹ต๋ณ€ ๋ชจ์Œ์— ์˜์กดํ–ˆ๋˜ ํ•œ๊ณ„๋ฅผ ์ง€์ ํ•˜๋ฉฐ, '์•ฑ์†”๋ฃจํŠธ ์ œ๋กœ'๋Š” ์–ด๋– ํ•œ ์™ธ๋ถ€ ๋ฐ์ดํ„ฐ์˜ ๋„์›€ ์—†์ด ๋‹จ์ผ ๋ชจ๋ธ ์Šค์Šค๋กœ๊ฐ€ ์ž์‹ ์˜ ํ•™์Šต ์ง„ํ–‰์„ ๊ทน๋Œ€ํ™”ํ•  ์ˆ˜ ์žˆ๋Š” ์ž‘์—…์„ ์ œ์•ˆํ•˜๊ณ  ์ด๋ฅผ ํ•ด๊ฒฐํ•จ์œผ๋กœ์จ ์ถ”๋ก  ๋Šฅ๋ ฅ์„ ํ–ฅ์ƒ์‹œํ‚ค๋Š” ์ƒˆ๋กœ์šด ํŒจ๋Ÿฌ๋‹ค์ž„์„ ์ œ์‹œํ•œ๋‹ค. ์ด ํŒจ๋Ÿฌ๋‹ค์ž„ ํ•˜์— ์ œ์•ˆ๋œ '์•ฑ์†”๋ฃจํŠธ ์ œ๋กœ ๋ฆฌ์ฆˆ๋„ˆ(AZR)' ์‹œ์Šคํ…œ์€ ์ฝ”๋“œ ์‹คํ–‰๊ธฐ๋ฅผ ํ™œ์šฉํ•˜์—ฌ, ๋ชจ๋ธ์ด ์ œ์•ˆํ•œ ์ฝ”๋“œ ์ถ”๋ก  ์ž‘์—…์˜ ์œ ํšจ์„ฑ์„ ๊ฒ€์ฆํ•˜๊ณ  ์ƒ์„ฑ๋œ ๋‹ต๋ณ€์„ ํ™•์ธํ•จ์œผ๋กœ์จ, ๊ฐœ๋ฐฉ์ ์ด๋ฉด์„œ๋„ ๊ทผ๊ฑฐ ์žˆ๋Š” ํ•™์Šต์„ ์•ˆ๋‚ดํ•˜๋Š” ํ†ตํ•ฉ๋œ ๊ฒ€์ฆ ๊ฐ€๋Šฅํ•œ ๋ณด์ƒ์˜ ์›์ฒœ์œผ๋กœ ์‚ผ์•„ ์ž์ฒด์ ์œผ๋กœ ํ›ˆ๋ จ ์ปค๋ฆฌํ˜๋Ÿผ๊ณผ ์ถ”๋ก  ๋Šฅ๋ ฅ์„ ์ง„ํ™”์‹œํ‚จ๋‹ค. ๋†€๋ž๊ฒŒ๋„ AZR์€ ์ „์ ์œผ๋กœ ์™ธ๋ถ€ ๋ฐ์ดํ„ฐ ์—†์ด ํ›ˆ๋ จ๋˜์—ˆ์Œ์—๋„ ๋ถˆ๊ตฌํ•˜๊ณ  ์ฝ”๋”ฉ ๋ฐ ์ˆ˜ํ•™ ์ถ”๋ก  ์ž‘์—…์—์„œ ์ „๋ฐ˜์ ์ธ ์ตœ๊ณ  ์„ฑ๋Šฅ(SOTA)์„ ๋‹ฌ์„ฑํ•˜๋ฉฐ, ์ˆ˜๋งŒ ๊ฐœ์˜ ๊ด€๋ จ ๋ถ„์•ผ ์ธ๊ฐ„ ๋ฐ์ดํ„ฐ๋ฅผ ์‚ฌ์šฉํ•œ ๊ธฐ์กด ์ œ๋กœ ์„ธํŒ… ๋ชจ๋ธ๋“ค์„ ๋Šฅ๊ฐ€ํ•˜๋Š” ์„ฑ๊ณผ๋ฅผ ๋ณด์ด๊ณ , ๋‹ค์–‘ํ•œ ๋ชจ๋ธ ๊ทœ๋ชจ์™€ ์ข…๋ฅ˜์— ํšจ๊ณผ์ ์œผ๋กœ ์ ์šฉ๋  ์ˆ˜ ์žˆ์Œ์„ ์ž…์ฆํ•œ๋‹ค.

Grokking in the Wild: Data Augmentation for Real-World Multi-Hop Reasoning with Transformers

Paper, Project

ํŠธ๋žœ์Šคํฌ๋จธ๊ฐ€ ์ˆ˜๋งŽ์€ ์ž์—ฐ์–ด ์ฒ˜๋ฆฌ ์ž‘์—…์—์„œ ํฐ ์„ฑ๊ณต์„ ๊ฑฐ๋‘์—ˆ์Œ์—๋„ ๋ถˆ๊ตฌํ•˜๊ณ , ์‹ค์ œ ์„ธ๊ณ„์˜ ์ง€์‹์ด ํฌ์†Œํ•  ๊ฒฝ์šฐ ์—ฌ๋Ÿฌ ๋‹จ๊ณ„๋ฅผ ๊ฑฐ์ณ์•ผ ํ•˜๋Š” ์‚ฌ์‹ค์  ์ถ”๋ก (multi-step factual reasoning)์—๋Š” ์—ฌ์ „ํžˆ ๋ˆˆ์— ๋„๋Š” ํ•œ๊ณ„๋ฅผ ๋ณด์ธ๋‹ค๋Š” ๋ฌธ์ œ์ ์—์„œ ์ถœ๋ฐœํ•˜์—ฌ, ์ด ์—ฐ๊ตฌ๋Š” ์ตœ๊ทผ ์‹ ๊ฒฝ๋ง์ด ๊ธฐ์ €์˜ ๋…ผ๋ฆฌ์  ํŒจํ„ด์„ ๊ฐ์ง€ํ•˜๋ฉด ๋‹จ์ˆœ ์•”๊ธฐ์—์„œ ์™„๋ฒฝํ•œ ์ผ๋ฐ˜ํ™”๋กœ ์ „ํ™˜๋  ์ˆ˜ ์žˆ์Œ์„ ๋ณด์—ฌ์ค€ '๊ทธ๋กœํ‚น(grokking)' ํ˜„์ƒ์„ ์‹ค์ œ ์‚ฌ์‹ค ๋ฐ์ดํ„ฐ๋กœ ํ™•์žฅํ•œ๋‹ค. ํŠนํžˆ ๋ฐ์ดํ„ฐ์…‹์˜ ํฌ์†Œ์„ฑ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด ๊ธฐ์กด ์ง€์‹ ๊ทธ๋ž˜ํ”„์— ์˜๋„์ ์œผ๋กœ ์„ค๊ณ„๋œ ํ•ฉ์„ฑ ๋ฐ์ดํ„ฐ๋ฅผ ์ฆ๊ฐ•ํ•˜์—ฌ, ์ถ”๋ก ๋œ ์‚ฌ์‹ค ๋Œ€ ์›์ž์ (atomic) ์‚ฌ์‹ค์˜ ๋น„์œจ(phi_r)์„ ๊ทธ๋กœํ‚น ๋ฐœ์ƒ์— ํ•„์š”ํ•œ ์ž„๊ณ„๊ฐ’ ์ด์ƒ์œผ๋กœ ๋†’์ด๋Š” ์ „๋žต์„ ์‚ฌ์šฉํ•˜๋ฉฐ, ๋†€๋ž๊ฒŒ๋„ ์‚ฌ์‹ค์ ์œผ๋กœ๋Š” ํ‹€๋ฆฐ ํ•ฉ์„ฑ ๋ฐ์ดํ„ฐ์กฐ์ฐจ ๋ชจ๋ธ์ด ๋‹จ์ˆœ ์•”๊ธฐ์— ์˜์กดํ•˜๊ธฐ๋ณด๋‹ค ๊ด€๊ณ„ ๊ตฌ์กฐ์— ์ง‘์ค‘ํ•˜๋„๋ก ๊ฐ•์ œํ•จ์œผ๋กœ์จ ์ •ํ™•๋„๋ฅผ ์ €ํ•ดํ•˜๊ธฐ๋ณด๋‹ค๋Š” ์˜คํžˆ๋ ค ์ถ”๋ก  ํšŒ๋กœ๋ฅผ ๊ฐ•ํ™”ํ•  ์ˆ˜ ์žˆ์Œ์„ ๋ฐœ๊ฒฌํ•œ๋‹ค. ์ด๋Ÿฌํ•œ ์ ‘๊ทผ๋ฒ•์€ ๋‹ค๋‹จ๊ณ„ ์ถ”๋ก  ๋ฒค์น˜๋งˆํฌ์ธ 2WikiMultiHopQA์—์„œ ์ตœ๋Œ€ 95-100%์˜ ์ •ํ™•๋„๋ฅผ ๋‹ฌ์„ฑํ•˜์—ฌ ๊ฐ•๋ ฅํ•œ ๊ธฐ์ค€ ๋ชจ๋ธ๋“ค์„ ํฌ๊ฒŒ ๋Šฅ๊ฐ€ํ•˜๊ณ  ํ˜„์žฌ ์ตœ๊ณ  ์ˆ˜์ค€์˜ ๊ฒฐ๊ณผ๋ฅผ ๋งž์ถ”๊ฑฐ๋‚˜ ์ดˆ๊ณผํ•˜๋ฉฐ, phi_r ๋น„์œจ ์ฆ๊ฐ€๊ฐ€ ํŠธ๋žœ์Šคํฌ๋จธ ๋‚ด๋ถ€์— ์ผ๋ฐ˜ํ™” ํšŒ๋กœ ํ˜•์„ฑ์„ ์–ด๋–ป๊ฒŒ ์ด‰์ง„ํ•˜๋Š”์ง€์— ๋Œ€ํ•œ ์‹ฌ์ธต ๋ถ„์„์„ ์ œ๊ณตํ•˜์—ฌ ๊ทธ๋กœํ‚น ๊ธฐ๋ฐ˜ ๋ฐ์ดํ„ฐ ์ฆ๊ฐ•์ด ๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ์˜ ์•”๋ฌต์ ์ธ ๋‹ค๋‹จ๊ณ„ ์ถ”๋ก  ๋Šฅ๋ ฅ์„ ๋ฐœํ˜„์‹œ์ผœ ๋” ๊ฐ•๊ฑดํ•˜๊ณ  ํ•ด์„ ๊ฐ€๋Šฅํ•œ ์‚ฌ์‹ค ์ถ”๋ก ์˜ ๋ฌธ์„ ์—ด ์ˆ˜ ์žˆ์Œ์„ ์‹œ์‚ฌํ•œ๋‹ค.

ZeroSearch: Incentivize the Search Capability of LLMs without Searching

Paper, Project

๋Œ€ํ˜• ์–ธ์–ด ๋ชจ๋ธ(LLM)์˜ ์ถ”๋ก  ๋ฐ ์ƒ์„ฑ ๋Šฅ๋ ฅ ํ–ฅ์ƒ์— ํ•„์ˆ˜์ ์ธ ํšจ๊ณผ์ ์ธ ์ •๋ณด ๊ฒ€์ƒ‰ ๋Šฅ๋ ฅ์„ ๊ฐ•ํ™”ํ•˜๊ธฐ ์œ„ํ•ด ์ตœ๊ทผ ์—ฐ๊ตฌ๋“ค์ด ์‹ค์ œ ๊ฒ€์ƒ‰ ์—”์ง„๊ณผ ์ƒํ˜ธ์ž‘์šฉํ•˜๋ฉฐ ๊ฐ•ํ™”ํ•™์Šต(RL)์„ ์‚ฌ์šฉํ•˜๋Š” ๋ฐฉ์‹์„ ํƒ์ƒ‰ํ•ด์™”์œผ๋‚˜, ์ด๋Ÿฌํ•œ ์ ‘๊ทผ๋ฒ•๋“ค์€ (1) ๊ฒ€์ƒ‰ ์—”์ง„์ด ๋ฐ˜ํ™˜ํ•˜๋Š” ๋ฌธ์„œ ํ’ˆ์งˆ์ด ์˜ˆ์ธก ๋ถˆ๊ฐ€๋Šฅํ•˜์—ฌ ํ›ˆ๋ จ ๊ณผ์ •์— ๋…ธ์ด์ฆˆ์™€ ๋ถˆ์•ˆ์ •์„ฑ์„ ์•ผ๊ธฐํ•˜๋Š” '์ œ์–ด ๋ถˆ๊ฐ€๋Šฅํ•œ ๋ฌธ์„œ ํ’ˆ์งˆ' ๋ฌธ์ œ์™€ (2) RL ํ›ˆ๋ จ ์‹œ ์ˆ˜์‹ญ๋งŒ ๊ฑด์˜ ๊ฒ€์ƒ‰ ์š”์ฒญ์ด ํ•„์š”ํ•  ์ˆ˜ ์žˆ์–ด ๋ง‰๋Œ€ํ•œ API ๋น„์šฉ์„ ๋ฐœ์ƒ์‹œํ‚ค๊ณ  ํ™•์žฅ์„ฑ์„ ์‹ฌ๊ฐํ•˜๊ฒŒ ์ œํ•œํ•˜๋Š” '์—„์ฒญ๋‚œ API ๋น„์šฉ' ๋ฌธ์ œ๋ผ๋Š” ๋‘ ๊ฐ€์ง€ ์ฃผ์š” ๋‚œ๊ด€์— ์ง๋ฉดํ•œ๋‹ค. ์ด๋Ÿฌํ•œ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด, 'ZeroSearch'๋Š” ์‹ค์ œ ๊ฒ€์ƒ‰ ์—”์ง„๊ณผ์˜ ์ƒํ˜ธ์ž‘์šฉ ์—†์ด LLM์˜ ๊ฒ€์ƒ‰ ๋Šฅ๋ ฅ์„ ๊ฐ•ํ™”ํ•˜๋Š” ์ƒˆ๋กœ์šด ๊ฐ•ํ™”ํ•™์Šต ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ œ์•ˆํ•˜๋Š”๋ฐ, ์ด ์ ‘๊ทผ๋ฒ•์€ ๋จผ์ € ๊ฐ€๋ฒผ์šด ์ง€๋„ ๋ฏธ์„ธ์กฐ์ •(SFT)์„ ํ†ตํ•ด LLM ์ž์ฒด๋ฅผ ์ฟผ๋ฆฌ์— ๋Œ€ํ•ด ๊ด€๋ จ์„ฑ ๋†’์€ ๋ฌธ์„œ์™€ ๋…ธ์ด์ฆˆ๊ฐ€ ์„ž์ธ ๋ฌธ์„œ๋ฅผ ๋ชจ๋‘ ์ƒ์„ฑํ•  ์ˆ˜ ์žˆ๋Š” ๊ฒ€์ƒ‰ ๋ชจ๋“ˆ๋กœ ๋ณ€ํ™˜ํ•˜๊ณ , RL ํ›ˆ๋ จ ๋‹จ๊ณ„์—์„œ๋Š” ์ƒ์„ฑ๋œ ๋ฌธ์„œ์˜ ํ’ˆ์งˆ์„ ์ ์ง„์ ์œผ๋กœ ๋‚ฎ์ถ”๋Š” ์ปค๋ฆฌํ˜๋Ÿผ ๊ธฐ๋ฐ˜ ๋กค์•„์›ƒ ์ „๋žต์„ ์‚ฌ์šฉํ•˜์—ฌ ๋ชจ๋ธ์„ ์ ์  ๋” ์–ด๋ ค์šด ๊ฒ€์ƒ‰ ์‹œ๋‚˜๋ฆฌ์˜ค์— ๋…ธ์ถœ์‹œํ‚ด์œผ๋กœ์จ ์ถ”๋ก  ๋Šฅ๋ ฅ์„ ์ ์ง„์ ์œผ๋กœ ๋Œ์–ด๋‚ธ๋‹ค. ๊ด‘๋ฒ”์œ„ํ•œ ์‹คํ—˜์„ ํ†ตํ•ด ZeroSearch๋Š” 3B ํฌ๊ธฐ์˜ LLM์„ ๊ฒ€์ƒ‰ ๋ชจ๋“ˆ๋กœ ์‚ฌ์šฉํ–ˆ์„ ๋•Œ ํšจ๊ณผ์ ์œผ๋กœ LLM์˜ ๊ฒ€์ƒ‰ ๋Šฅ๋ ฅ์„ ๊ฐ•ํ™”ํ•จ์„ ๋ณด์—ฌ์ฃผ์—ˆ๊ณ , ํŠนํžˆ 7B ๊ฒ€์ƒ‰ ๋ชจ๋“ˆ์€ ์‹ค์ œ ๊ฒ€์ƒ‰ ์—”์ง„๊ณผ ์œ ์‚ฌํ•œ ์„ฑ๋Šฅ์„, 14B ๊ฒ€์ƒ‰ ๋ชจ๋“ˆ์€ ์ด๋ฅผ ๋Šฅ๊ฐ€ํ•˜๋Š” ์„ฑ๋Šฅ์„ ๋‹ฌ์„ฑํ–ˆ์œผ๋ฉฐ, ๋‹ค์–‘ํ•œ ๋งค๊ฐœ๋ณ€์ˆ˜ ํฌ๊ธฐ์˜ ๊ธฐ๋ณธ ๋ชจ๋ธ ๋ฐ ๋ช…๋ น์–ด ํŠœ๋‹ ๋ชจ๋ธ ์ „๋ฐ˜์— ๊ฑธ์ณ ์ž˜ ์ผ๋ฐ˜ํ™”๋˜๊ณ  ๊ด‘๋ฒ”์œ„ํ•œ RL ์•Œ๊ณ ๋ฆฌ์ฆ˜๊ณผ ํ˜ธํ™˜๋จ์„ ์ž…์ฆํ•œ๋‹ค.

๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ AI์™€ ์ธ๊ฐ„-AI ์ƒํ˜ธ์ž‘์šฉ ๋ถ„์•ผ

Voila: Voice-Language Foundation Models for Real-Time Autonomous Interaction and Voice Role-Play

Paper, Project

๋‹จ์ˆœํ•œ ๋ช…๋ น์–ด์— ๋ฐ˜์‘ํ•˜๋Š” ๊ฒƒ์„ ๋„˜์–ด, ๋งˆ์น˜ ์ธ๊ฐ„์ฒ˜๋Ÿผ ์ผ์ƒ์ƒํ™œ์— ์ž์—ฐ์Šค๋Ÿฝ๊ฒŒ ๋…น์•„๋“ค์–ด ์ง€์†์ ์œผ๋กœ ๋“ฃ๊ณ , ์ถ”๋ก ํ•˜๊ณ , ์„ ์ œ์ ์œผ๋กœ ๋ฐ˜์‘ํ•˜๋ฉฐ, ๊ฐ์ •์„ ํ’๋ถ€ํ•˜๊ฒŒ ํ‘œํ˜„ํ•˜๋Š” ์ž์œจ์ ์ด๊ณ  ์‹ค์‹œ๊ฐ„ ์ƒํ˜ธ์ž‘์šฉ์ด ๊ฐ€๋Šฅํ•œ ์Œ์„ฑ AI ์—์ด์ „ํŠธ์˜ ๋น„์ „์„ ์ œ์‹œํ•˜๋ฉฐ, 'Voila'๋Š” ์ด๋Ÿฌํ•œ ๋ชฉํ‘œ๋ฅผ ํ–ฅํ•ด ๋‚˜์•„๊ฐ€๋Š” ๋Œ€๊ทœ๋ชจ ์Œ์„ฑ-์–ธ์–ด ํŒŒ์šด๋ฐ์ด์…˜ ๋ชจ๋ธ๊ตฐ์ด๋‹ค. Voila๋Š” ์ „ํ†ต์ ์ธ ํŒŒ์ดํ”„๋ผ์ธ ์‹œ์Šคํ…œ์˜ ํ•œ๊ณ„๋ฅผ ๊ทน๋ณตํ•˜๊ธฐ ์œ„ํ•ด, ์–‘๋ฐฉํ–ฅ(full-duplex) ๋Œ€ํ™”๋ฅผ ์ง€์›ํ•˜๊ณ  ํ‰๊ท  ์ธ๊ฐ„ ๋ฐ˜์‘ ์‹œ๊ฐ„๋ณด๋‹ค ๋น ๋ฅธ 195๋ฐ€๋ฆฌ์ดˆ์˜ ๋‚ฎ์€ ์‘๋‹ต ์ง€์—ฐ ์‹œ๊ฐ„์„ ๋‹ฌ์„ฑํ•˜๋ฉด์„œ๋„ ๋งํˆฌ, ๋ฆฌ๋“ฌ, ๊ฐ์ • ๊ฐ™์€ ํ’๋ถ€ํ•œ ์Œ์„ฑ ๋‰˜์•™์Šค๋ฅผ ๋ณด์กดํ•˜๋Š” ์ƒˆ๋กœ์šด ์ข…๋‹จ๊ฐ„(end-to-end) ์•„ํ‚คํ…์ฒ˜๋ฅผ ์ฑ„ํƒํ•œ๋‹ค. ์ด ์•„ํ‚คํ…์ฒ˜์˜ ํ•ต์‹ฌ์ธ ๊ณ„์ธต์  ๋‹ค์ค‘ ์Šค์ผ€์ผ ํŠธ๋žœ์Šคํฌ๋จธ๋Š” ๋Œ€ํ˜• ์–ธ์–ด ๋ชจ๋ธ(LLM)์˜ ์ถ”๋ก  ๋Šฅ๋ ฅ๊ณผ ๊ฐ•๋ ฅํ•œ ์Œํ–ฅ ๋ชจ๋ธ๋ง์„ ํ†ตํ•ฉํ•˜์—ฌ, ์‚ฌ์šฉ์ž๊ฐ€ ํ…์ŠคํŠธ ์ง€์นจ๋งŒ์œผ๋กœ ํ™”์ž์˜ ์ •์ฒด์„ฑ, ํ†ค, ๊ธฐํƒ€ ํŠน์„ฑ์„ ์ •์˜ํ•  ์ˆ˜ ์žˆ๋Š” ์ž์—ฐ์Šค๋Ÿฝ๊ณ  ํŽ˜๋ฅด์†Œ๋‚˜๋ฅผ ์ธ์‹ํ•˜๋Š” ์Œ์„ฑ ์ƒ์„ฑ์„ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•œ๋‹ค. ๋”๋ถˆ์–ด Voila๋Š” 100๋งŒ ๊ฐœ ์ด์ƒ์˜ ์‚ฌ์ „ ๊ตฌ์ถ•๋œ ์Œ์„ฑ์„ ์ง€์›ํ•˜๊ณ  10์ดˆ ์ •๋„์˜ ์งง์€ ์˜ค๋””์˜ค ์ƒ˜ํ”Œ๋งŒ์œผ๋กœ๋„ ์ƒˆ๋กœ์šด ์Œ์„ฑ์„ ํšจ์œจ์ ์œผ๋กœ ๋งž์ถค ์„ค์ •ํ•  ์ˆ˜ ์žˆ์œผ๋ฉฐ, ์Œ์„ฑ ๋Œ€ํ™”๋ฟ๋งŒ ์•„๋‹ˆ๋ผ ์ž๋™ ์Œ์„ฑ ์ธ์‹(ASR), ํ…์ŠคํŠธ ์Œ์„ฑ ๋ณ€ํ™˜(TTS), ๊ทธ๋ฆฌ๊ณ  ์ตœ์†Œํ•œ์˜ ์กฐ์ •์„ ํ†ตํ•ด ๋‹ค๊ตญ์–ด ์Œ์„ฑ ๋ฒˆ์—ญ๊นŒ์ง€ ํฌ๊ด„ํ•˜๋Š” ๊ด‘๋ฒ”์œ„ํ•œ ์Œ์„ฑ ๊ธฐ๋ฐ˜ ์• ํ”Œ๋ฆฌ์ผ€์ด์…˜์„ ์œ„ํ•œ ํ†ตํ•ฉ ๋ชจ๋ธ๋กœ ์„ค๊ณ„๋˜์–ด, ๊ฐœ๋ฐฉํ˜• ์—ฐ๊ตฌ ์ง€์›๊ณผ ์ฐจ์„ธ๋Œ€ ์ธ๊ฐ„-๊ธฐ๊ณ„ ์ƒํ˜ธ์ž‘์šฉ ๋ฐœ์ „์„ ๊ฐ€์†ํ™”ํ•˜๊ธฐ ์œ„ํ•ด ์™„์ „ ์˜คํ”ˆ์†Œ์Šค๋กœ ๊ณต๊ฐœ๋œ๋‹ค.

Unified Multimodal Understanding and Generation Models: Advances, Challenges, and Opportunities

Paper, Project

์ตœ๊ทผ ๋ช‡ ๋…„๊ฐ„ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ '์ดํ•ด' ๋ชจ๋ธ(์˜ˆ: ์ด๋ฏธ์ง€๋ฅผ ๋ณด๊ณ  ์„ค๋ช…ํ•˜๋Š” ๋ชจ๋ธ)๊ณผ ์ด๋ฏธ์ง€ '์ƒ์„ฑ' ๋ชจ๋ธ(์˜ˆ: ํ…์ŠคํŠธ๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ์ด๋ฏธ์ง€๋ฅผ ๋งŒ๋“œ๋Š” ๋ชจ๋ธ) ์–‘์ชฝ ๋ชจ๋‘ ๋†€๋ผ์šด ๋ฐœ์ „์„ ์ด๋ฃจ์—ˆ์ง€๋งŒ, ์ด ๋‘ ์˜์—ญ์€ ๊ฐ์ž์˜ ์„ฑ๊ณต์—๋„ ๋ถˆ๊ตฌํ•˜๊ณ  ๋…๋ฆฝ์ ์œผ๋กœ ๋ฐœ์ „ํ•˜์—ฌ ์„œ๋กœ ๋‹ค๋ฅธ ์•„ํ‚คํ…์ฒ˜ ํŒจ๋Ÿฌ๋‹ค์ž„์„ ํ˜•์„ฑํ•ด์™”๋Š”๋ฐ, ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ดํ•ด๋Š” ์ฃผ๋กœ ์ž๊ธฐํšŒ๊ท€(autoregressive) ๊ธฐ๋ฐ˜ ์•„ํ‚คํ…์ฒ˜๊ฐ€, ์ด๋ฏธ์ง€ ์ƒ์„ฑ์€ ํ™•์‚ฐ(diffusion) ๊ธฐ๋ฐ˜ ๋ชจ๋ธ์ด ์ฃผ๋ฅ˜๋ฅผ ์ด๋ฃจ์—ˆ๋‹ค. GPT-4o์˜ ์ƒˆ๋กœ์šด ๊ธฐ๋Šฅ ๋“ฑ์žฅ์—์„œ ์•Œ ์ˆ˜ ์žˆ๋“ฏ ์ตœ๊ทผ ์ด๋Ÿฌํ•œ ์ž‘์—…๋“ค์„ ํ†ตํ•ฉํ•˜๋ ค๋Š” ๊ด€์‹ฌ์ด ์ฆ๊ฐ€ํ•˜๊ณ  ์žˆ์œผ๋‚˜ ๋‘ ์˜์—ญ ๊ฐ„์˜ ์•„ํ‚คํ…์ฒ˜ ์ฐจ์ด๋กœ ์ธํ•ด ์ƒ๋‹นํ•œ ์–ด๋ ค์›€์ด ์กด์žฌํ•˜๋ฉฐ, ์ด์— ๋ณธ ์„œ๋ฒ ์ด ๋…ผ๋ฌธ์€ ํ†ตํ•ฉ์„ ํ–ฅํ•œ ํ˜„์žฌ์˜ ๋…ธ๋ ฅ์— ๋Œ€ํ•œ ๋ช…ํ™•ํ•œ ๊ฐœ์š”๋ฅผ ์ œ๊ณตํ•˜์—ฌ ๋ฏธ๋ž˜ ์—ฐ๊ตฌ๋ฅผ ์•ˆ๋‚ดํ•˜๊ณ ์ž ํ•œ๋‹ค. ๋จผ์ €, ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ดํ•ด ๋ฐ ํ…์ŠคํŠธ-์ด๋ฏธ์ง€ ์ƒ์„ฑ ๋ชจ๋ธ์˜ ๊ธฐ์ดˆ ๊ฐœ๋…๊ณผ ์ตœ๊ทผ ๋ฐœ์ „ ์‚ฌํ•ญ์„ ์†Œ๊ฐœํ•œ ํ›„, ๊ธฐ์กด ํ†ตํ•ฉ ๋ชจ๋ธ๋“ค์„ ํ™•์‚ฐ ๊ธฐ๋ฐ˜, ์ž๊ธฐํšŒ๊ท€ ๊ธฐ๋ฐ˜, ๊ทธ๋ฆฌ๊ณ  ์ด ๋‘˜์„ ์œตํ•ฉํ•œ ํ•˜์ด๋ธŒ๋ฆฌ๋“œ ์ ‘๊ทผ๋ฒ•์ด๋ผ๋Š” ์„ธ ๊ฐ€์ง€ ์ฃผ์š” ์•„ํ‚คํ…์ฒ˜ ํŒจ๋Ÿฌ๋‹ค์ž„์œผ๋กœ ๋ถ„๋ฅ˜ํ•˜์—ฌ ๊ฐ ๋ฒ”์ฃผ๋ณ„ ๊ด€๋ จ ์—ฐ๊ตฌ๋“ค์˜ ๊ตฌ์กฐ์  ์„ค๊ณ„์™€ ํ˜์‹ ์„ ๋ถ„์„ํ•œ๋‹ค. ์ถ”๊ฐ€์ ์œผ๋กœ, ํ†ตํ•ฉ ๋ชจ๋ธ์— ํŠนํ™”๋œ ๋ฐ์ดํ„ฐ์…‹๊ณผ ๋ฒค์น˜๋งˆํฌ๋ฅผ ์ •๋ฆฌํ•˜์—ฌ ํ–ฅํ›„ ํƒ์ƒ‰์„ ์œ„ํ•œ ์ž์›์„ ์ œ๊ณตํ•˜๊ณ , ๋งˆ์ง€๋ง‰์œผ๋กœ ํ† ํฐํ™” ์ „๋žต, ๊ต์ฐจ ๋ชจ๋‹ฌ ์–ดํ…์…˜, ๋ฐ์ดํ„ฐ ๋“ฑ ์ด ์ดˆ๊ธฐ ๋‹จ๊ณ„ ๋ถ„์•ผ๊ฐ€ ์ง๋ฉดํ•œ ์ฃผ์š” ๊ณผ์ œ๋“ค์„ ๋…ผ์˜ํ•˜๋ฉฐ, ์ด ๋ถ„์•ผ์˜ ๋น ๋ฅธ ๋ฐœ์ „์„ ์˜ˆ์ƒํ•˜์—ฌ ๋ณธ ์„œ๋ฒ ์ด๋ฅผ ์ •๊ธฐ์ ์œผ๋กœ ์—…๋ฐ์ดํŠธํ•จ์œผ๋กœ์จ ์ปค๋ฎค๋‹ˆํ‹ฐ์— ๊ท€์ค‘ํ•œ ์ฐธ๊ณ  ์ž๋ฃŒ๋ฅผ ์ œ๊ณตํ•˜๊ณ  ์ถ”๊ฐ€ ์—ฐ๊ตฌ๋ฅผ ์žฅ๋ คํ•˜๋Š” ๊ฒƒ์„ ๋ชฉํ‘œ๋กœ ํ•œ๋‹ค.

On Path to Multimodal Generalist: General-Level and General-Bench

Paper, Project

๋Œ€ํ˜• ์–ธ์–ด ๋ชจ๋ธ(LLM)์˜ ๋ฐœ์ „๋œ ๋Šฅ๋ ฅ์— ํž˜์ž…์–ด ํ˜„์žฌ ๋น ๋ฅด๊ฒŒ ์„ฑ์žฅํ•˜๊ณ  ์žˆ๋Š” ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๋Œ€ํ˜• ์–ธ์–ด ๋ชจ๋ธ(MLLM)์ด ์ดˆ๊ธฐ ํŠน์ • ์ž‘์—… ์ „๋ฌธ๊ฐ€ ํ˜•ํƒœ๋ฅผ ๋„˜์–ด '๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ œ๋„ˆ๋Ÿด๋ฆฌ์ŠคํŠธ(๋‹ค์–‘ํ•œ ์ข…๋ฅ˜์˜ ๋ฐ์ดํ„ฐ๋ฅผ ์ดํ•ดํ•˜๊ณ  ์ƒ์„ฑํ•˜๋Š” ๋งŒ๋Šฅ AI)' ํŒจ๋Ÿฌ๋‹ค์ž„์œผ๋กœ ์ง„ํ™”ํ•˜๊ณ  ์žˆ์œผ๋ฉฐ, ์ด๋“ค ๋ชจ๋ธ์€ ๋‹จ์ˆœํžˆ ์—ฌ๋Ÿฌ ์ข…๋ฅ˜์˜ ๋ฐ์ดํ„ฐ๋ฅผ ์ดํ•ดํ•˜๋Š” ๊ฒƒ์—์„œ ๋‚˜์•„๊ฐ€ ์—ฌ๋Ÿฌ ์ข…๋ฅ˜์˜ ๋ฐ์ดํ„ฐ๋ฅผ ์ดํ•ดํ•˜๊ณ  ์ƒ์„ฑํ•˜๋Š” ์ˆ˜์ค€์œผ๋กœ ๋ฐœ์ „ํ–ˆ๊ณ , ๊ทธ ๋Šฅ๋ ฅ ๋˜ํ•œ ๊ฑฐ์‹œ์ (coarse-grained) ์ดํ•ด์—์„œ ๋ฏธ์‹œ์ (fine-grained) ์ดํ•ด๋กœ, ์ œํ•œ๋œ ์ข…๋ฅ˜์˜ ๋ฐ์ดํ„ฐ ์ง€์›์—์„œ ์ž„์˜์˜ ๋ฐ์ดํ„ฐ ์ง€์›์œผ๋กœ ํ™•์žฅ๋˜๊ณ  ์žˆ๋‹ค. ํ•˜์ง€๋งŒ ์ˆ˜๋งŽ์€ MLLM ํ‰๊ฐ€ ๋ฒค์น˜๋งˆํฌ๊ฐ€ ์กด์žฌํ•จ์—๋„ ๋ถˆ๊ตฌํ•˜๊ณ , "์—ฌ๋Ÿฌ ์ž‘์—…์—์„œ ๋‹จ์ˆœํžˆ ๋†’์€ ์„ฑ๋Šฅ์„ ๋ณด์ธ๋‹ค๊ณ  ํ•ด์„œ MLLM์˜ ๋Šฅ๋ ฅ์ด ๋” ๊ฐ•ํ•˜๊ณ , ์ด๊ฒƒ์ด ์šฐ๋ฆฌ๋ฅผ ์ธ๊ฐ„ ์ˆ˜์ค€ AI(AGI)์— ๋” ๊ฐ€๊น๊ฒŒ ๋งŒ๋“œ๋Š”๊ฐ€?"๋ผ๋Š” ์ค‘์š”ํ•œ ์งˆ๋ฌธ์— ๋Œ€ํ•œ ๋‹ต์€ ๊ฐ„๋‹จํ•˜์ง€ ์•Š๋‹ค๋Š” ๋ฌธ์ œ์˜์‹์—์„œ ์ถœ๋ฐœํ•˜์—ฌ, ์ด ํ”„๋กœ์ ํŠธ๋Š” MLLM์˜ ์„ฑ๋Šฅ๊ณผ ์ผ๋ฐ˜์„ฑ(generality)์„ 5๋‹จ๊ณ„๋กœ ์ •์˜ํ•˜๋Š” ํ‰๊ฐ€ ํ”„๋ ˆ์ž„์›Œํฌ '์ œ๋„ˆ๋Ÿด-๋ ˆ๋ฒจ(General-Level)'์„ ์†Œ๊ฐœํ•˜๊ณ , ์ด๋ฅผ ํ†ตํ•ด MLLM๋“ค์„ ๋น„๊ตํ•˜๋ฉฐ ๊ธฐ์กด ์‹œ์Šคํ…œ๋“ค์ด ๋” ๊ฐ•๊ฑดํ•œ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ œ๋„ˆ๋Ÿด๋ฆฌ์ŠคํŠธ, ๊ถ๊ทน์ ์œผ๋กœ๋Š” AGI๋กœ ๋‚˜์•„๊ฐ€๋Š” ์ง„์ฒ™๋„๋ฅผ ์ธก์ •ํ•˜๋Š” ๋ฐฉ๋ฒ•๋ก ์„ ์ œ๊ณตํ•œ๋‹ค. ์ด ํ”„๋ ˆ์ž„์›Œํฌ์˜ ํ•ต์‹ฌ์—๋Š” ๋ชจ๋ธ์ด ์ดํ•ด์™€ ์ƒ์„ฑ, ๊ทธ๋ฆฌ๊ณ  ์—ฌ๋Ÿฌ ์ข…๋ฅ˜์˜ ๋ฐ์ดํ„ฐ์— ๊ฑธ์ณ ์ผ๊ด€๋œ ๋Šฅ๋ ฅ์„ ์œ ์ง€ํ•˜๋Š”์ง€๋ฅผ ์ธก์ •ํ•˜๋Š” '์‹œ๋„ˆ์ง€(Synergy)' ๊ฐœ๋…์ด ์žˆ์œผ๋ฉฐ, ์ด๋Ÿฌํ•œ ํ‰๊ฐ€๋ฅผ ์ง€์›ํ•˜๊ธฐ ์œ„ํ•ด 700๊ฐœ ์ด์ƒ์˜ ์ž‘์—…๊ณผ 325,800๊ฐœ์˜ ์ธ์Šคํ„ด์Šค๋ฅผ ํฌํ•จํ•˜์—ฌ ๋” ๋„“์€ ์ŠคํŽ™ํŠธ๋Ÿผ์˜ ๊ธฐ์ˆ , ๋ฐ์ดํ„ฐ ์ข…๋ฅ˜, ํ˜•์‹, ๋Šฅ๋ ฅ์„ ํฌ๊ด„ํ•˜๋Š” '์ œ๋„ˆ๋Ÿด-๋ฒค์น˜(General-Bench)'๋ฅผ ํ•จ๊ป˜ ์ œ์‹œํ•˜์—ฌ, 100๊ฐœ ์ด์ƒ์˜ ์ตœ์‹  MLLM ํ‰๊ฐ€๋ฅผ ํ†ตํ•ด ์ œ๋„ˆ๋Ÿด๋ฆฌ์ŠคํŠธ๋“ค์˜ ๋Šฅ๋ ฅ ์ˆœ์œ„๋ฅผ ๋ฐํžˆ๊ณ  ์ง„์ •ํ•œ AI ๋„๋‹ฌ์˜ ์–ด๋ ค์›€์„ ์กฐ๋ช…ํ•จ์œผ๋กœ์จ ์ฐจ์„ธ๋Œ€ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ํŒŒ์šด๋ฐ์ด์…˜ ๋ชจ๋ธ ์—ฐ๊ตฌ์˜ ๊ธธ์„ ์—ด๊ณ  AGI ์‹คํ˜„์„ ๊ฐ€์†ํ™”ํ•  ๊ฒฌ๊ณ ํ•œ ๊ธฐ๋ฐ˜ ์‹œ์„ค์„ ์ œ๊ณตํ•  ๊ฒƒ์œผ๋กœ ๊ธฐ๋Œ€ํ•œ๋‹ค.

์—ฐ์‡„์  ์‚ฌ๊ณ (CoT) ๋ฐ ๊ฐ•ํ™”ํ•™์Šต(RL)์„ ํ†ตํ•œ ๋ชจ๋ธ ์„ฑ๋Šฅ ์ตœ์ ํ™” ๋ถ„์•ผ

Unified Multimodal Chain-of-Thought Reward Model through Reinforcement Fine-Tuning

Paper, Project

ํ˜„์žฌ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๋ณด์ƒ ๋ชจ๋ธ(RM)๋“ค์ด ์ฃผ๋กœ ์ง์ ‘์ ์ธ ์‘๋‹ต์„ ์ œ๊ณตํ•˜๊ฑฐ๋‚˜ ๊นŠ์ด๊ฐ€ ์–•์€ ์ถ”๋ก  ๊ณผ์ •์— ๋จธ๋ฌผ๋Ÿฌ ๋ถ€์ •ํ™•ํ•œ ๋ณด์ƒ ์‹ ํ˜ธ๋ฅผ ์‚ฐ์ถœํ•˜๋Š” ๊ฒฝ์šฐ๊ฐ€ ๋งŽ๋‹ค๋Š” ๋ฌธ์ œ์˜์‹์—์„œ ์ถœ๋ฐœํ•˜์—ฌ, 'UnifiedReward-Think'๋Š” ๋ณด์ƒ ์ถ”๋ก  ๊ณผ์ •์— ๋ช…์‹œ์ ์ธ ๊ธด ์—ฐ์‡„์  ์‚ฌ๊ณ (Chain-of-Thought, CoT)๋ฅผ ํ†ตํ•ฉํ•จ์œผ๋กœ์จ ๋ณด์ƒ ๋ชจ๋ธ์˜ ์‹ ๋ขฐ์„ฑ๊ณผ ๊ฐ•๊ฑด์„ฑ์„ ํฌ๊ฒŒ ๊ฐ•ํ™”ํ•˜๊ณ , ๋‚˜์•„๊ฐ€ ์ผ๋‹จ RM์ด CoT ์ถ”๋ก ์„ ๋‚ด์žฌํ™”ํ•˜๋ฉด ์•”๋ฌต์  ์ถ”๋ก  ๋Šฅ๋ ฅ์„ ํ†ตํ•ด ์ง์ ‘ ์‘๋‹ต ์ •ํ™•๋„ ์—ญ์‹œ ํ–ฅ์ƒ๋  ์ˆ˜ ์žˆ๋‹ค๋Š” ๊ฐ€์„ค์„ ๊ฒ€์ฆํ•œ๋‹ค. ์ด๋ฅผ ์œ„ํ•ด ์ œ์•ˆ๋œ ๋ชจ๋ธ์€ ํƒ์ƒ‰ ์ค‘์‹ฌ์˜ ๊ฐ•ํ™” ๋ฏธ์„ธ์กฐ์ • ์ ‘๊ทผ๋ฒ•์„ ์ฑ„ํƒํ•˜๋Š”๋ฐ, ๊ตฌ์ฒด์ ์œผ๋กœ (1) ์†Œ๋Ÿ‰์˜ ์ด๋ฏธ์ง€ ์ƒ์„ฑ ์„ ํ˜ธ๋„ ๋ฐ์ดํ„ฐ๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ GPT-4o์˜ ์ถ”๋ก  ๊ณผ์ •์„ ์ฆ๋ฅ˜(distill)ํ•จ์œผ๋กœ์จ ๋ชจ๋ธ์ด CoT ์ถ”๋ก ์˜ ํ˜•์‹๊ณผ ๊ตฌ์กฐ๋ฅผ ํ•™์Šตํ•˜๋Š” ์ฝœ๋“œ ์Šคํƒ€ํŠธ ๋‹จ๊ณ„๋ฅผ ๊ฑฐ์น˜๊ณ , (2) ์ดํ›„ ๋ชจ๋ธ์˜ ์‚ฌ์ „ ์ง€์‹๊ณผ ์ผ๋ฐ˜ํ™” ๋Šฅ๋ ฅ์„ ํ™œ์šฉํ•ด ๋Œ€๊ทœ๋ชจ ํ†ตํ•ฉ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์„ ํ˜ธ๋„ ๋ฐ์ดํ„ฐ๋ฅผ ์ค€๋น„ํ•˜์—ฌ ๋‹ค์–‘ํ•œ ๋น„์ „ ์ž‘์—…์— ๊ฑธ์ณ ๋ชจ๋ธ์˜ ์ถ”๋ก  ๊ณผ์ •์„ ์œ ๋„ํ•˜๋ฉฐ ์ด๋•Œ ์˜ฌ๋ฐ”๋ฅธ ์ถ”๋ก  ๊ฒฐ๊ณผ๋Š” ๋ชจ๋ธ ์ •์ œ๋ฅผ ์œ„ํ•œ ๊ฑฐ๋ถ€ ์ƒ˜ํ”Œ๋ง(rejection sampling)์— ํ™œ์šฉํ•˜๊ณ , (3) ๋งˆ์ง€๋ง‰์œผ๋กœ ๋ถ€์ •ํ™•ํ•˜๊ฒŒ ์˜ˆ์ธก๋œ ์ƒ˜ํ”Œ๋“ค์€ GRPO(Group Relative Policy Optimization) ๊ธฐ๋ฐ˜ ๊ฐ•ํ™” ๋ฏธ์„ธ์กฐ์ •์— ์‚ฌ์šฉํ•˜์—ฌ ๋ชจ๋ธ์ด ๋‹ค์–‘ํ•œ ์ถ”๋ก  ๊ฒฝ๋กœ๋ฅผ ํƒ์ƒ‰ํ•˜๊ณ  ์ •ํ™•ํ•˜๋ฉฐ ๊ฐ•๊ฑดํ•œ ํ•ด๊ฒฐ์ฑ…์„ ์ฐพ๋„๋ก ์ตœ์ ํ™”ํ•จ์œผ๋กœ์จ ๋‹ค์–‘ํ•œ ๋น„์ „ ๋ณด์ƒ ์ž‘์—…์—์„œ ์šฐ์ˆ˜์„ฑ์„ ๋ณด์ธ๋‹ค.

RM-R1: Reward Modeling as Reasoning

Paper, Project

๋Œ€ํ˜• ์–ธ์–ด ๋ชจ๋ธ(LLM)์„ ์ธ๊ฐ„์˜ ์„ ํ˜ธ๋„์— ๋งž๊ฒŒ ์กฐ์ •ํ•˜๋Š”, ํŠนํžˆ ์ธ๊ฐ„ ํ”ผ๋“œ๋ฐฑ ๊ธฐ๋ฐ˜ ๊ฐ•ํ™”ํ•™์Šต(RLHF)์˜ ํ•ต์‹ฌ ์š”์†Œ์ธ ๋ณด์ƒ ๋ชจ๋ธ๋ง(Reward Modeling)์ด ์ •ํ™•ํ•œ ๋ณด์ƒ ์‹ ํ˜ธ๋ฅผ ์ œ๊ณตํ•˜๊ธฐ ์œ„ํ•ด์„œ๋Š” ๋‹จ์ˆœํ•œ ์ ์ˆ˜๋‚˜ ํŒ๋‹จ์„ ๋‚ด๋ฆฌ๊ธฐ ์ „์— ๊นŠ์ด ์žˆ๋Š” ์‚ฌ๊ณ ์™€ ํ•ด์„ ๊ฐ€๋Šฅํ•œ ์ถ”๋ก  ๊ณผ์ •์„ ๊ฑฐ์ณ์•ผ ํ•œ๋‹ค๋Š” ์ „์ œ์—์„œ ์ถœ๋ฐœํ•œ๋‹ค. ๊ธฐ์กด ๋ณด์ƒ ๋ชจ๋ธ(RM)๋“ค์ด ๋ถˆํˆฌ๋ช…ํ•œ ๋‹จ์ผ ์ ์ˆ˜๋ฅผ ์ƒ์„ฑํ•˜๊ฑฐ๋‚˜ ์„ ํ˜ธ ๋‹ต๋ณ€์„ ์ง์ ‘ ์˜ˆ์ธกํ•จ์œผ๋กœ์จ ์ž์—ฐ์–ด ํ˜•ํƒœ์˜ ๋น„ํ‰์„ ํ†ตํ•ฉํ•˜๊ธฐ ์–ด๋ ต๊ณ  ํ•ด์„ ๊ฐ€๋Šฅ์„ฑ์ด ๋ถ€์กฑํ–ˆ๋˜ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด, ์ด ์—ฐ๊ตฌ๋Š” ๊ธด ์—ฐ์‡„์  ์‚ฌ๊ณ (CoT)๊ฐ€ ์ถ”๋ก  ์ง‘์•ฝ์  ์ž‘์—…์—์„œ ๋ณด์—ฌ์ค€ ์ตœ๊ทผ์˜ ๋ฐœ์ „์— ์˜๊ฐ์„ ๋ฐ›์•„ ๋ณด์ƒ ๋ชจ๋ธ๋ง์— ์ถ”๋ก  ๋Šฅ๋ ฅ์„ ํ†ตํ•ฉํ•˜๋Š” ๊ฒƒ์ด RM์˜ ํ•ด์„ ๊ฐ€๋Šฅ์„ฑ๊ณผ ์„ฑ๋Šฅ์„ ํฌ๊ฒŒ ํ–ฅ์ƒ์‹œํ‚จ๋‹ค๋Š” ๊ฐ€์„ค์„ ๊ฒ€์ฆํ•˜๋ฉฐ, ๋ณด์ƒ ๋ชจ๋ธ๋ง ์ž์ฒด๋ฅผ ํ•˜๋‚˜์˜ '์ถ”๋ก  ์ž‘์—…'์œผ๋กœ ๊ณต์‹ํ™”ํ•˜๋Š” ์ƒˆ๋กœ์šด ์ข…๋ฅ˜์˜ ์ƒ์„ฑ์  ๋ณด์ƒ ๋ชจ๋ธ์ธ '์ถ”๋ก  ๋ณด์ƒ ๋ชจ๋ธ(ReasRMs)'๊ณผ ๊ทธ ๋ชจ๋ธ๊ตฐ 'RM-R1'์„ ์ œ์•ˆํ•œ๋‹ค. RM-R1์˜ ํ›ˆ๋ จ์€ (1) ๊ณ ํ’ˆ์งˆ ์ถ”๋ก  ์—ฐ์‡„๋ฅผ ์ฆ๋ฅ˜ํ•˜๋Š” ๋‹จ๊ณ„์™€ (2) ๊ฒ€์ฆ ๊ฐ€๋Šฅํ•œ ๋ณด์ƒ์„ ํ†ตํ•œ ๊ฐ•ํ™”ํ•™์Šต ๋‹จ๊ณ„๋กœ ๊ตฌ์„ฑ๋˜๋ฉฐ, LLM์˜ ๊ฒฐ๊ณผ๋ฌผ์— ๋Œ€ํ•ด ์Šค์Šค๋กœ ์ถ”๋ก  ๊ณผ์ •์ด๋‚˜ ๋Œ€ํ™”๋ณ„ ํ‰๊ฐ€ ๊ธฐ์ค€(rubric)์„ ์ƒ์„ฑํ•˜๊ณ  ์ด๋ฅผ ๋ฐ”ํƒ•์œผ๋กœ ํ›„๋ณด ์‘๋‹ต๋“ค์„ ํ‰๊ฐ€ํ•จ์œผ๋กœ์จ, ์—ฌ๋Ÿฌ ์ข…ํ•ฉ์ ์ธ ๋ณด์ƒ ๋ชจ๋ธ ๋ฒค์น˜๋งˆํฌ์—์„œ ๊ธฐ์กด ์ตœ๊ณ  ์ˆ˜์ค€(SOTA) ๋˜๋Š” ์ด์— ์ค€ํ•˜๋Š” ์„ฑ๋Šฅ์„ ๋‹ฌ์„ฑํ•˜๊ณ  ํ›จ์”ฌ ํฐ ๊ณต๊ฐœ ๊ฐ€์ค‘์น˜ ๋ชจ๋ธ์ด๋‚˜ ์ƒ์šฉ ๋ชจ๋ธ๋ณด๋‹ค๋„ ์šฐ์ˆ˜ํ•œ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ธ๋‹ค.

Flow-GRPO: Training Flow Matching Models via Online RL

Paper, Project

์ด๋ฏธ์ง€ ์ƒ์„ฑ ๋“ฑ์— ํ™œ์šฉ๋˜๋Š” ํ”Œ๋กœ์šฐ ๋งค์นญ ๋ชจ๋ธ(Flow Matching Models)์— ์˜จ๋ผ์ธ ๊ฐ•ํ™”ํ•™์Šต(RL)์„ ์ตœ์ดˆ๋กœ ํ†ตํ•ฉํ•˜๋Š” ๋ฐฉ๋ฒ•๋ก ์ธ 'Flow-GRPO'๋ฅผ ์ œ์•ˆํ•˜๋ฉฐ, ์ด ์ ‘๊ทผ๋ฒ•์€ ๋‘ ๊ฐ€์ง€ ํ•ต์‹ฌ ์ „๋žต์„ ์‚ฌ์šฉํ•œ๋‹ค: (1) ๊ฒฐ์ •๋ก ์ ์ธ ์ƒ๋ฏธ๋ถ„๋ฐฉ์ •์‹(ODE)์„, ๋ชจ๋“  ์‹œ๊ฐ„ ๋‹จ๊ณ„์—์„œ ์›๋ณธ ๋ชจ๋ธ์˜ ์ฃผ๋ณ€ ๋ถ„ํฌ์™€ ์ผ์น˜ํ•˜๋Š” ๋“ฑ๊ฐ€์˜ ํ™•๋ฅ ๋ฏธ๋ถ„๋ฐฉ์ •์‹(SDE)์œผ๋กœ ๋ณ€ํ™˜ํ•˜๋Š” 'ODE-SDE ๋ณ€ํ™˜' ์ „๋žต์„ ํ†ตํ•ด RL ํƒ์ƒ‰์„ ์œ„ํ•œ ํ†ต๊ณ„์  ์ƒ˜ํ”Œ๋ง์„ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•˜๊ณ , (2) ์ถ”๋ก  ์‹œ ์‚ฌ์šฉ๋˜๋Š” ์‹œ๊ฐ„ ๋‹จ๊ณ„ ์ˆ˜๋Š” ๊ทธ๋Œ€๋กœ ์œ ์ง€ํ•˜๋ฉด์„œ ํ›ˆ๋ จ ๊ณผ์ •์—์„œ์˜ ๋…ธ์ด์ฆˆ ์ œ๊ฑฐ ๋‹จ๊ณ„๋ฅผ ์ค„์ด๋Š” '๋…ธ์ด์ฆˆ ์ œ๊ฑฐ ๊ฐ์†Œ(Denoising Reduction)' ์ „๋žต์„ ํ†ตํ•ด ์„ฑ๋Šฅ ์ €ํ•˜ ์—†์ด ์ƒ˜ํ”Œ๋ง ํšจ์œจ์„ ํฌ๊ฒŒ ํ–ฅ์ƒ์‹œํ‚จ๋‹ค. ์‹คํ—˜ ๊ฒฐ๊ณผ, Flow-GRPO๋Š” ์—ฌ๋Ÿฌ ํ…์ŠคํŠธ-์ด๋ฏธ์ง€ ๋ณ€ํ™˜ ์ž‘์—…์—์„œ ํšจ๊ณผ์ ์ด์—ˆ์œผ๋ฉฐ, ํŠนํžˆ ๋ณต์žกํ•œ ๊ตฌ์„ฑ์˜ ์ด๋ฏธ์ง€ ์ƒ์„ฑ์—์„œ ๊ฐ•ํ™”ํ•™์Šต์œผ๋กœ ํŠœ๋‹๋œ SD3.5 ๋ชจ๋ธ์€ ๋ฌผ์ฒด ๊ฐœ์ˆ˜, ๊ณต๊ฐ„ ๊ด€๊ณ„, ์„ธ๋ถ€ ์†์„ฑ ๋“ฑ์„ ๊ฑฐ์˜ ์™„๋ฒฝํ•˜๊ฒŒ ์ƒ์„ฑํ•˜์—ฌ GenEval ์ •ํ™•๋„๋ฅผ 63%์—์„œ 95%๋กœ ๋Œ€ํญ ํ–ฅ์ƒ์‹œ์ผฐ๊ณ , ์‹œ๊ฐ์  ํ…์ŠคํŠธ ๋ Œ๋”๋ง ์ •ํ™•๋„ ์—ญ์‹œ 59%์—์„œ 92%๋กœ ๊ฐœ์„ ๋˜์–ด ํ…์ŠคํŠธ ์ƒ์„ฑ์„ ํฌ๊ฒŒ ํ–ฅ์ƒ์‹œ์ผฐ๋‹ค. ๋˜ํ•œ Flow-GRPO๋Š” ์ธ๊ฐ„ ์„ ํ˜ธ๋„ ์ •๋ ฌ์—์„œ๋„ ์ƒ๋‹นํ•œ ๊ฐœ์„ ์„ ๋‹ฌ์„ฑํ–ˆ์œผ๋ฉฐ, ์ฃผ๋ชฉํ•  ์ ์€ ์‹คํ—˜ ๊ณผ์ •์—์„œ ์ด๋ฏธ์ง€ ํ’ˆ์งˆ์ด๋‚˜ ๋‹ค์–‘์„ฑ์„ ํฌ์ƒ์‹œํ‚ค๋ฉด์„œ ๋ณด์ƒ ์ ์ˆ˜๋งŒ ๋†’์•„์ง€๋Š” '๋ณด์ƒ ํ•ดํ‚น(reward hacking)' ํ˜„์ƒ์ด ๊ฑฐ์˜ ๋ฐœ์ƒํ•˜์ง€ ์•Š๊ณ  ๋‘ ์š”์†Œ ๋ชจ๋‘ ์•ˆ์ •์ ์œผ๋กœ ์œ ์ง€๋˜์—ˆ๋‹ค๋Š” ์ ์ด๋‹ค.

profile
XR๊ณผ AI์— ๊ด€์‹ฌ์ด ๋งŽ์€ Sky ์ž…๋‹ˆ๋‹ค.

0๊ฐœ์˜ ๋Œ“๊ธ€