[2025/W37] ๐Ÿค— Weekly AI Research

Skyยท2025๋…„ 9์›” 12์ผ

Weekly AI Research Digest

๋ชฉ๋ก ๋ณด๊ธฐ
58/89

๊ฐ•ํ™” ํ•™์Šต๊ณผ ์ƒˆ๋กœ์šด ํ›ˆ๋ จ ํŒจ๋Ÿฌ๋‹ค์ž„์„ ํ†ตํ•ด ์–ธ์–ด ๋ชจ๋ธ์˜ ์ถ”๋ก  ๋Šฅ๋ ฅ์„ ๊ทน๋Œ€ํ™”
ํ™˜๊ฐ, ๋ฐ์ดํ„ฐ ๋ถˆ์ผ์น˜ ๋“ฑ ๊ทผ๋ณธ์  ํ•œ๊ณ„๋ฅผ ํ•ด๊ฒฐํ•˜๋ฉฐ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ํ™˜๊ฒฝ์œผ๋กœ ํ™•์žฅ ๊ฐ€์†

Sharing is Caring: Efficient LM Post-Training with Collective RL Experience Sharing

Paper
์ด ๋…ผ๋ฌธ์€ ๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ์— ๊ฐ•ํ™” ํ•™์Šต์„ ์ ์šฉํ•˜๋Š” ๊ณผ์ •์—์„œ ๋ฐœ์ƒํ•˜๋Š” ๋ณ‘๋ ฌํ™”์˜ ์–ด๋ ค์›€์„ ํ•ด๊ฒฐํ•˜๋Š” ์ƒˆ๋กœ์šด ์ ‘๊ทผ๋ฒ•์„ ์ œ์‹œํ•œ๋‹ค. ๊ธฐ์กด ๋ฐฉ์‹์ด ๋Œ€๊ทœ๋ชจ ์ปดํ“จํŒ… ์ž์›์— ์˜์กดํ•˜๋Š” ๊ฒƒ๊ณผ ๋‹ฌ๋ฆฌ, ์ด ๋…ผ๋ฌธ์€ SAPO(Swarm sAmpling Policy Optimization)๋ผ๋Š” ์™„์ „ํžˆ ๋ถ„์‚ฐ๋˜๊ณ  ๋น„๋™๊ธฐ์ ์ธ ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ ์ œ์•ˆํ•œ๋‹ค. SAPO๋Š” ๋„คํŠธ์›Œํฌ์˜ ๊ฐ ๋…ธ๋“œ๊ฐ€ ๋…๋ฆฝ์ ์œผ๋กœ ๋ชจ๋ธ์„ ์šด์˜ํ•˜๋ฉฐ ํ›ˆ๋ จ ๊ฒฝํ—˜(๋กค์•„์›ƒ)์„ ๋‹ค๋ฅธ ๋…ธ๋“œ์™€ ๊ณต์œ ํ•จ์œผ๋กœ์จ, ํ•˜๋“œ์›จ์–ด ์ข…๋ฅ˜๋‚˜ ์ง€์—ฐ ์‹œ๊ฐ„์— ๊ด€๊ณ„์—†์ด ์œ ์—ฐํ•˜๊ฒŒ ์ž‘๋™ํ•œ๋‹ค. ์ด๋Ÿฌํ•œ ๊ฒฝํ—˜ ๊ณต์œ ๋ฅผ ํ†ตํ•ด ๋ชจ๋ธ์€ '์•„ํ•˜ ๋ชจ๋จผํŠธ'๋ฅผ ๋น ๋ฅด๊ฒŒ ํ™•์‚ฐ์‹œํ‚ค๋ฉฐ ํ•™์Šต์„ ๊ฐ€์†ํ™”ํ•˜๋ฉฐ, ํ†ต์ œ๋œ ์‹คํ—˜์—์„œ ๋ˆ„์  ๋ณด์ƒ์„ ์ตœ๋Œ€ 94%๊นŒ์ง€ ํ–ฅ์ƒ์‹œํ‚ค๋Š” ์„ฑ๊ณผ๋ฅผ ๋ณด์˜€๋‹ค.

Why Language Models Hallucinate

Paper
์ด ๋…ผ๋ฌธ์€ ๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ์ด 'ํ™˜๊ฐ'์„ ์ผ์œผํ‚ค๋Š” ๊ทผ๋ณธ์ ์ธ ์ด์œ ๋ฅผ ํŒŒํ—ค์นœ๋‹ค. ์ €์ž๋“ค์€ ํ™˜๊ฐ์ด ๋‹จ์ˆœํžˆ ๋ชจ๋ธ์˜ ์˜ค๋ฅ˜๊ฐ€ ์•„๋‹ˆ๋ผ, ๋ถˆํ™•์‹ค์„ฑ์„ ์ธ์ •ํ•˜๋Š” ๋Œ€์‹  ๊ทธ๋Ÿด๋“ฏํ•œ ์ถ”์ธก์„ ํ•˜๋Š” ๊ฒƒ์„ ๋ณด์ƒํ•˜๋Š” ํ˜„์žฌ์˜ ํ›ˆ๋ จ ๋ฐ ํ‰๊ฐ€ ์ฒด๊ณ„ ๋•Œ๋ฌธ์— ๋ฐœ์ƒํ•œ๋‹ค๊ณ  ์ฃผ์žฅํ•œ๋‹ค. ๋ชจ๋ธ์€ ๋ฒค์น˜๋งˆํฌ์—์„œ ๋†’์€ ์ ์ˆ˜๋ฅผ ์–ป๊ธฐ ์œ„ํ•ด ๋ถˆํ™•์‹คํ•œ ์ƒํ™ฉ์—์„œ๋„ ์ •๋‹ต์ฒ˜๋Ÿผ ๋ณด์ด๋Š” ๋‹ต๋ณ€์„ ์ƒ์„ฑํ•˜๋„๋ก ํ•™์Šต๋˜๋ฉฐ, ์ด๋Š” ๋ณธ์งˆ์ ์œผ๋กœ ์ด์ง„ ๋ถ„๋ฅ˜ ์˜ค๋ฅ˜์— ํ•ด๋‹นํ•œ๋‹ค. ๋”ฐ๋ผ์„œ ํ™˜๊ฐ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด์„œ๋Š” ์ƒˆ๋กœ์šด ํ‰๊ฐ€ ๋ฒค์น˜๋งˆํฌ๋ฅผ ์ถ”๊ฐ€ํ•˜๊ธฐ๋ณด๋‹ค, ๋ถˆํ™•์‹คํ•œ ๋‹ต๋ณ€์— ํŽ˜๋„ํ‹ฐ๋ฅผ ๋ถ€์—ฌํ•˜๋Š” ๊ธฐ์กด ํ‰๊ฐ€ ๋ฐฉ์‹ ์ž์ฒด๋ฅผ ์ˆ˜์ •ํ•ด์•ผ ํ•œ๋‹ค๊ณ  ์ œ์•ˆํ•œ๋‹ค.

Reverse-Engineered Reasoning for Open-Ended Generation

Paper, Project
์ด ๋…ผ๋ฌธ์€ ๊ฐœ๋ฐฉํ˜• ์ฐฝ์ž‘ ์ž‘์—…์—์„œ ์–ธ์–ด ๋ชจ๋ธ์˜ ์ถ”๋ก  ๋Šฅ๋ ฅ์„ ๊ฐ•ํ™”ํ•˜๋Š” REER(REverse-Engineered Reasoning)์ด๋ผ๋Š” ์ƒˆ๋กœ์šด ํŒจ๋Ÿฌ๋‹ค์ž„์„ ์ œ์•ˆํ•œ๋‹ค. ๊ธฐ์กด์˜ ๊ฐ•ํ™” ํ•™์Šต์ด๋‚˜ ์ง€์‹ ์ฆ๋ฅ˜ ๋ฐฉ์‹์ด ์•ˆ๊ณ  ์žˆ๋Š” ๋ช…ํ™•ํ•œ ๋ณด์ƒ ์‹ ํ˜ธ ๋ถ€์žฌ์™€ ๋น„์šฉ ๋ฌธ์ œ๋ฅผ ๊ทน๋ณตํ•˜๊ธฐ ์œ„ํ•ด, REER์€ '์—ญ๊ณตํ•™' ์ ‘๊ทผ๋ฒ•์„ ์‚ฌ์šฉํ•œ๋‹ค. ์ด๋Š” ์ด๋ฏธ ์ž˜ ์•Œ๋ ค์ง„ ์ข‹์€ ๊ฒฐ๊ณผ๋ฌผ๋กœ๋ถ€ํ„ฐ ๊ฑฐ๊พธ๋กœ ์ถ”๋ก  ๊ณผ์ •์„ ๋ฐœ๊ฒฌํ•˜๊ณ  ์ด๋ฅผ ํ•™์Šต ๋ฐ์ดํ„ฐ๋กœ ํ™œ์šฉํ•˜๋Š” ๋ฐฉ์‹์ด๋‹ค. ์ด๋Ÿฌํ•œ ์ ‘๊ทผ๋ฒ•์„ ํ†ตํ•ด DeepWriting-20K๋ผ๋Š” 2๋งŒ ๊ฐœ์˜ ์ถ”๋ก  ๊ถค์  ๋ฐ์ดํ„ฐ์…‹์„ ๊ตฌ์ถ•ํ–ˆ์œผ๋ฉฐ, ์ด ๋ฐ์ดํ„ฐ๋ฅผ ํ•™์Šตํ•œ DeepWriter-8B ๋ชจ๋ธ์€ GPT-4o๋‚˜ Claude 3.5์™€ ๊ฐ™์€ ์ตœ์ฒจ๋‹จ ๋ชจ๋ธ๊ณผ ๋น„๊ฒฌ๋˜๋Š” ์„ฑ๋Šฅ์„ ๋‹ฌ์„ฑํ–ˆ๋‹ค.

A Survey of Reinforcement Learning for Large Reasoning Models

Paper, Project
์ด ๋…ผ๋ฌธ์€ ๋Œ€๊ทœ๋ชจ ์ถ”๋ก  ๋ชจ๋ธ(LRM)์˜ ๋ฐœ์ „์— ํ•„์ˆ˜์ ์ธ ๊ฐ•ํ™” ํ•™์Šต(RL)์˜ ์ตœ์‹  ๋™ํ–ฅ์„ ์ด์ฒด์ ์œผ๋กœ ์กฐ์‚ฌํ•œ๋‹ค. ์ˆ˜ํ•™์ด๋‚˜ ์ฝ”๋”ฉ๊ณผ ๊ฐ™์€ ๋ณต์žกํ•œ ๋…ผ๋ฆฌ์  ๊ณผ์ œ์—์„œ RL์ด LLM์˜ ๋Šฅ๋ ฅ์„ ํ˜์‹ ์ ์œผ๋กœ ํ–ฅ์ƒ์‹œ์ผฐ์Œ์„ ๊ฐ•์กฐํ•˜๋ฉฐ, LLM์„ LRM์œผ๋กœ ๋ณ€ํ™”์‹œํ‚ค๋Š” ํ•ต์‹ฌ ๋ฐฉ๋ฒ•๋ก ์œผ๋กœ RL์„ ์ œ์‹œํ•œ๋‹ค. ๋…ผ๋ฌธ์€ RL์˜ ๊ธฐ์ดˆ ๊ตฌ์„ฑ ์š”์†Œ๋ถ€ํ„ฐ ์ฃผ์š” ๋„์ „ ๊ณผ์ œ, ํ›ˆ๋ จ ์ž์›, ๊ทธ๋ฆฌ๊ณ  ์‹ค์ œ ์‘์šฉ ์‚ฌ๋ก€๋“ค์„ ์‹ฌ๋„ ์žˆ๊ฒŒ ๋ถ„์„ํ•œ๋‹ค. ์ด ๋ถ„์•ผ์˜ ๋น ๋ฅธ ๋ฐœ์ „ ์†๋„ ์†์—์„œ, ๋…ผ๋ฌธ์€ ํ–ฅํ›„ ์—ฐ๊ตฌ ๋ฐฉํ–ฅ๊ณผ ์ธ๊ณต ์ดˆ์ง€๋Šฅ(ASI)์œผ๋กœ ๋‚˜์•„๊ฐ€๊ธฐ ์œ„ํ•œ ํ™•์žฅ์„ฑ ๋ฌธ์ œ๋ฅผ ์žฌ์กฐ๋ช…ํ•˜๋ฉฐ ๋ฏธ๋ž˜๋ฅผ ์œ„ํ•œ ์ „๋žต์„ ํƒ์ƒ‰ํ•œ๋‹ค.

Parallel-R1: Towards Parallel Thinking via Reinforcement Learning

Paper, Project
์ด ๋…ผ๋ฌธ์€ ๋ณต์žกํ•œ ์ถ”๋ก  ๋ฌธ์ œ ํ•ด๊ฒฐ์„ ์œ„ํ•ด ์–ธ์–ด ๋ชจ๋ธ์— ๋ณ‘๋ ฌ์  ์‚ฌ๊ณ  ๋Šฅ๋ ฅ์„ ๋ถ€์—ฌํ•˜๋Š” ์ตœ์ดˆ์˜ ๊ฐ•ํ™” ํ•™์Šต ํ”„๋ ˆ์ž„์›Œํฌ์ธ Parallel-R1์„ ์†Œ๊ฐœํ•œ๋‹ค. ๊ธฐ์กด์˜ ์ง€๋„ ํ•™์Šต ๋ฐฉ์‹์ด ๊ต์‚ฌ์˜ ๋‹ต๋ณ€์„ ๋‹จ์ˆœํžˆ ๋ชจ๋ฐฉํ•˜๋Š” ๋ฐ ๊ทธ์น˜๋Š” ํ•œ๊ณ„๋ฅผ ์ง€์ ํ•˜๋ฉฐ, Parallel-R1์€ ์ ์ง„์  ์ปค๋ฆฌํ˜๋Ÿผ์„ ํ™œ์šฉํ•ด ๋ชจ๋ธ์ด ์—ฌ๋Ÿฌ ์ถ”๋ก  ๊ฒฝ๋กœ๋ฅผ ๋™์‹œ์— ํƒ์ƒ‰ํ•˜๋„๋ก ํ›ˆ๋ จํ•œ๋‹ค. ๋จผ์ € ์ง€๋„ ํ•™์Šต์œผ๋กœ ๋ณ‘๋ ฌ์  ์‚ฌ๊ณ ์˜ ๊ธฐ์ดˆ๋ฅผ ๋‹ค์ง„ ํ›„, ๊ฐ•ํ™” ํ•™์Šต์„ ํ†ตํ•ด ์–ด๋ ค์šด ๋ฌธ์ œ์— ๋Œ€ํ•œ ํƒ์ƒ‰ ๋ฐ ์ผ๋ฐ˜ํ™” ๋Šฅ๋ ฅ์„ ํ‚ค์šด๋‹ค. ์ด ๋ฐฉ์‹์€ ์ˆœ์ฐจ์  ์‚ฌ๊ณ  ๋ชจ๋ธ ๋Œ€๋น„ 8.4%์˜ ์ •ํ™•๋„ ํ–ฅ์ƒ์„ ๊ฐ€์ ธ์™”์œผ๋ฉฐ, ํŠนํžˆ ์ค‘๊ฐ„ ํ›ˆ๋ จ ๋‹จ๊ณ„์—์„œ ๋ณ‘๋ ฌ์  ์‚ฌ๊ณ ๋ฅผ 'ํƒ์ƒ‰ ๋„๊ตฌ'๋กœ ํ™œ์šฉํ•จ์œผ๋กœ์จ ์ตœ์ข… ์„ฑ๋Šฅ์„ 42.9%๊นŒ์ง€ ๋Œ์–ด์˜ฌ๋ฆฌ๋Š” ํšจ๊ณผ๋ฅผ ๋ณด์˜€๋‹ค.

HuMo: Human-Centric Video Generation via Collaborative Multi-Modal Conditioning

Paper, Project
์ด ๋…ผ๋ฌธ์€ ํ…์ŠคํŠธ, ์ด๋ฏธ์ง€, ์˜ค๋””์˜ค ๋“ฑ ์—ฌ๋Ÿฌ ์ž…๋ ฅ๊ฐ’์„ ํ™œ์šฉํ•ด ์‚ฌ๋žŒ ์ค‘์‹ฌ์˜ ๋น„๋””์˜ค๋ฅผ ์ƒ์„ฑํ•˜๋Š” HuMo๋ผ๋Š” ํ†ตํ•ฉ ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ œ์•ˆํ•œ๋‹ค. ๊ธฐ์กด ๋ฐฉ์‹์ด ํ›ˆ๋ จ ๋ฐ์ดํ„ฐ ๋ถ€์กฑ๊ณผ ์ด์งˆ์ ์ธ ๋ชจ๋‹ฌ๋ฆฌํ‹ฐ ๊ฐ„์˜ ์กฐ์œจ ๋ฌธ์ œ๋กœ ์–ด๋ ค์›€์„ ๊ฒช๋Š”๋‹ค๋Š” ์ ์— ์ฃผ๋ชฉํ•œ๋‹ค. HuMo๋Š” ๊ณ ํ’ˆ์งˆ์˜ ๋‹ค์ค‘ ๋ชจ๋‹ฌ ๋ฐ์ดํ„ฐ์…‹์„ ๊ตฌ์ถ•ํ•˜๊ณ , ๋‘ ๋‹จ๊ณ„๋กœ ์ง„ํ–‰๋˜๋Š” ํ›ˆ๋ จ ํŒจ๋Ÿฌ๋‹ค์ž„์„ ํ†ตํ•ด ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•œ๋‹ค. ํŠนํžˆ ํ”ผ์‚ฌ์ฒด ๋ณด์กด์„ ์œ„ํ•œ '์ตœ์†Œ ์นจ์Šต ์ด๋ฏธ์ง€ ์ฃผ์ž…' ์ „๋žต๊ณผ ์˜ค๋””์˜ค-๋น„์ฃผ์–ผ ๋™๊ธฐํ™”๋ฅผ ์œ„ํ•œ '์˜ˆ์ธก์„ ํ†ตํ•œ ์ง‘์ค‘' ์ „๋žต์„ ๋„์ž…ํ•˜์—ฌ ๋‹ค์ค‘ ๋ชจ๋‹ฌ ์ž…๋ ฅ ๊ฐ„์˜ ์œ ๊ธฐ์ ์ธ ์กฐํ™”๋ฅผ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•œ๋‹ค. ๊ทธ ๊ฒฐ๊ณผ, HuMo๋Š” ๊ธฐ์กด์˜ ์ „๋ฌธํ™”๋œ ๋ชจ๋ธ์„ ๋Šฅ๊ฐ€ํ•˜๋ฉฐ ๋‹ค์ค‘ ๋ชจ๋‹ฌ ์กฐ๊ฑด๋ถ€ ๋น„๋””์˜ค ์ƒ์„ฑ์˜ ์ƒˆ๋กœ์šด ๊ธฐ์ค€์„ ์ œ์‹œํ•œ๋‹ค.

WebExplorer: Explore and Evolve for Training Long-Horizon Web Agents

Paper, Project
์ด ๋…ผ๋ฌธ์€ ๋ณต์žกํ•œ ์›น ํƒ์ƒ‰ ์ž‘์—…์„ ์ˆ˜ํ–‰ํ•˜๋Š” ์žฅ๊ธฐ์  ์›น ์—์ด์ „ํŠธ WebExplorer๋ฅผ ๊ฐœ๋ฐœํ•œ๋‹ค. ๊ธฐ์กด์˜ ์˜คํ”ˆ์†Œ์Šค ์›น ์—์ด์ „ํŠธ๋“ค์ด ๋„์ „์ ์ธ ๋ฐ์ดํ„ฐ ๋ถ€์กฑ์œผ๋กœ ์ธํ•ด ๋ณต์žกํ•œ ์ •๋ณด ํƒ์ƒ‰ ๋Šฅ๋ ฅ์— ํ•œ๊ณ„๊ฐ€ ์žˆ๋‹ค๋Š” ์ ์„ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด, ๋…ผ๋ฌธ์€ ์ƒˆ๋กœ์šด ๋ฐ์ดํ„ฐ ์ƒ์„ฑ ์ ‘๊ทผ๋ฒ•์„ ์ œ์•ˆํ•œ๋‹ค. WebExplorer๋Š” '๋ชจ๋ธ ๊ธฐ๋ฐ˜ ํƒ์ƒ‰'๊ณผ '์žฅ๊ธฐ-๋‹จ๊ธฐ ์งˆ์˜ ์ง„ํ™”' ๋ฐฉ์‹์„ ํ†ตํ•ด ๋‹ค๋‹จ๊ณ„ ์ถ”๋ก ๊ณผ ๋ณต์žกํ•œ ์›น ํƒ์ƒ‰์ด ํ•„์š”ํ•œ ๊ณ ํ’ˆ์งˆ์˜ ์ฟผ๋ฆฌ-์‘๋‹ต ์Œ์„ ์ฒด๊ณ„์ ์œผ๋กœ ์ƒ์„ฑํ•œ๋‹ค. ์ด ๋ฐ์ดํ„ฐ๋กœ ํ›ˆ๋ จ๋œ WebExplorer-8B ๋ชจ๋ธ์€ 128K์˜ ์ปจํ…์ŠคํŠธ ๊ธธ์ด๋ฅผ ์ง€์›ํ•˜๋ฉฐ, ๋™๊ธ‰ ๋ชจ๋ธ ์ค‘ ๊ฐ€์žฅ ๋›ฐ์–ด๋‚œ ์„ฑ๋Šฅ์„ ๋ณด์˜€๋‹ค. ํŠนํžˆ 8B ๊ทœ๋ชจ์ž„์—๋„ ๋ถˆ๊ตฌํ•˜๊ณ  72B ๊ทœ๋ชจ ๋ชจ๋ธ์„ ๋Šฅ๊ฐ€ํ•˜๋Š” ๋“ฑ ๋†’์€ ํšจ์œจ์„ฑ๊ณผ ๊ฐ•๋ ฅํ•œ ์„ฑ๋Šฅ์„ ์ž…์ฆํ–ˆ๋‹ค.

Visual Representation Alignment for Multimodal Large Language Models

Paper, Project
์ด ๋…ผ๋ฌธ์€ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ(MLLM)์ด ์‹œ๊ฐ ๊ด€๋ จ ์ž‘์—…์—์„œ ์„ฑ๋Šฅ์ด ๋–จ์–ด์ง€๋Š” ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด VIRAL(VIsual Representation ALignment)์ด๋ผ๋Š” ๊ฐ„๋‹จํ•˜์ง€๋งŒ ํšจ๊ณผ์ ์ธ ์ •๊ทœํ™” ์ „๋žต์„ ์ œ์•ˆํ•œ๋‹ค. ๊ธฐ์กด์˜ ํ…์ŠคํŠธ ์ค‘์‹ฌ ํ›ˆ๋ จ ๋ฐฉ์‹์ด ๋ฏธ์„ธํ•œ ์‹œ๊ฐ์  ์ •๋ณด๋ฅผ ๋ฌด์‹œํ•˜๊ฒŒ ๋งŒ๋“œ๋Š” ๊ฒฝํ–ฅ์ด ์žˆ๋‹ค๋Š” ์ ์— ์ฃผ๋ชฉํ•˜๋ฉฐ, VIRAL์€ MLLM์˜ ๋‚ด๋ถ€ ์‹œ๊ฐ ํ‘œํ˜„์„ ์‚ฌ์ „ ํ›ˆ๋ จ๋œ ์‹œ๊ฐ ํŒŒ์šด๋ฐ์ด์…˜ ๋ชจ๋ธ(VFM)์˜ ํ‘œํ˜„๊ณผ ์ผ์น˜์‹œํ‚ค๋„๋ก ๋ช…์‹œ์ ์œผ๋กœ ๊ฐ•์ œํ•œ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ๋ชจ๋ธ์€ ์ž…๋ ฅ ์‹œ๊ฐ ์ •๋ณด์˜ ์ค‘์š”ํ•œ ์„ธ๋ถ€ ์‚ฌํ•ญ์„ ๋ณด์กดํ•  ๋ฟ๋งŒ ์•„๋‹ˆ๋ผ, VFM์˜ ์ถ”๊ฐ€์ ์ธ ์‹œ๊ฐ ์ง€์‹๊นŒ์ง€ ๋ณด์™„ํ•˜๊ฒŒ ๋œ๋‹ค. ๊ฒฐ๊ณผ์ ์œผ๋กœ VIRAL์€ ๊ด‘๋ฒ”์œ„ํ•œ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๋ฒค์น˜๋งˆํฌ์—์„œ ๋ชจ๋“  ์ž‘์—…์— ๊ฑธ์ณ ์ผ๊ด€๋œ ์„ฑ๋Šฅ ํ–ฅ์ƒ์„ ๊ฐ€์ ธ์™”๋‹ค.

EchoX: Towards Mitigating Acoustic-Semantic Gap via Echo Training for Speech-to-Speech LLMs

Paper, Project
์ด ๋…ผ๋ฌธ์€ ์Œ์„ฑ-๋Œ€-์Œ์„ฑ ๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ(SLLM)์˜ ์ง€์‹ ๋ฐ ์ถ”๋ก  ๋Šฅ๋ ฅ ์ €ํ•˜ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๋Š” EchoX๋ฅผ ์ œ์•ˆํ•œ๋‹ค. ๊ธฐ์กด SLLM ํ›ˆ๋ จ ํŒจ๋Ÿฌ๋‹ค์ž„์ด ์Œํ–ฅ ์ •๋ณด์™€ ์˜๋ฏธ๋ก ์  ์ •๋ณด ์‚ฌ์ด์˜ ๊ฐ„๊ทน์„ ์ขํžˆ์ง€ ๋ชปํ•ด ๋ฐœ์ƒํ•˜๋Š” ํ•œ๊ณ„๋ฅผ ๊ทน๋ณตํ•˜๊ณ ์ž ํ•œ๋‹ค. EchoX๋Š” ์˜๋ฏธ๋ก ์  ํ‘œํ˜„์„ ํ™œ์šฉํ•˜๊ณ  ์Œ์„ฑ ํ›ˆ๋ จ ๋ชฉํ‘œ๋ฅผ ๋™์ ์œผ๋กœ ์ƒ์„ฑํ•จ์œผ๋กœ์จ ์Œํ–ฅ ๋ฐ ์˜๋ฏธ๋ก ์  ํ•™์Šต์„ ํ†ตํ•ฉํ•˜๋Š” ๋…ํŠนํ•œ ๋ฐฉ์‹์„ ์‚ฌ์šฉํ•œ๋‹ค. ์ด ์ ‘๊ทผ๋ฒ• ๋•๋ถ„์— EchoX๋Š” ๊ฐ•๋ ฅํ•œ ์ถ”๋ก  ๋Šฅ๋ ฅ์„ ์œ ์ง€ํ•˜๋Š” ๋™์‹œ์—, ์•ฝ 6์ฒœ ์‹œ๊ฐ„์˜ ํ›ˆ๋ จ ๋ฐ์ดํ„ฐ๋งŒ์œผ๋กœ๋„ ์—ฌ๋Ÿฌ ์ง€์‹ ๊ธฐ๋ฐ˜ ์งˆ์˜์‘๋‹ต ๋ฒค์น˜๋งˆํฌ์—์„œ ๋›ฐ์–ด๋‚œ ์„ฑ๋Šฅ์„ ๋‹ฌ์„ฑํ–ˆ๋‹ค.

Paper, Project
์ด ๋…ผ๋ฌธ์€ ์‹œ๊ฐ์  ํƒ์ƒ‰ ์ž‘์—…์—์„œ ๋ชจ๋ธ์˜ ๊นŠ์€ ๋‹ค๋‹จ๊ณ„ ์ถ”๋ก  ๋Šฅ๋ ฅ์„ ํ™•์žฅํ•˜๋Š” Mini-o3 ์‹œ์Šคํ…œ์„ ์†Œ๊ฐœํ•œ๋‹ค. ๊ธฐ์กด ์˜คํ”ˆ์†Œ์Šค ๋ฐฉ๋ฒ•๋ก ์ด ๋‹จ์กฐ๋กœ์šด ์ถ”๋ก  ํŒจํ„ด๊ณผ ์ œํ•œ๋œ ์ƒํ˜ธ์ž‘์šฉ ํšŸ์ˆ˜๋กœ ์ธํ•ด ์–ด๋ ค์šด ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๋Š” ๋ฐ ๋ถ€์ ํ•ฉํ•˜๋‹ค๋Š” ์ ์„ ์ง€์ ํ•œ๋‹ค. Mini-o3๋Š” 'Visual Probe Dataset'์ด๋ผ๋Š” ๋„์ „์ ์ธ ์‹œ๊ฐ ํƒ์ƒ‰ ๋ฐ์ดํ„ฐ์…‹์„ ๊ตฌ์ถ•ํ•˜๊ณ , ๋‹ค์–‘ํ•œ ์ถ”๋ก  ํŒจํ„ด์„ ๋‹ด์€ ๊ถค์ ์„ ์ˆ˜์ง‘ํ•œ๋‹ค. ํŠนํžˆ '์˜ค๋ฒ„ ํ„ด ๋งˆ์Šคํ‚น' ์ „๋žต์„ ๋„์ž…ํ•˜์—ฌ ์ตœ๋Œ€ ์ƒํ˜ธ์ž‘์šฉ ํšŸ์ˆ˜๋ฅผ ์ดˆ๊ณผํ•˜๋Š” ์‘๋‹ต์— ๋Œ€ํ•œ ๋ถˆ์ด์ต์„ ์—†์•  ํ›ˆ๋ จ ํšจ์œจ์„ฑ์„ ๋†’์ธ๋‹ค. ์ด ๊ฒฐ๊ณผ, 6ํšŒ ์ƒํ˜ธ์ž‘์šฉ์œผ๋กœ ํ›ˆ๋ จ๋œ ๋ชจ๋ธ์ž„์—๋„ ๋ถˆ๊ตฌํ•˜๊ณ  ์ถ”๋ก  ์‹œ ์ˆ˜์‹ญ ๋‹จ๊ณ„๋กœ ์ž์—ฐ์Šค๋Ÿฝ๊ฒŒ ํ™•์žฅ๋˜๋ฉฐ, ์ •ํ™•๋„๊ฐ€ ๊ฐœ์„ ๋˜๋Š” ๊ฒƒ์„ ๋ณด์—ฌ์ฃผ์—ˆ๋‹ค.

profile
XR๊ณผ AI์— ๊ด€์‹ฌ์ด ๋งŽ์€ Sky ์ž…๋‹ˆ๋‹ค.

0๊ฐœ์˜ ๋Œ“๊ธ€