[2025/W13] ๐Ÿค— Weekly AI Research

Skyยท2025๋…„ 3์›” 29์ผ

Weekly AI Research Digest

๋ชฉ๋ก ๋ณด๊ธฐ
13/89

2025๋…„ 13์ฃผ์ฐจ์— ๊ณต๊ฐœ๋œ ์ฃผ๋ชฉํ• ๋งŒํ•œ AI ๋ถ„์•ผ์˜ ๋…ผ๋ฌธ๋“ค์„ ์†Œ๊ฐœํ•ฉ๋‹ˆ๋‹ค.

TL;DR

๋Œ€ํ˜• ์–ธ์–ด ๋ชจ๋ธ์˜ ์ถ”๋ก  ์„ฑ๋Šฅ์€ LLM ๋‚ด๋ถ€์˜ ํ•ต์‹ฌ ํŠน์ง•์„ ํฌ์†Œ ์˜คํ† ์ธ์ฝ”๋”๋กœ ๋ถ„์„ํ•ด ์กฐ์ •ํ•จ์œผ๋กœ์จ ๊ฐœ์„ ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ŠคํŠธ๋ฆฌ๋ฐ ๋ชจ๋ธ Qwen2.5-Omni๋Š” ํ…์ŠคํŠธ, ์ด๋ฏธ์ง€, ์˜ค๋””์˜ค, ๋น„๋””์˜ค ๋“ฑ ๋‹ค์–‘ํ•œ ์ž…๋ ฅ์„ ๋™์‹œ์— ์ฒ˜๋ฆฌํ•˜๋ฉฐ ์ŠคํŠธ๋ฆฌ๋ฐ ๋ฐฉ์‹์œผ๋กœ ํ…์ŠคํŠธ์™€ ์Œ์„ฑ์„ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. ํ…Œ์ŠคํŠธ ํƒ€์ž„ ํ™•์žฅ์„ ์ด์šฉํ•œ ๋น„๋””์˜ค ์ƒ์„ฑ(Video-T1)์€ ์ถ”๊ฐ€ ๊ณ„์‚ฐ์„ ํ†ตํ•ด ์ตœ์ ์˜ ๊ฒฝ๋กœ๋ฅผ ์ฐพ์•„ ํ…์ŠคํŠธ์— ๋งž๋Š” ๊ณ ํ’ˆ์งˆ ๋น„๋””์˜ค๋ฅผ ๋งŒ๋“ค๊ณ , ํšจ์œจ์ ์ธ ์ด๋ฏธ์ง€ ํ‘œํ˜„(When Less is Enough)์€ ๋ถˆํ•„์š”ํ•œ ์‹œ๊ฐ ํ† ํฐ์„ ์ค„์—ฌ ๊ณ„์‚ฐ ๋น„์šฉ์„ ๋‚ฎ์ถ”๋ฉด์„œ ํ•„์š”ํ•œ ์ •๋ณด๋งŒ ์œ ์ง€ํ•ฉ๋‹ˆ๋‹ค. ๋˜ํ•œ, ์žฅ๊ธฐ ๋ฌธ๋งฅ์„ ํ™œ์šฉํ•œ ๋น„๋””์˜ค ๋ชจ๋ธ๋ง์€ ์—ฐ์† ํ”„๋ ˆ์ž„ ๊ฐ„ ์ธ๊ณผ๊ด€๊ณ„๋ฅผ ๋ชจ๋ธ๋งํ•ด ๊ธด ๋น„๋””์˜ค์—์„œ๋„ ์ผ๊ด€์„ฑ์„ ์œ ์ง€ํ•˜๋ฉฐ, ๋น„๋””์˜ค ์ถ”๋ก  ๊ฐ•ํ™”(Video-R1)๋Š” ๊ฐ•ํ™” ํ•™์Šต๊ณผ ๊ณ ํ’ˆ์งˆ ์ด๋ฏธ์ง€ ๋ฐ์ดํ„ฐ๋ฅผ ํ†ตํ•ด ๋น„๋””์˜ค ๊ธฐ๋ฐ˜ ์ถ”๋ก  ๋Šฅ๋ ฅ์„ ํฌ๊ฒŒ ํ–ฅ์ƒ์‹œํ‚ต๋‹ˆ๋‹ค. ๋งˆ์ง€๋ง‰์œผ๋กœ, ์ธํ„ฐ๋ž™ํ‹ฐ๋ธŒ ์ƒ์„ฑ ๋น„๋””์˜ค ๊ธฐ๋ฐ˜ ๊ฒŒ์ž„ ์—”์ง„์€ AI๊ฐ€ ์‹ค์‹œ๊ฐ„ ์ƒ์„ฑํ•˜๋Š” ์ƒํ˜ธ์ž‘์šฉ ๋น„๋””์˜ค๋กœ ๊ฒŒ์ž„์˜ ํ•œ๊ณ„๋ฅผ ๊ทน๋ณตํ•˜๊ณ , ๋ฉ€ํ‹ฐ์—์ด์ „ํŠธ ๊ณผํ•™ ๋ฌธ์ œ ํ•ด๊ฒฐ(MAPS)์€ ํ…์ŠคํŠธ, ๋‹ค์ด์–ด๊ทธ๋žจ ๋“ฑ ๋‹ค์–‘ํ•œ ๋ชจ๋‹ฌ๋ฆฌํ‹ฐ๋ฅผ ํ†ตํ•ฉํ•ด ์†Œํฌ๋ผํ…Œ์Šค์‹ ์งˆ๋ฌธ๊ณผ 7๊ฐœ ์—์ด์ „ํŠธ๊ฐ€ ํ˜‘๋ ฅํ•˜์—ฌ ๋ณต์žกํ•œ ๊ณผํ•™ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•ฉ๋‹ˆ๋‹ค.

I Have Covered All the Bases Here: Interpreting Reasoning Features in Large Language Models via Sparse Autoencoders

Paper, Project

์ด ๋…ผ๋ฌธ์€ ๋Œ€ํ˜• ์–ธ์–ด ๋ชจ๋ธ(LLM) ๋‚ด๋ถ€์—์„œ ์ถ”๋ก ์„ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•˜๋Š” ํ•ต์‹ฌ ์š”์†Œ๋“ค์„ ์ฐพ์•„๋‚ด๊ณ ์ž ํ•ฉ๋‹ˆ๋‹ค. ์—ฐ๊ตฌ์ง„์€ ํฌ์†Œ ์˜คํ† ์ธ์ฝ”๋”(SAE)๋ผ๋Š” ๊ธฐ๋ฒ•์„ ์ด์šฉํ•ด ์‹ ๊ฒฝ๋ง์˜ ๋‚ด๋ถ€ ํ‘œํ˜„์„ ์—ฌ๋Ÿฌ ํ•ด์„ ๊ฐ€๋Šฅํ•œ ํŠน์ง•๋“ค๋กœ ๋ถ„ํ•ดํ•ฉ๋‹ˆ๋‹ค. ๊ทธ ํ›„, ์ด๋Ÿฌํ•œ ํŠน์ง• ์ค‘ ์–ด๋–ค ์š”์†Œ๋“ค์ด ์‹ค์ œ๋กœ ๋ชจ๋ธ์ด ๋ณต์žกํ•œ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๋Š” ๋ฐ ์ค‘์š”ํ•œ ์—ญํ• ์„ ํ•˜๋Š”์ง€ ํ™•์ธํ–ˆ์Šต๋‹ˆ๋‹ค. ์‹คํ—˜ ๊ฒฐ๊ณผ, ํŠน์ • ํŠน์ง•๋“ค์„ ์กฐ์ •ํ•˜๋ฉด ๋ชจ๋ธ์˜ ์ถ”๋ก  ์„ฑ๋Šฅ์ด ํ–ฅ์ƒ๋จ์„ ๋ณด์—ฌ์ฃผ์–ด, ๋Œ€ํ˜• ์–ธ์–ด ๋ชจ๋ธ์˜ ๋‚ด๋ถ€ ์ž‘๋™ ์›๋ฆฌ๋ฅผ ์ฒ˜์Œ์œผ๋กœ ๊ธฐ๊ณ„์ ์œผ๋กœ ์„ค๋ช…ํ•˜๋Š” ๊ณ„๊ธฐ๋ฅผ ๋งˆ๋ จํ–ˆ์Šต๋‹ˆ๋‹ค.

Qwen2.5-Omni Technical Report

Paper, Project

์ด ๋ณด๊ณ ์„œ๋Š” ํ…์ŠคํŠธ, ์ด๋ฏธ์ง€, ์˜ค๋””์˜ค, ๋น„๋””์˜ค ๋“ฑ ๋‹ค์–‘ํ•œ ์ž…๋ ฅ์„ ๋™์‹œ์— ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ๋Š” ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๋ชจ๋ธ Qwen2.5-Omni๋ฅผ ์†Œ๊ฐœํ•ฉ๋‹ˆ๋‹ค. ์ด ๋ชจ๋ธ์€ ์ŠคํŠธ๋ฆฌ๋ฐ ๋ฐฉ์‹์œผ๋กœ ํ…์ŠคํŠธ์™€ ์Œ์„ฑ์„ ์ƒ์„ฑํ•  ์ˆ˜ ์žˆ์œผ๋ฉฐ, ์˜ค๋””์˜ค์™€ ๋น„๋””์˜ค๋ฅผ ๋™์‹œ์— ๋‹ค๋ฃฐ ๋•Œ ๋ฐœ์ƒํ•  ์ˆ˜ ์žˆ๋Š” ๋™๊ธฐํ™” ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด ์ƒˆ๋กœ์šด ์œ„์น˜ ์ž„๋ฒ ๋”ฉ ๋ฐฉ์‹(TMRoPE)์„ ๋„์ž…ํ–ˆ์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ, โ€˜Thinker-Talkerโ€™๋ผ๋Š” ๋‘ ๊ฐœ์˜ ๋ถ„๋ฆฌ๋œ ๊ตฌ์กฐ๋ฅผ ํ†ตํ•ด ํ…์ŠคํŠธ ์ƒ์„ฑ๊ณผ ์Œ์„ฑ ์ƒ์„ฑ์„ ๋…๋ฆฝ์ ์œผ๋กœ ์ฒ˜๋ฆฌํ•จ์œผ๋กœ์จ ์„œ๋กœ ๊ฐ„์„ญํ•˜์ง€ ์•Š๋„๋ก ์„ค๊ณ„๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ์ด์™€ ๊ฐ™์€ ํ˜์‹  ๋•๋ถ„์— Qwen2.5-Omni๋Š” ๋‹ค์–‘ํ•œ ๋ฒค์น˜๋งˆํฌ์—์„œ ์šฐ์ˆ˜ํ•œ ์„ฑ๋Šฅ์„ ๊ธฐ๋กํ•˜๋ฉฐ, ๊ธฐ์กด ๋ชจ๋ธ๋“ค๊ณผ ๋น„๊ตํ•ด ๋›ฐ์–ด๋‚œ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ฒ˜๋ฆฌ ๋Šฅ๋ ฅ์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.

Video-T1: Test-Time Scaling for Video Generation

Paper, Project

๋น„๋””์˜ค ์ƒ์„ฑ ๋ถ„์•ผ์—์„œ๋Š” ํ•™์Šต ๊ณผ์ •์—์„œ ๋น„์šฉ์„ ๋งŽ์ด ๋“ค์ด์ง€ ์•Š๊ณ ๋„ ์ƒ์„ฑ ํ’ˆ์งˆ์„ ๋†’์ผ ์ˆ˜ ์žˆ๋Š” ๋ฐฉ๋ฒ•์ด ์ค‘์š”ํ•œ๋ฐ, ์ด ๋…ผ๋ฌธ์—์„œ๋Š” ๋ฐ”๋กœ 'ํ…Œ์ŠคํŠธ ํƒ€์ž„ ํ™•์žฅ(Test-Time Scaling)'์ด๋ผ๋Š” ๊ฐœ๋…์„ ๋„์ž…ํ•ฉ๋‹ˆ๋‹ค. ์ฆ‰, ํ•™์Šต ํ›„ ์ถ”๋ก  ๊ณผ์ •์—์„œ ์ถ”๊ฐ€์ ์ธ ๊ณ„์‚ฐ์„ ์‚ฌ์šฉํ•ด ๋น„๋””์˜ค์˜ ํ’ˆ์งˆ์„ ๊ฐœ์„ ํ•˜๋Š” ๋ฐฉ๋ฒ•์ž…๋‹ˆ๋‹ค. ์—ฐ๊ตฌ์ง„์€ ๋…ธ์ด์ฆˆ ๊ณต๊ฐ„์—์„œ ๋” ๋‚˜์€ ๋น„๋””์˜ค ๊ฒฝ๋กœ๋ฅผ ํƒ์ƒ‰ํ•˜๋Š” ๋ฐฉ์‹์œผ๋กœ ์ ‘๊ทผํ•˜๋ฉฐ, ์ฒ˜์Œ์—๋Š” ๊ฐ„๋‹จํ•œ ์„ ํ˜• ๊ฒ€์ƒ‰ ์ „๋žต์„ ์ ์šฉํ•œ ํ›„, ๋น„๋””์˜ค์˜ ๊ฐ ํ”„๋ ˆ์ž„์„ ์ ์‘์ ์œผ๋กœ ํ™•์žฅํ•˜๊ณ  ๊ฐ€์ง€์น˜๊ธฐํ•˜๋Š” 'Tree-of-Frames' ๊ธฐ๋ฒ•์„ ์ œ์•ˆํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ๋ฐฉ๋ฒ•์„ ํ†ตํ•ด ์ฃผ์–ด์ง„ ํ…์ŠคํŠธ ์„ค๋ช…์— ๋งž์ถฐ ํ›จ์”ฌ ๋” ์งˆ ๋†’์€ ๋น„๋””์˜ค๋ฅผ ์ƒ์„ฑํ•  ์ˆ˜ ์žˆ์Œ์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.

When Less is Enough: Adaptive Token Reduction for Efficient Image Representation

Paper

๋น„์ „ ์ธ์ฝ”๋”๋Š” ์ด๋ฏธ์ง€๋ฅผ ์ฒ˜๋ฆฌํ•  ๋•Œ ์ˆ˜๋งŽ์€ ์‹œ๊ฐ ํ† ํฐ์„ ์ƒ์„ฑํ•˜์—ฌ ํ’๋ถ€ํ•œ ์ •๋ณด๋ฅผ ์ œ๊ณตํ•˜์ง€๋งŒ, ์ด๋กœ ์ธํ•ด ๊ณ„์‚ฐ ๋น„์šฉ์ด ๊ธ‰์ฆํ•˜๋Š” ๋ฌธ์ œ๊ฐ€ ์žˆ์Šต๋‹ˆ๋‹ค. ์ด ๋…ผ๋ฌธ์—์„œ๋Š” ๋ชจ๋“  ํ† ํฐ์ด ๋™์ผํ•˜๊ฒŒ ์ค‘์š”ํ•œ ๊ฒƒ์ด ์•„๋‹ˆ๋ผ, ์ผ๋ถ€ ํ† ํฐ์€ ๋‹ค๋ฅธ ์ค‘์š”ํ•œ ์ •๋ณด๋กœ๋ถ€ํ„ฐ ์‰ฝ๊ฒŒ ๋ณต์›ํ•  ์ˆ˜ ์žˆ๋‹ค๋Š” ์ ์— ์ฐฉ์•ˆํ–ˆ์Šต๋‹ˆ๋‹ค. ์—ฐ๊ตฌ์ง„์€ ์˜คํ† ์ธ์ฝ”๋”์™€ Gumbel-Softmax ์„ ํƒ ๋ฉ”์ปค๋‹ˆ์ฆ˜์„ ๊ฒฐํ•ฉํ•ด, ๊ผญ ํ•„์š”ํ•œ ์‹œ๊ฐ ํ† ํฐ๋งŒ ์„ ํƒํ•˜์—ฌ ์‚ฌ์šฉํ•˜๋„๋ก ํ•˜๋Š” ๋ฐฉ๋ฒ•์„ ๊ฐœ๋ฐœํ–ˆ์Šต๋‹ˆ๋‹ค. ๊ทธ ๊ฒฐ๊ณผ, OCR ์ž‘์—… ๋“ฑ์—์„œ๋Š” ์ „์ฒด ํ† ํฐ์˜ ์ ˆ๋ฐ˜ ์ด์ƒ์„ ์ค„์—ฌ๋„ ์„ฑ๋Šฅ ์ €ํ•˜๊ฐ€ ๊ฑฐ์˜ ์—†์—ˆ์œผ๋ฉฐ, ์ผ๋ฐ˜ ์ž‘์—…์—์„œ๋„ ๊ทน๋‹จ์ ์œผ๋กœ ๋งŽ์€ ํ† ํฐ์„ ์ค„์—ฌ๋„ ๋น„์Šทํ•œ ์„ฑ๋Šฅ์„ ์œ ์ง€ํ•  ์ˆ˜ ์žˆ์Œ์„ ํ™•์ธํ–ˆ์Šต๋‹ˆ๋‹ค.

Long-Context Autoregressive Video Modeling with Next-Frame Prediction

Paper, Project

๋น„๋””์˜ค ์ƒ์„ฑ์—์„œ๋Š” ๊ธด ์‹œ๊ฐ„์˜ ํ๋ฆ„ ์†์—์„œ ์ผ์–ด๋‚˜๋Š” ๋ณ€ํ™”, ์ฆ‰ ์žฅ๊ธฐ์ ์ธ ๋ฌธ๋งฅ์„ ๋ฐ˜์˜ํ•˜๋Š” ๊ฒƒ์ด ๋งค์šฐ ์ค‘์š”ํ•ฉ๋‹ˆ๋‹ค. ์ด ๋…ผ๋ฌธ์€ ๋น„๋””์˜ค ๋‚ด ์—ฐ์†๋œ ํ”„๋ ˆ์ž„ ๊ฐ„์˜ ์‹œ๊ฐ„์  ๊ด€๊ณ„๋ฅผ ํšจ๊ณผ์ ์œผ๋กœ ๋ชจ๋ธ๋งํ•˜๊ธฐ ์œ„ํ•œ ์ƒˆ๋กœ์šด ์ ‘๊ทผ๋ฒ•์„ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค. ์—ฐ๊ตฌ์ง„์€ โ€˜Frame AutoRegressive(FAR)โ€™ ๋ชจ๋ธ์„ ๋„์ž…ํ•˜์—ฌ, ์–ธ์–ด ๋ชจ๋ธ์ด ๋‹จ์–ด ๊ฐ„์˜ ๊ด€๊ณ„๋ฅผ ํ•™์Šตํ•˜๋Š” ๊ฒƒ์ฒ˜๋Ÿผ ๋น„๋””์˜ค ํ”„๋ ˆ์ž„ ๊ฐ„์˜ ์ธ๊ณผ ๊ด€๊ณ„๋ฅผ ํ•™์Šต์‹œ์ผฐ์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ, ๊ธฐ์กด์˜ ์œ„์น˜ ์ž„๋ฒ ๋”ฉ ๋ฐฉ์‹์ด ๊ธด ๋น„๋””์˜ค์—์„œ๋Š” ํ•œ๊ณ„๊ฐ€ ์žˆ์Œ์„ ์ง€์ ํ•˜๋ฉฐ, โ€˜FlexRoPEโ€™๋ผ๋Š” ์œ ์—ฐํ•œ ์‹œ๊ฐ„ ๊ฐ์‡  ๊ธฐ๋ฒ•๊ณผ ๋‹จ๊ธฐ ๋ฐ ์žฅ๊ธฐ ๋ฌธ๋งฅ์„ ๋™์‹œ์— ํ™œ์šฉํ•˜๋Š” ์ „๋žต์„ ํ†ตํ•ด ํšจ์œจ์ ์œผ๋กœ ๊ธด ๋น„๋””์˜ค ์‹œํ€€์Šค๋ฅผ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ์Œ์„ ์ž…์ฆํ–ˆ์Šต๋‹ˆ๋‹ค.

Video-R1: Reinforcing Video Reasoning in MLLMs

Paper, Project

์ด ๋…ผ๋ฌธ์€ ๋Œ€ํ˜• ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์–ธ์–ด ๋ชจ๋ธ(MLLM) ๋‚ด์—์„œ ๋น„๋””์˜ค๋ฅผ ํ†ตํ•œ ์ถ”๋ก  ๋Šฅ๋ ฅ์„ ๊ฐ•ํ™”ํ•˜๋Š” ๋ฐฉ๋ฒ•์„ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค. ์ด์ „ ์—ฐ๊ตฌ์—์„œ ๊ทœ์น™ ๊ธฐ๋ฐ˜ ๊ฐ•ํ™” ํ•™์Šต์„ ํ†ตํ•ด ์–ธ์–ด ๋ชจ๋ธ์˜ ์ถ”๋ก  ๋Šฅ๋ ฅ์„ ํ–ฅ์ƒ์‹œํ‚จ ๊ฒฝํ—˜์„ ๋ฐ”ํƒ•์œผ๋กœ, ๋น„๋””์˜ค ๋ฐ์ดํ„ฐ์— ํŠนํ™”๋œ ๊ฐ•ํ™” ํ•™์Šต ์•Œ๊ณ ๋ฆฌ์ฆ˜(T-GRPO)์„ ๋„์ž…ํ–ˆ์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ, ๋น„๋””์˜ค ๋ฐ์ดํ„ฐ์˜ ๋ถ€์กฑ ๋ฌธ์ œ๋ฅผ ๋ณด์™„ํ•˜๊ธฐ ์œ„ํ•ด ๊ณ ํ’ˆ์งˆ์˜ ์ด๋ฏธ์ง€ ์ถ”๋ก  ๋ฐ์ดํ„ฐ๋ฅผ ํ•จ๊ป˜ ์‚ฌ์šฉํ•˜์—ฌ, ๋‘ ๊ฐ€์ง€ ๋ฐ์ดํ„ฐ์…‹์„ ๊ตฌ์ถ•ํ•˜๊ณ  ํ›ˆ๋ จํ–ˆ์Šต๋‹ˆ๋‹ค. ๊ทธ ๊ฒฐ๊ณผ, Video-R1์€ ์—ฌ๋Ÿฌ ๋น„๋””์˜ค ์ถ”๋ก  ๋ฒค์น˜๋งˆํฌ์—์„œ ์„ฑ๋Šฅ์ด ํฌ๊ฒŒ ํ–ฅ์ƒ๋˜์—ˆ์œผ๋ฉฐ, ์ผ๋ถ€ ๋ฒค์น˜๋งˆํฌ์—์„œ๋Š” ์ƒ์—…์šฉ ๋ชจ๋ธ๋ณด๋‹ค ์šฐ์ˆ˜ํ•œ ์„ฑ๋Šฅ์„ ๋ณด์˜€์Šต๋‹ˆ๋‹ค.

Position: Interactive Generative Video as Next-Generation Game Engine

Paper

ํ˜„๋Œ€ ๊ฒŒ์ž„ ๊ฐœ๋ฐœ์€ ๊ธฐ์กด ๊ฒŒ์ž„ ์—”์ง„์˜ ํ•œ๊ณ„๋กœ ์ธํ•ด ์ฐฝ์˜์„ฑ๊ณผ ๋น„์šฉ ์ธก๋ฉด์—์„œ ์–ด๋ ค์›€์„ ๊ฒช๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. ์ด ๋…ผ๋ฌธ์€ ์ด๋Ÿฌํ•œ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•  ์ƒˆ๋กœ์šด ๋ฐฉํ–ฅ์œผ๋กœ, ์‚ฌ์šฉ์ž๊ฐ€ ์ง์ ‘ ์ƒํ˜ธ์ž‘์šฉํ•˜๋ฉฐ ์‹ค์‹œ๊ฐ„์œผ๋กœ ์ƒ์„ฑ๋˜๋Š” ๋น„๋””์˜ค๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ํ•œ ์ฐจ์„ธ๋Œ€ ๊ฒŒ์ž„ ์—”์ง„ ๊ฐœ๋…์„ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค. ์ฆ‰, ๋ฏธ๋ฆฌ ์ œ์ž‘๋œ ์ฝ˜ํ…์ธ  ๋Œ€์‹  ์ธ๊ณต์ง€๋Šฅ์ด ์‹ค์‹œ๊ฐ„์œผ๋กœ ๊ณ ํ’ˆ์งˆ์˜ ๊ฐ€์ƒ ํ™˜๊ฒฝ์„ ์ƒ์„ฑํ•˜์—ฌ, ๊ฒŒ์ž„์˜ ์„ธ๊ณ„๋ฅผ ๋ฌดํ•œํžˆ ํ™•์žฅํ•  ์ˆ˜ ์žˆ๋„๋ก ํ•˜๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. ์ œ์•ˆ๋œ ํ”„๋ ˆ์ž„์›Œํฌ๋Š” ํ•ต์‹ฌ ๋ชจ๋“ˆ๊ณผ ๋ฐœ์ „ ๋‹จ๊ณ„์— ๋”ฐ๋ฅธ ๋กœ๋“œ๋งต์„ ํฌํ•จํ•˜๊ณ  ์žˆ์œผ๋ฉฐ, AI๊ฐ€ ๊ฒŒ์ž„ ์ œ์ž‘๊ณผ ๊ฒฝํ—˜ ๋ฐฉ์‹์„ ๊ทผ๋ณธ์ ์œผ๋กœ ๋ฐ”๊ฟ€ ๋ฏธ๋ž˜๋ฅผ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค.

MAPS: A Multi-Agent Framework Based on Big Seven Personality and Socratic Guidance for Multimodal Scientific Problem Solving

Paper, Project

๊ณผํ•™ ๋ฌธ์ œ ํ•ด๊ฒฐ์—์„œ๋Š” ํ…์ŠคํŠธ๋ฟ๋งŒ ์•„๋‹ˆ๋ผ ๋„ํ‘œ ๋“ฑ ๋‹ค์–‘ํ•œ ์ •๋ณด๊ฐ€ ํ•จ๊ป˜ ์‚ฌ์šฉ๋˜๋Š”๋ฐ, ์ด๋ฅผ ํšจ๊ณผ์ ์œผ๋กœ ์ฒ˜๋ฆฌํ•˜๋Š” ๊ฒƒ์€ ์—ฌ์ „ํžˆ ์–ด๋ ค์šด ๋„์ „ ๊ณผ์ œ์ž…๋‹ˆ๋‹ค. ์ด ๋…ผ๋ฌธ์—์„œ๋Š” โ€˜MAPSโ€™๋ผ๋Š” ๋‹ค์ค‘ ์—์ด์ „ํŠธ ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ํ†ตํ•ด ์ด๋Ÿฌํ•œ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๊ณ ์ž ํ•ฉ๋‹ˆ๋‹ค. ์ด 7๊ฐœ์˜ ์—์ด์ „ํŠธ๊ฐ€ ๊ฐ๊ธฐ ๋‹ค๋ฅธ ์—ญํ• ์„ ์ˆ˜ํ–‰ํ•˜๋ฉฐ, ์†Œํฌ๋ผํ…Œ์Šค์‹ ์งˆ๋ฌธ๊ณผ ํ”ผ๋“œ๋ฐฑ์„ ํ†ตํ•ด ๋ฌธ์ œ ํ•ด๊ฒฐ ๊ณผ์ •์„ ๋‹จ๊ณ„์ ์œผ๋กœ ์ด๋Œ์–ด๊ฐ‘๋‹ˆ๋‹ค. ๋˜ํ•œ, ๋ฌธ์ œ ํ•ด๊ฒฐ ๊ณผ์ • ์ค‘ ๋น„ํŒ์  ์‚ฌ๊ณ ๋ฅผ ์œ ๋„ํ•˜๋Š” Critic ์—์ด์ „ํŠธ๋ฅผ ๋„์ž…ํ•ด ๋”์šฑ ๊นŠ์ด ์žˆ๋Š” ๋ถ„์„์„ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•˜์˜€์Šต๋‹ˆ๋‹ค. ๋‹ค์–‘ํ•œ ๋ฐ์ดํ„ฐ์…‹์—์„œ ๊ธฐ์กด ์ตœ๊ณ  ์„ฑ๋Šฅ ๋ชจ๋ธ๋ณด๋‹ค ์•ฝ 15.84% ๋” ๋‚˜์€ ์„ฑ๋Šฅ์„ ๋ณด์—ฌ, ๋ณต์žกํ•œ ๊ณผํ•™ ๋ฌธ์ œ ํ•ด๊ฒฐ์— ์žˆ์–ด ํฐ ์ง„์ „์„ ์ด๋ฃจ์—ˆ์Œ์„ ํ™•์ธํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

profile
XR๊ณผ AI์— ๊ด€์‹ฌ์ด ๋งŽ์€ Sky ์ž…๋‹ˆ๋‹ค.

0๊ฐœ์˜ ๋Œ“๊ธ€