[2025/W25] ๐Ÿค— Weekly AI Research

Skyยท2025๋…„ 6์›” 20์ผ

Weekly AI Research Digest

๋ชฉ๋ก ๋ณด๊ธฐ
35/89

๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ์˜ ์ปจํ…์ŠคํŠธ ํ™•์žฅ๊ณผ ํšจ์œจ์„ฑ ๊ฐœ์„ ์„ ์œ„ํ•œ ํ˜์‹ ์  ์•„ํ‚คํ…์ฒ˜ ์—ฐ๊ตฌ ํ™œ๋ฐœ
๋‹ค๊ตญ์–ดยท๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๋ฒค์น˜๋งˆํฌ ๊ฐœ๋ฐœ๊ณผ ํ”ผ๋“œ๋ฐฑ ํ†ตํ•ฉ, ํ…Œ์ŠคํŠธ ์‹œ๊ฐ„ ๊ณ„์‚ฐ ์ตœ์ ํ™”๋กœ AI ์„ฑ๋Šฅ ํ–ฅ์ƒ ์ถ”๊ตฌ

TL;DR

  1. MiniMax-M1
    ํ•˜์ด๋ธŒ๋ฆฌ๋“œ MoE ์•„ํ‚คํ…์ฒ˜์™€ ๋ผ์ดํŠธ๋‹ ์–ดํ…์…˜์„ ๊ฒฐํ•ฉํ•œ 100๋งŒ ํ† ํฐ ์ปจํ…์ŠคํŠธ๋ฅผ ์ง€์›ํ•˜๋Š” ์„ธ๊ณ„ ์ตœ์ดˆ ์˜คํ”ˆ ์›จ์ดํŠธ ๋Œ€๊ทœ๋ชจ ์ถ”๋ก  ๋ชจ๋ธ์ด๋‹ค.

  2. MultiFinBen
    ๊ธˆ์œต ๋„๋ฉ”์ธ์— ํŠนํ™”๋œ ์ตœ์ดˆ์˜ ๋‹ค๊ตญ์–ด, ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๋ฒค์น˜๋งˆํฌ๋กœ LLM์˜ ์‹ค์ œ ๊ธˆ์œต ์ปค๋ฎค๋‹ˆ์ผ€์ด์…˜ ๋Šฅ๋ ฅ์„ ํ‰๊ฐ€ํ•œ๋‹ค.

  3. Scientists' First Exam
    ๊ณผํ•™์  ์ธ์ง€ ๋Šฅ๋ ฅ์„ ์‹ ํ˜ธ ์ธ์‹, ์†์„ฑ ์ดํ•ด, ๋น„๊ต ์ถ”๋ก  ์„ธ ๋‹จ๊ณ„๋กœ ํ‰๊ฐ€ํ•˜๋Š” ๊ณผํ•™ ํŠนํ™” MLLM ๋ฒค์น˜๋งˆํฌ์ด๋‹ค.

  4. DeepResearch Bench
    ์›น ํƒ์ƒ‰, ์ •๋ณด ๊ฒ€์ƒ‰, ์ข…ํ•ฉ ๋Šฅ๋ ฅ์„ ํ‰๊ฐ€ํ•˜๋Š” 100๊ฐœ์˜ ๋ฐ•์‚ฌ๊ธ‰ ์—ฐ๊ตฌ ๊ณผ์ œ๋กœ ๊ตฌ์„ฑ๋œ ์‹ฌ์ธต ์—ฐ๊ตฌ ์—์ด์ „ํŠธ ๋ฒค์น˜๋งˆํฌ์ด๋‹ค.

  5. Scaling Test-time Compute for LLM Agents
    ๋‹ค์–‘ํ•œ ํ…Œ์ŠคํŠธ ์‹œ๊ฐ„ ํ™•์žฅ ์ „๋žต์ด ์–ธ์–ด ์—์ด์ „ํŠธ์˜ ์„ฑ๋Šฅ์„ ํ–ฅ์ƒ์‹œํ‚ค๋ฉฐ ํŠนํžˆ ๋ฆฌ์ŠคํŠธ ๊ธฐ๋ฐ˜ ๊ฒ€์ฆ ๋ฐฉ์‹์ด ๊ฐ€์žฅ ํšจ๊ณผ์ ์ž„์„ ์ž…์ฆํ•œ๋‹ค.

  6. Sekai
    ์„ธ๊ณ„ 100๊ฐœ ์ด์ƒ ๊ตญ๊ฐ€์˜ 5,000์‹œ๊ฐ„ ์ด์ƒ ์˜์ƒ๊ณผ ํ’๋ถ€ํ•œ ์ฃผ์„์„ ํฌํ•จํ•œ ์„ธ๊ณ„ ํƒํ—˜์šฉ ๊ณ ํ’ˆ์งˆ 1์ธ์นญ ๋น„๋””์˜ค ๋ฐ์ดํ„ฐ์…‹์ด๋‹ค.

  7. CMI-Bench
    ๋‹ค์–‘ํ•œ ์Œ์•… ์ •๋ณด ๊ฒ€์ƒ‰ ์ž‘์—…์„ ์ง€์‹œ ๋”ฐ๋ฅด๊ธฐ ํ˜•ํƒœ๋กœ ์žฌํ•ด์„ํ•œ ์˜ค๋””์˜ค-ํ…์ŠคํŠธ LLM ํ‰๊ฐ€์šฉ ํฌ๊ด„์  ์Œ์•… ๋ฒค์น˜๋งˆํฌ์ด๋‹ค.

  8. Feedback Friction
    ์ด์ƒ์ ์ธ ์กฐ๊ฑด์—์„œ๋„ LLM์ด ์™ธ๋ถ€ ํ”ผ๋“œ๋ฐฑ์„ ์™„์ „ํžˆ ํ†ตํ•ฉํ•˜๋Š” ๋ฐ ์ €ํ•ญํ•˜๋Š” 'ํ”ผ๋“œ๋ฐฑ ๋งˆ์ฐฐ' ํ˜„์ƒ์„ ๋ฐœ๊ฒฌํ•˜๊ณ  ๋ถ„์„ํ•œ๋‹ค.

  9. DoTA-RAG
    ์ฟผ๋ฆฌ ์žฌ์ž‘์„ฑ, ๋™์  ๋ผ์šฐํŒ…, ๋‹ค๋‹จ๊ณ„ ๊ฒ€์ƒ‰์„ ํ†ตํ•ด ๋Œ€๊ทœ๋ชจ ์›น ์ง€์‹ ์ธ๋ฑ์Šค์—์„œ ๋†’์€ ์ •ํ™•๋„์™€ ๋‚ฎ์€ ์ง€์—ฐ์‹œ๊ฐ„์„ ๋‹ฌ์„ฑํ•˜๋Š” RAG ์‹œ์Šคํ…œ์ด๋‹ค.

  10. Wait, We Don't Need to "Wait"!
    "Wait", "Hmm" ๊ฐ™์€ ์‚ฌ๊ณ  ํ† ํฐ์„ ์ œ๊ฑฐํ•จ์œผ๋กœ์จ ๋ชจ๋ธ ์œ ์šฉ์„ฑ์„ ์œ ์ง€ํ•˜๋ฉด์„œ ์ถ”๋ก  ๊ธธ์ด๋ฅผ ์ตœ๋Œ€ 51%๊นŒ์ง€ ์ค„์ด๋Š” ํšจ์œจ์  ์ถ”๋ก  ๋ฐฉ๋ฒ•์ด๋‹ค.

MiniMax-M1: Scaling Test-Time Compute Efficiently with Lightning Attention

Paper, Project
MiniMax-M1์€ ์„ธ๊ณ„ ์ตœ์ดˆ์˜ ์˜คํ”ˆ ์›จ์ดํŠธ ํ•˜์ด๋ธŒ๋ฆฌ๋“œ ์–ดํ…์…˜ ์ถ”๋ก  ๋ชจ๋ธ์ด๋‹ค. ์ด ๋ชจ๋ธ์€ ํ•˜์ด๋ธŒ๋ฆฌ๋“œ MoE(Mixture-of-Experts) ์•„ํ‚คํ…์ฒ˜์™€ ๋ผ์ดํŠธ๋‹ ์–ดํ…์…˜ ๋ฉ”์ปค๋‹ˆ์ฆ˜์„ ๊ฒฐํ•ฉํ•˜์—ฌ ์„ค๊ณ„๋˜์—ˆ๋‹ค. ์ด 456์–ต ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ๋ณด์œ ํ•˜๊ณ  ์žˆ์œผ๋ฉฐ, ํ† ํฐ๋‹น 45.9์–ต ํŒŒ๋ผ๋ฏธํ„ฐ๊ฐ€ ํ™œ์„ฑํ™”๋œ๋‹ค. ํŠนํžˆ 100๋งŒ ํ† ํฐ์˜ ์ปจํ…์ŠคํŠธ ๊ธธ์ด๋ฅผ ์ง€์›ํ•˜์—ฌ DeepSeek R1๋ณด๋‹ค 8๋ฐฐ ํฐ ์ปจํ…์ŠคํŠธ๋ฅผ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ๋‹ค. ์—ฐ๊ตฌํŒ€์€ ์ƒˆ๋กœ์šด RL ์•Œ๊ณ ๋ฆฌ์ฆ˜์ธ CISPO๋ฅผ ์ œ์•ˆํ•˜์—ฌ ํ•™์Šต ํšจ์œจ์„ฑ์„ ํฌ๊ฒŒ ํ–ฅ์ƒ์‹œ์ผฐ๋‹ค. ์ด๋Ÿฌํ•œ ๊ธฐ์ˆ ์  ํ˜์‹ ์œผ๋กœ ์ธํ•ด 512๋Œ€์˜ H800 GPU๋ฅผ ์‚ฌ์šฉํ•œ ์ „์ฒด RL ํ›ˆ๋ จ์ด ๋‹จ 3์ฃผ ๋งŒ์— ์™„๋ฃŒ๋˜์—ˆ์œผ๋ฉฐ, ๋น„์šฉ์€ $534,700์— ๋ถˆ๊ณผํ–ˆ๋‹ค. ์—ฐ๊ตฌํŒ€์€ 40K์™€ 80K ์‚ฌ๊ณ  ์˜ˆ์‚ฐ์„ ๊ฐ€์ง„ ๋‘ ๋ฒ„์ „์˜ ๋ชจ๋ธ์„ ๊ณต๊ฐœํ–ˆ์œผ๋ฉฐ, ์ด ๋ชจ๋ธ๋“ค์€ ๋ณต์žกํ•œ ์†Œํ”„ํŠธ์›จ์–ด ์—”์ง€๋‹ˆ์–ด๋ง, ๋„๊ตฌ ํ™œ์šฉ, ๊ธด ์ปจํ…์ŠคํŠธ ์ž‘์—…์—์„œ ํŠนํžˆ ๊ฐ•์ ์„ ๋ณด์ธ๋‹ค.

MultiFinBen: A Multilingual, Multimodal, and Difficulty-Aware Benchmark for Financial LLM Evaluation

Paper, Project
MultiFinBen์€ ๊ธ€๋กœ๋ฒŒ ๊ธˆ์œต ๋„๋ฉ”์ธ์— ํŠนํ™”๋œ ์ตœ์ดˆ์˜ ๋‹ค๊ตญ์–ด, ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๋ฒค์น˜๋งˆํฌ์ด๋‹ค. ์ด ๋ฒค์น˜๋งˆํฌ๋Š” ํ…์ŠคํŠธ, ๋น„์ „, ์˜ค๋””์˜ค ๋“ฑ ๋‹ค์–‘ํ•œ ๋ชจ๋‹ฌ๋ฆฌํ‹ฐ์™€ ๋‹ค๊ตญ์–ด ํ™˜๊ฒฝ์—์„œ LLM์˜ ์„ฑ๋Šฅ์„ ํ‰๊ฐ€ํ•œ๋‹ค. ์—ฐ๊ตฌํŒ€์€ PolyFiQA-Easy์™€ PolyFiQA-Expert๋ผ๋Š” ์ƒˆ๋กœ์šด ๋‹ค๊ตญ์–ด ๊ธˆ์œต ๋ฒค์น˜๋งˆํฌ๋ฅผ ๋„์ž…ํ–ˆ์œผ๋ฉฐ, EnglishOCR๊ณผ SpanishOCR ๊ฐ™์€ OCR ๊ธฐ๋ฐ˜ ๊ธˆ์œต QA ์ž‘์—…๋„ ํฌํ•จ์‹œ์ผฐ๋‹ค. ๋˜ํ•œ ๋‚œ์ด๋„ ์ธ์‹ ์„ ํƒ ๋ฉ”์ปค๋‹ˆ์ฆ˜์„ ์ œ์•ˆํ•˜์—ฌ ๊ท ํ˜• ์žกํžŒ ๋ฒค์น˜๋งˆํฌ๋ฅผ ๊ตฌ์„ฑํ–ˆ๋‹ค. 22๊ฐœ์˜ ์ตœ์‹  ๋ชจ๋ธ์„ ํ‰๊ฐ€ํ•œ ๊ฒฐ๊ณผ, ์ผ๋ฐ˜์ ์ธ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๋ฐ ๋‹ค๊ตญ์–ด ๋Šฅ๋ ฅ์ด ๋›ฐ์–ด๋‚œ ๊ฐ•๋ ฅํ•œ ๋ชจ๋ธ๋“ค๋„ ๋ณต์žกํ•œ ๋‹ค๊ตญ์–ด/๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๊ธˆ์œต ์ž‘์—…์—์„œ ์ƒ๋‹นํ•œ ์–ด๋ ค์›€์„ ๊ฒช๋Š” ๊ฒƒ์œผ๋กœ ๋‚˜ํƒ€๋‚ฌ๋‹ค.

Scientists' First Exam: Probing Cognitive Abilities of MLLM via Perception, Understanding, and Reasoning

Paper, Project
Scientists' First Exam(SFE)์€ ๊ณผํ•™์  ๋‹ค์ค‘๋ชจ๋‹ฌ ์ถ”๋ก  ๋Šฅ๋ ฅ์„ ํ‰๊ฐ€ํ•˜๊ธฐ ์œ„ํ•œ ์ƒˆ๋กœ์šด ๋ฒค์น˜๋งˆํฌ์ด๋‹ค. ์ด ๋ฒค์น˜๋งˆํฌ๋Š” ๊ณผํ•™์  ์‹ ํ˜ธ ์ธ์‹, ๊ณผํ•™์  ์†์„ฑ ์ดํ•ด, ๊ณผํ•™์  ๋น„๊ต ์ถ”๋ก ์ด๋ผ๋Š” 3๋‹จ๊ณ„๋กœ MLLM์˜ ์ธ์ง€ ๋Šฅ๋ ฅ์„ ํ‰๊ฐ€ํ•œ๋‹ค. 5๊ฐœ ํ•ต์‹ฌ ํ•™๋ฌธ ๋ถ„์•ผ์— ๊ฑธ์ณ 66๊ฐœ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ž‘์—…์„ ํฌํ•จํ•œ 830๊ฐœ์˜ ์ „๋ฌธ๊ฐ€ ๊ฒ€์ฆ VQA ์Œ์œผ๋กœ ๊ตฌ์„ฑ๋˜์–ด ์žˆ๋‹ค. ์ตœ์‹  ๋ชจ๋ธ์ธ GPT-o3์™€ InternVL-3๋ฅผ ํ‰๊ฐ€ํ•œ ๊ฒฐ๊ณผ, ๊ฐ๊ฐ 34.08%์™€ 26.52%์˜ ๋‚ฎ์€ ์„ฑ๋Šฅ์„ ๋ณด์˜€๋‹ค. ์ด๋Š” ๊ณผํ•™ ๋ถ„์•ผ์—์„œ MLLM์ด ์•„์ง ์ƒ๋‹นํ•œ ๋ฐœ์ „ ๊ฐ€๋Šฅ์„ฑ์„ ๊ฐ€์ง€๊ณ  ์žˆ์Œ์„ ์‹œ์‚ฌํ•œ๋‹ค.

DeepResearch Bench: A Comprehensive Benchmark for Deep Research Agents

Paper, Project
DeepResearch Bench๋Š” LLM ๊ธฐ๋ฐ˜ ์‹ฌ์ธต ์—ฐ๊ตฌ ์—์ด์ „ํŠธ(DRA)๋ฅผ ํ‰๊ฐ€ํ•˜๊ธฐ ์œ„ํ•œ ํฌ๊ด„์ ์ธ ๋ฒค์น˜๋งˆํฌ์ด๋‹ค. ์ด ๋ฒค์น˜๋งˆํฌ๋Š” 22๊ฐœ ๋ถ„์•ผ์˜ ๋„๋ฉ”์ธ ์ „๋ฌธ๊ฐ€๊ฐ€ ์„ค๊ณ„ํ•œ 100๊ฐœ์˜ ๋ฐ•์‚ฌ๊ธ‰ ์—ฐ๊ตฌ ๊ณผ์ œ๋ฅผ ํฌํ•จํ•˜๊ณ  ์žˆ๋‹ค. ์—ฐ๊ตฌํŒ€์€ ์ธ๊ฐ„ ํŒ๋‹จ๊ณผ ๊ฐ•ํ•œ ์ผ์น˜๋„๋ฅผ ๋ณด์ด๋Š” ๋‘ ๊ฐ€์ง€ ํ‰๊ฐ€ ๋ฐฉ๋ฒ•๋ก ์„ ์ œ์•ˆํ–ˆ๋‹ค. ์ฒซ ๋ฒˆ์งธ๋Š” ์ ์‘ํ˜• ๊ธฐ์ค€์œผ๋กœ ์—ฐ๊ตฌ ๋ณด๊ณ ์„œ ํ’ˆ์งˆ์„ ํ‰๊ฐ€ํ•˜๋Š” ์ฐธ์กฐ ๊ธฐ๋ฐ˜ ๋ฐฉ๋ฒ•์ด๊ณ , ๋‘ ๋ฒˆ์งธ๋Š” ์ธ์šฉ ์ˆ˜์™€ ์ธ์šฉ ์ •ํ™•๋„๋ฅผ ํ‰๊ฐ€ํ•˜๋Š” ์ •๋ณด ๊ฒ€์ƒ‰ ๋Šฅ๋ ฅ ํ‰๊ฐ€ ํ”„๋ ˆ์ž„์›Œํฌ์ด๋‹ค. ์ด ๋ฒค์น˜๋งˆํฌ๋Š” ์‹ค์šฉ์ ์ธ LLM ๊ธฐ๋ฐ˜ ์—์ด์ „ํŠธ ๊ฐœ๋ฐœ์„ ๊ฐ€์†ํ™”ํ•˜๊ธฐ ์œ„ํ•ด ์˜คํ”ˆ์†Œ์Šค๋กœ ๊ณต๊ฐœ๋˜์—ˆ๋‹ค.

Scaling Test-time Compute for LLM Agents

Paper, Project
์ด ์—ฐ๊ตฌ๋Š” ์–ธ์–ด ์—์ด์ „ํŠธ์— ํ…Œ์ŠคํŠธ ์‹œ๊ฐ„ ํ™•์žฅ ๋ฐฉ๋ฒ•์„ ์ ์šฉํ•œ ์ฒซ ์ฒด๊ณ„์ ์ธ ํƒ์ƒ‰์ด๋‹ค. ์—ฐ๊ตฌํŒ€์€ ๋ณ‘๋ ฌ ์ƒ˜ํ”Œ๋ง ์•Œ๊ณ ๋ฆฌ์ฆ˜, ์ˆœ์ฐจ์  ์ˆ˜์ • ์ „๋žต, ๊ฒ€์ฆ๊ธฐ ๋ฐ ๋ณ‘ํ•ฉ ๋ฐฉ๋ฒ•, ๋‹ค์–‘ํ•œ ๋กค์•„์›ƒ ์ „๋žต ๋“ฑ ๋‹ค์–‘ํ•œ ํ…Œ์ŠคํŠธ ์‹œ๊ฐ„ ํ™•์žฅ ์ „๋žต์„ ํƒ๊ตฌํ–ˆ๋‹ค. ์—ฐ๊ตฌ ๊ฒฐ๊ณผ, ํ…Œ์ŠคํŠธ ์‹œ๊ฐ„ ๊ณ„์‚ฐ ํ™•์žฅ์ด ์—์ด์ „ํŠธ์˜ ์„ฑ๋Šฅ์„ ํ–ฅ์ƒ์‹œํ‚ฌ ์ˆ˜ ์žˆ์Œ์„ ํ™•์ธํ–ˆ๋‹ค. ๋˜ํ•œ ์–ธ์ œ ์„ฑ์ฐฐํ• ์ง€ ์•„๋Š” ๊ฒƒ์ด ์—์ด์ „ํŠธ์—๊ฒŒ ์ค‘์š”ํ•˜๋ฉฐ, ๋ฆฌ์ŠคํŠธ ๊ธฐ๋ฐ˜ ๊ฒ€์ฆ ๋ฐ ๊ฒฐ๊ณผ ๋ณ‘ํ•ฉ ๋ฐฉ์‹์ด ๊ฐ€์žฅ ์šฐ์ˆ˜ํ•œ ์„ฑ๋Šฅ์„ ๋ณด์˜€๋‹ค. ๋‹ค์–‘ํ•œ ๋กค์•„์›ƒ์„ ์ฆ๊ฐ€์‹œํ‚ค๋Š” ๊ฒƒ๋„ ์—์ด์ „ํŠธ์˜ ์ž‘์—… ์„ฑ๋Šฅ์— ๊ธ์ •์ ์ธ ์˜ํ–ฅ์„ ๋ฏธ์ณค๋‹ค.

Sekai: A Video Dataset towards World Exploration

Paper, Project
Sekai๋Š” ์„ธ๊ณ„ ํƒํ—˜ ํ›ˆ๋ จ์— ์ ํ•ฉํ•œ ๊ณ ํ’ˆ์งˆ 1์ธ์นญ ์‹œ์ ์˜ ์ „ ์„ธ๊ณ„ ๋น„๋””์˜ค ๋ฐ์ดํ„ฐ์…‹์ด๋‹ค. ์ด ๋ฐ์ดํ„ฐ์…‹์€ ์ „ ์„ธ๊ณ„ 100๊ฐœ ์ด์ƒ ๊ตญ๊ฐ€ ๋ฐ ์ง€์—ญ์˜ 750๊ฐœ ๋„์‹œ์—์„œ ์ˆ˜์ง‘ํ•œ 5,000์‹œ๊ฐ„ ์ด์ƒ์˜ ๊ฑท๊ธฐ/๋“œ๋ก  ์˜์ƒ์„ ํฌํ•จํ•˜๊ณ  ์žˆ๋‹ค. ๊ฐ ์˜์ƒ์—๋Š” ์œ„์น˜, ์žฅ๋ฉด, ๋‚ ์”จ, ์ธ๊ตฌ ๋ฐ€๋„, ์บก์…˜, ์นด๋ฉ”๋ผ ๊ถค์  ๋“ฑ ํ’๋ถ€ํ•œ ์ฃผ์„์ด ์ œ๊ณต๋œ๋‹ค. ์—ฐ๊ตฌํŒ€์€ ๋น„๋””์˜ค ์ˆ˜์ง‘, ์ „์ฒ˜๋ฆฌ, ์ฃผ์„ ์ฒ˜๋ฆฌ๋ฅผ ์œ„ํ•œ ํšจ์œจ์ ์ธ ๋„๊ตฌ๋ฅผ ๊ฐœ๋ฐœํ–ˆ์œผ๋ฉฐ, ์ด ๋ฐ์ดํ„ฐ์…‹์˜ ์ผ๋ถ€๋ฅผ ํ™œ์šฉํ•˜์—ฌ YUME๋ผ๋Š” ์ธํ„ฐ๋ž™ํ‹ฐ๋ธŒ ๋น„๋””์˜ค ์„ธ๊ณ„ ํƒํ—˜ ๋ชจ๋ธ์„ ํ›ˆ๋ จ์‹œ์ผฐ๋‹ค. Sekai๋Š” ๋น„๋””์˜ค ์ƒ์„ฑ ๋ฐ ์„ธ๊ณ„ ํƒํ—˜ ๋ถ„์•ผ์˜ ๋ฐœ์ „์— ํฌ๊ฒŒ ๊ธฐ์—ฌํ•  ๊ฒƒ์œผ๋กœ ๊ธฐ๋Œ€๋œ๋‹ค.

CMI-Bench: A Comprehensive Benchmark for Evaluating Music Instruction Following

Paper
CMI-Bench๋Š” ์˜ค๋””์˜ค-ํ…์ŠคํŠธ LLM์„ ํ‰๊ฐ€ํ•˜๊ธฐ ์œ„ํ•œ ํฌ๊ด„์ ์ธ ์Œ์•… ์ง€์‹œ ๋”ฐ๋ฅด๊ธฐ ๋ฒค์น˜๋งˆํฌ์ด๋‹ค. ์ด ๋ฒค์น˜๋งˆํฌ๋Š” ์žฅ๋ฅด ๋ถ„๋ฅ˜, ๊ฐ์ • ํšŒ๊ท€, ์•…๊ธฐ ๋ถ„๋ฅ˜, ์Œ๋†’์ด ์ถ”์ • ๋“ฑ ๋‹ค์–‘ํ•œ ์Œ์•… ์ •๋ณด ๊ฒ€์ƒ‰(MIR) ์ž‘์—…์„ ํฌํ•จํ•˜๊ณ  ์žˆ๋‹ค. ์—ฐ๊ตฌํŒ€์€ ๊ธฐ์กด ์ตœ์ฒจ๋‹จ MIR ๋ชจ๋ธ๊ณผ ์ง์ ‘ ๋น„๊ตํ•  ์ˆ˜ ์žˆ๋„๋ก ํ‘œ์ค€ํ™”๋œ ํ‰๊ฐ€ ์ง€ํ‘œ๋ฅผ ์ฑ„ํƒํ–ˆ์œผ๋ฉฐ, ๋ชจ๋“  ์˜คํ”ˆ์†Œ์Šค ์˜ค๋””์˜ค-ํ…์ŠคํŠธ LLM์„ ์ง€์›ํ•˜๋Š” ํ‰๊ฐ€ ๋„๊ตฌ๋ฅผ ์ œ๊ณตํ–ˆ๋‹ค. ์‹คํ—˜ ๊ฒฐ๊ณผ, LLM๊ณผ ์ง€๋„ํ•™์Šต ๋ชจ๋ธ ๊ฐ„์— ์ƒ๋‹นํ•œ ์„ฑ๋Šฅ ๊ฒฉ์ฐจ๊ฐ€ ์žˆ์œผ๋ฉฐ, ๋ชจ๋ธ๋“ค์ด ๋ฌธํ™”์ , ์‹œ๊ฐ„์ , ์„ฑ๋ณ„ ํŽธํ–ฅ์„ ๋ณด์ด๋Š” ๊ฒƒ์œผ๋กœ ๋‚˜ํƒ€๋‚ฌ๋‹ค. CMI-Bench๋Š” ์Œ์•… ์ธ์‹ LLM ๋ฐœ์ „์„ ์œ„ํ•œ ํ†ตํ•ฉ ๊ธฐ๋ฐ˜์„ ํ™•๋ฆฝํ–ˆ๋‹ค.

Feedback Friction: LLMs Struggle to Fully Incorporate External Feedback

Paper, Project
์ด ์—ฐ๊ตฌ๋Š” LLM์ด ์™ธ๋ถ€ ํ”ผ๋“œ๋ฐฑ์„ ํšจ๊ณผ์ ์œผ๋กœ ํ†ตํ•ฉํ•˜๋Š” ๋Šฅ๋ ฅ์„ ์ฒด๊ณ„์ ์œผ๋กœ ์กฐ์‚ฌํ–ˆ๋‹ค. ์—ฐ๊ตฌํŒ€์€ ์†”๋ฒ„ ๋ชจ๋ธ์ด ํ•ด๊ฒฐ์„ ์‹œ๋„ํ•˜๊ณ , ํ”ผ๋“œ๋ฐฑ ์ƒ์„ฑ๊ธฐ๊ฐ€ ํƒ€๊ฒŸ ํ”ผ๋“œ๋ฐฑ์„ ์ œ๊ณตํ•œ ํ›„, ์†”๋ฒ„๊ฐ€ ๋‹ค์‹œ ์‹œ๋„ํ•˜๋Š” ํ†ต์ œ๋œ ์‹คํ—˜ ํ™˜๊ฒฝ์„ ์„ค๊ณ„ํ–ˆ๋‹ค. ์ˆ˜ํ•™ ์ถ”๋ก , ์ง€์‹ ์ถ”๋ก , ๊ณผํ•™ ์ถ”๋ก  ๋“ฑ ๋‹ค์–‘ํ•œ ์ž‘์—…์—์„œ Claude 3.7 ๋“ฑ ์ตœ์‹  ์–ธ์–ด ๋ชจ๋ธ์„ ํ‰๊ฐ€ํ–ˆ๋‹ค. ๋†€๋ž๊ฒŒ๋„ ์ด์ƒ์ ์ธ ์กฐ๊ฑด์—์„œ๋„ ๋ชจ๋ธ๋“ค์ด ํ”ผ๋“œ๋ฐฑ์— ์ €ํ•ญํ•˜๋Š” "ํ”ผ๋“œ๋ฐฑ ๋งˆ์ฐฐ" ํ˜„์ƒ์ด ๋ฐœ๊ฒฌ๋˜์—ˆ๋‹ค. ์—ฐ๊ตฌํŒ€์€ ์ ์ง„์  ์˜จ๋„ ์ฆ๊ฐ€, ์ด์ „ ์˜ค๋‹ต ๋ช…์‹œ์  ๊ฑฐ๋ถ€ ๋“ฑ์˜ ๊ฐœ์„  ์ „๋žต์„ ์‹คํ—˜ํ–ˆ์ง€๋งŒ ์—ฌ์ „ํžˆ ๋ชฉํ‘œ ์„ฑ๋Šฅ์— ๋„๋‹ฌํ•˜์ง€ ๋ชปํ–ˆ๋‹ค. ๋˜ํ•œ ๋ชจ๋ธ ๊ณผ์‹ ๋ขฐ, ๋ฐ์ดํ„ฐ ์นœ์ˆ™๋„ ๋“ฑ ํ”ผ๋“œ๋ฐฑ ๋งˆ์ฐฐ์˜ ์ž ์žฌ์  ์›์ธ์„ ํƒ์ƒ‰ํ–ˆ์œผ๋‚˜ ๋ช…ํ™•ํ•œ ์›์ธ์„ ์ฐพ์ง€ ๋ชปํ–ˆ๋‹ค.

DoTA-RAG: Dynamic of Thought Aggregation RAG

Paper
DoTA-RAG๋Š” ๋Œ€๊ทœ๋ชจ ์›น ์ง€์‹ ์ธ๋ฑ์Šค๋ฅผ ์œ„ํ•œ ์ตœ์ ํ™”๋œ ๊ฒ€์ƒ‰ ์ฆ๊ฐ• ์ƒ์„ฑ ์‹œ์Šคํ…œ์ด๋‹ค. ์ด ์‹œ์Šคํ…œ์€ ์ฟผ๋ฆฌ ์žฌ์ž‘์„ฑ, ์ „๋ฌธํ™”๋œ ํ•˜์œ„ ์ธ๋ฑ์Šค๋กœ์˜ ๋™์  ๋ผ์šฐํŒ…, ๋‹ค๋‹จ๊ณ„ ๊ฒ€์ƒ‰ ๋ฐ ๋žญํ‚น์ด๋ผ๋Š” ์„ธ ๋‹จ๊ณ„ ํŒŒ์ดํ”„๋ผ์ธ์„ ๋„์ž…ํ–ˆ๋‹ค. ์—ฐ๊ตฌํŒ€์€ ์šฐ์ˆ˜ํ•œ ์ž„๋ฒ ๋”ฉ ๋ชจ๋ธ์„ ํ‰๊ฐ€ํ•˜๊ณ  ์„ ํƒํ•˜์—ฌ FineWeb-10BT ์ฝ”ํผ์Šค๋ฅผ ์žฌ์ž„๋ฒ ๋”ฉํ–ˆ์œผ๋ฉฐ, WebOrganizer ์ฃผ์ œ์™€ ํ˜•์‹์— ๊ฑธ์นœ 500๊ฐœ ์งˆ๋ฌธ์œผ๋กœ ๋‹ค์–‘ํ•œ Q&A ๋ฐ์ดํ„ฐ์…‹์„ ์ƒ์„ฑํ–ˆ๋‹ค. DoTA-RAG๋Š” ๊ธฐ์ค€์„ (0.752) ๋Œ€๋น„ ์ •๋‹ต ์ •ํ™•๋„ ์ ์ˆ˜๋ฅผ 1.478๋กœ ํฌ๊ฒŒ ๊ฐœ์„ ํ•˜๋ฉด์„œ๋„ ๋‚ฎ์€ ์ง€์—ฐ์‹œ๊ฐ„์„ ์œ ์ง€ํ–ˆ์œผ๋ฉฐ, Live Challenge Day์—์„œ 0.929์˜ ์ •ํ™•๋„ ์ ์ˆ˜๋ฅผ ๋‹ฌ์„ฑํ–ˆ๋‹ค. ์ด ๊ฒฐ๊ณผ๋Š” DoTA-RAG๊ฐ€ ๋น ๋ฅด๊ณ  ์‹ ๋ขฐํ•  ์ˆ˜ ์žˆ๋Š” ๋Œ€๊ทœ๋ชจ ์ง€์‹ ์†Œ์Šค ์ ‘๊ทผ์ด ํ•„์š”ํ•œ ๋„๋ฉ”์ธ์— ์‹ค์šฉ์ ์œผ๋กœ ๋ฐฐํฌ๋  ์ˆ˜ ์žˆ๋Š” ์ž ์žฌ๋ ฅ์„ ๋ณด์—ฌ์ค€๋‹ค.

Wait, We Don't Need to "Wait"! Removing Thinking Tokens Improves Reasoning Efficiency

Paper
์ด ์—ฐ๊ตฌ๋Š” ๋Œ€๊ทœ๋ชจ ์ถ”๋ก  ๋ชจ๋ธ์˜ ๊ณผ๋„ํ•œ ์‚ฌ๊ณ  ๊ณผ์ •์ด ํšจ์œจ์„ฑ์„ ์ €ํ•ดํ•˜๋Š” ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด ์ง„ํ–‰๋˜์—ˆ๋‹ค. ์—ฐ๊ตฌํŒ€์€ "Wait", "Hmm" ๊ฐ™์€ ๋ช…์‹œ์  ์ž๊ธฐ ์„ฑ์ฐฐ ํ† ํฐ์ด ๊ณ ๊ธ‰ ์ถ”๋ก ์— ํ•„์š”ํ•œ์ง€ ๊ฒ€ํ† ํ–ˆ๋‹ค. ์ด๋ฅผ ๋ฐ”ํƒ•์œผ๋กœ NoWait์ด๋ผ๋Š” ์ ‘๊ทผ๋ฒ•์„ ์ œ์•ˆํ–ˆ๋Š”๋ฐ, ์ด๋Š” ์ถ”๋ก  ์ค‘ ์ด๋Ÿฌํ•œ ํ† ํฐ์„ ์–ต์ œํ•˜์—ฌ ๋ช…์‹œ์  ์ž๊ธฐ ์„ฑ์ฐฐ์„ ๋น„ํ™œ์„ฑํ™”ํ•˜๋Š” ๋ฐฉ๋ฒ•์ด๋‹ค. ํ…์ŠคํŠธ, ์‹œ๊ฐ, ๋น„๋””์˜ค ์ถ”๋ก  ์ž‘์—…์˜ 10๊ฐœ ๋ฒค์น˜๋งˆํฌ์—์„œ ๊ด‘๋ฒ”์œ„ํ•œ ์‹คํ—˜์„ ์ˆ˜ํ–‰ํ•œ ๊ฒฐ๊ณผ, 5๊ฐœ R1 ์Šคํƒ€์ผ ๋ชจ๋ธ ์‹œ๋ฆฌ์ฆˆ์—์„œ ์‚ฌ๊ณ  ๊ณผ์ • ๊ธธ์ด๋ฅผ 27%-51%๊นŒ์ง€ ์ค„์ด๋ฉด์„œ๋„ ๋ชจ๋ธ์˜ ์œ ์šฉ์„ฑ์„ ์œ ์ง€ํ•  ์ˆ˜ ์žˆ์—ˆ๋‹ค. NoWait์€ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ถ”๋ก ์„ ์œ„ํ•œ ์ฆ‰์‹œ ์‚ฌ์šฉ ๊ฐ€๋Šฅํ•œ ํšจ์œจ์ ์ธ ์†”๋ฃจ์…˜์„ ์ œ๊ณตํ•œ๋‹ค.

profile
XR๊ณผ AI์— ๊ด€์‹ฌ์ด ๋งŽ์€ Sky ์ž…๋‹ˆ๋‹ค.

0๊ฐœ์˜ ๋Œ“๊ธ€