[2025/W22] ๐Ÿค— Weekly AI Research

Skyยท2025๋…„ 5์›” 30์ผ

Weekly AI Research Digest

๋ชฉ๋ก ๋ณด๊ธฐ
28/89

AI ๋ชจ๋ธ, ๋ฐ์ดํ„ฐยท์—ฐ์‚ฐ ์ตœ์ ํ™”๋กœ ํšจ์œจ ๊ทน๋Œ€ํ™” ๋ฐ ๋…ผ๋ฆฌยท๋งฅ๋ฝ ๊ธฐ๋ฐ˜ ์ถ”๋ก  ๋Šฅ๋ ฅ ์‹ฌํ™”
์ง€๋Šฅํ˜• ์‘์šฉ, ๊ณผํ•™ยท๊ณตํ•™ ์ž๋™ํ™” ์—์ด์ „ํŠธยท์ฐฝ์˜์  ์ฝ˜ํ…์ธ  ์ƒ์„ฑยท๋ฐ์ดํ„ฐ ์ค‘์‹ฌ ์‹œ์Šคํ…œ ๊ตฌ์ถ•

TL;DR

๋Œ€๊ทœ๋ชจ ์–ธ์–ด/๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๋ชจ๋ธ ์ตœ์ ํ™” ๋ฐ ํšจ์œจํ™” ๋ถ„์•ผ์—์„œ๋Š”, ๋ชจ๋ธ ์ค‘์‹ฌ์—์„œ ๋ฒ—์–ด๋‚˜ ์ž…๋ ฅ ๋ฐ์ดํ„ฐ ์ž์ฒด๋ฅผ ์••์ถ•ํ•˜๋Š” 'Data-Centric Compression' ์œผ๋กœ AI ํšจ์œจ์„ฑ์˜ ํŒจ๋Ÿฌ๋‹ค์ž„์„ ์ „ํ™˜ํ•˜๊ณ  ์žˆ์œผ๋ฉฐ, ๋Œ€ํ˜• ๋ชจ๋ธ์˜ ์ •๊ตํ•œ ๋Šฅ๋ ฅ์„ ์†Œํ˜• ๋ชจ๋ธ๋กœ ํšจ๊ณผ์ ์œผ๋กœ ์ด์ „ํ•˜๋Š” 'Distilling LLM Agent' ๊ธฐ์ˆ ์ด ๋ฐœ์ „ํ•˜๊ณ  ์žˆ๋‹ค. ๋˜ํ•œ, ๊ทนํžˆ ๋‚ฎ์€ ์ •๋ฐ€๋„ ์—ฐ์‚ฐ์„ ํ™œ์šฉํ•˜๋Š” 'Native FP4 Training' ์„ ํ†ตํ•ด LLM์˜ ํ•™์Šต ํšจ์œจ์„ ๊ทน๋Œ€ํ™”ํ•˜๋Š” ํ•œํŽธ, ํ•„์š”์— ๋”ฐ๋ผ ์ง€๋Šฅ์ ์œผ๋กœ ์—ฐ์‚ฐ ๊ฒฝ๋กœ๋ฅผ ์กฐ์ ˆํ•˜์—ฌ ์ถ”๋ก  ๋น„์šฉ์„ ์ ˆ๊ฐํ•˜๋Š” 'Token Routing' ๊ณผ ๊ฐ™์€ ํ˜์‹ ์ ์ธ ์ ‘๊ทผ๋ฒ•๋“ค์ด ์—ฐ๊ตฌ๋˜๊ณ  ์žˆ๋‹ค.

AI์˜ ์ถ”๋ก  ๋Šฅ๋ ฅ ์‹ฌ์ธต ๋ถ„์„ ๋ฐ ๊ฐ•ํ™” ๋ถ„์•ผ์—์„œ๋Š”, ๊ฐ•ํ™”ํ•™์Šต ๊ณผ์ •์—์„œ ๋ฐœ์ƒํ•˜๋Š” 'Entropy Mechanism' ์„ ๊ทœ๋ช…ํ•˜์—ฌ ์–ธ์–ด ๋ชจ๋ธ์˜ ๊พธ์ค€ํ•œ ํƒ์ƒ‰๊ณผ ์„ฑ๋Šฅ ํ–ฅ์ƒ์„ ์ง€์›ํ•˜๊ณ , ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๋ชจ๋ธ์˜ 'Logical Reasoning' ๋Šฅ๋ ฅ์„ ์ข…ํ•ฉ์ ์œผ๋กœ ํ‰๊ฐ€ํ•˜๊ธฐ ์œ„ํ•œ MME-Reasoning๊ณผ ๊ฐ™์€ ์ƒˆ๋กœ์šด ๋ฒค์น˜๋งˆํฌ๊ฐ€ ์ œ์‹œ๋˜๊ณ  ์žˆ๋‹ค. ๋” ๋‚˜์•„๊ฐ€, ๊ฐ•ํ™”ํ•™์Šต์„ ํ†ตํ•ด ๊ธด ๋ฌธ๋งฅ ์ •๋ณด๋ฅผ ํšจ๊ณผ์ ์œผ๋กœ ์ฒ˜๋ฆฌํ•˜๋Š” 'Long-Context Reasoning' ๋ชจ๋ธ(์˜ˆ: QwenLong-L1)์„ ๊ฐœ๋ฐœํ•˜๋ฉฐ, ๋ชจ๋ธ์ด ๋ช…์‹œ์  ์ง€์‹œ๋ฅผ ๋ฌด์‹œํ•˜๊ณ  ๊ธฐ์กด์˜ ์ต์ˆ™ํ•œ ํŒจํ„ด์œผ๋กœ ํšŒ๊ท€ํ•˜๋ ค๋Š” 'Instruction Overriding' ํ˜„์ƒ์„ ์ง„๋‹จํ•˜๊ณ  ํ•ด๊ฒฐ์ฑ…์„ ๋ชจ์ƒ‰ํ•˜๋Š” ๋“ฑ ์ถ”๋ก  ๊ณผ์ •์˜ ๊นŠ์ด ์žˆ๋Š” ์ดํ•ด๋ฅผ ์ถ”๊ตฌํ•˜๊ณ  ์žˆ๋‹ค.

AI ์—์ด์ „ํŠธ, ์‘์šฉ ์‹œ์Šคํ…œ ๋ฐ ๋ฐ์ดํ„ฐ ๊ธฐ๋ฐ˜ ํ˜์‹  ๋ถ„์•ผ์—์„œ๋Š”, ํŠน์ • ๋ชฉํ‘œ์— ๋งž์ถฐ ์˜๋ฏธ๋ก ์  ํ‘œํ˜„์„ ํ•™์Šตํ•˜๋Š” 'Tabular Model' (์˜ˆ: TabSTAR)๊ณผ ๊ฐ™์ด ํŠน์ • ๋ฐ์ดํ„ฐ ์œ ํ˜•์— ์ตœ์ ํ™”๋œ ํŒŒ์šด๋ฐ์ด์…˜ ๋ชจ๋ธ์ด ๊ฐœ๋ฐœ๋˜๊ณ  ์žˆ์œผ๋ฉฐ, ์‹ค์ œ ๊ณผํ•™ ์—ฐ๊ตฌ ํ™˜๊ฒฝ์—์„œ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ 'Autonomous Agents' ์˜ ๋ณต์žกํ•œ ๋ฌธ์ œ ํ•ด๊ฒฐ ๋Šฅ๋ ฅ์„ ํ‰๊ฐ€ํ•˜๋Š” ScienceBoard์™€ ๊ฐ™์€ ํ”Œ๋žซํผ์ด ๊ตฌ์ถ•๋˜๊ณ  ์žˆ๋‹ค. ๋˜ํ•œ, ๊ณผํ•™ ๋…ผ๋ฌธ์œผ๋กœ๋ถ€ํ„ฐ ์ž๋™์œผ๋กœ ํ•™์ˆ  ํฌ์Šคํ„ฐ๋ฅผ ์ƒ์„ฑํ•˜๋Š” 'Poster Automation' ๊ธฐ์ˆ (์˜ˆ: Paper2Poster), ์‹ค์ œ GitHub ๋ฐ์ดํ„ฐ ๊ธฐ๋ฐ˜์œผ๋กœ 'Software Engineering Agents' ์˜ ์ž‘์—…์„ ์ž๋™ํ™”ํ•˜๊ณ  ํ‰๊ฐ€ํ•˜๋Š” SWE-rebench, ๊ทธ๋ฆฌ๊ณ  ๊ณต๊ฐœ ํ…์ŠคํŠธ-์ด๋ฏธ์ง€ ๋ฐ์ดํ„ฐ๋ฅผ ๊ณ ํ’ˆ์งˆ ํ•™์Šต ๋ฐ์ดํ„ฐ์ธ 'Generative Gold' ๋กœ ๋ณ€ํ™˜ํ•˜๋Š” Alchemist์™€ ๊ฐ™์€ ๋ฐ์ดํ„ฐ ์ค‘์‹ฌ์˜ ํ˜์‹ ์ด ๋‘๋“œ๋Ÿฌ์ง„๋‹ค. ์ด๋ฏธ์ง€ ์Šคํƒ€์ผํ™” ๋ถ„์•ผ์—์„œ๋Š” ๋‹ค์–‘ํ•œ ์Šคํƒ€์ผ์— ๊ฑธ์ณ ์‹œ๊ฐ์  ์ผ๊ด€์„ฑ์„ ์œ ์ง€ํ•˜๋Š” 'OmniConsistency' ๊ธฐ์ˆ  ๋“ฑ์„ ํ†ตํ•ด ์‘์šฉ ๋ฒ”์œ„๋ฅผ ๋„“ํžˆ๊ณ  ์žˆ๋‹ค.

๋Œ€๊ทœ๋ชจ ์–ธ์–ด/๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๋ชจ๋ธ ์ตœ์ ํ™” ๋ฐ ํšจ์œจํ™” ๋ถ„์•ผ

Shifting AI Efficiency From Model-Centric to Data-Centric Compression

Paper, Project

๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ(LLM) ๋ฐ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ LLM(MLLM)์€ ๊ทธ๋™์•ˆ ๋ชจ๋ธ์˜ ํŒŒ๋ผ๋ฏธํ„ฐ ์ˆ˜๋ฅผ ๋Š˜๋ ค ์„ฑ๋Šฅ์„ ๋†’์—ฌ์™”๋‹ค. ํ•˜์ง€๋งŒ ํ•˜๋“œ์›จ์–ด ํ•œ๊ณ„์— ๋‹ค๋‹ค๋ฅด๋ฉด์„œ, ์ด์ œ๋Š” ๊ธด ํ† ํฐ ์‹œํ€€์Šค์— ๋Œ€ํ•œ ์—ฐ์‚ฐ ๋น„์šฉ(ํŠนํžˆ ์…€ํ”„ ์–ดํ…์…˜์˜ ์ œ๊ณฑ ๋น„์šฉ)์ด ์ฃผ์š” ๋ณ‘๋ชฉ ์ง€์ ์ด ๋˜์—ˆ๋‹ค. ์ด๋Š” ์ดˆ์žฅ๋ฌธ ํ…์ŠคํŠธ, ๊ณ ํ•ด์ƒ๋„ ์ด๋ฏธ์ง€, ๊ธด ๋น„๋””์˜ค ๋“ฑ์œผ๋กœ ์ธํ•ด ๋”์šฑ ์‹ฌํ™”๋˜๊ณ  ์žˆ๋‹ค. ์ด ๋…ผ๋ฌธ์€ AI ํšจ์œจ์„ฑ ์—ฐ๊ตฌ์˜ ์ดˆ์ ์ด ๋ชจ๋ธ ์ค‘์‹ฌ ์••์ถ•์—์„œ ๋ฐ์ดํ„ฐ ์ค‘์‹ฌ ์••์ถ•, ์ฆ‰ ํ† ํฐ ์••์ถ•์œผ๋กœ ์ด๋™ํ•˜๊ณ  ์žˆ๋‹ค๊ณ  ์ฃผ์žฅํ•œ๋‹ค. ํ† ํฐ ์••์ถ•์€ ๋ชจ๋ธ ํ›ˆ๋ จ ๋˜๋Š” ์ถ”๋ก  ์‹œ ํ† ํฐ ์ˆ˜๋ฅผ ์ค„์—ฌ AI ํšจ์œจ์„ฑ์„ ๋†’์ด๋Š” ์ƒˆ๋กœ์šด ์ ‘๊ทผ ๋ฐฉ์‹์ด๋ฉฐ, ๊ธด ์ปจํ…์ŠคํŠธ๋กœ ์ธํ•œ ์˜ค๋ฒ„ํ—ค๋“œ๋ฅผ ํ•ด๊ฒฐํ•˜๋Š” ์ค‘์š”ํ•œ ํŒจ๋Ÿฌ๋‹ค์ž„ ์ „ํ™˜์ž„์„ ๊ฐ•์กฐํ•œ๋‹ค. ๋˜ํ•œ ํ† ํฐ ์••์ถ• ์—ฐ๊ตฌ์˜ ํ˜„ํ™ฉ, ์ด์ , ๋‹น๋ฉด ๊ณผ์ œ ๋ฐ ๋ฏธ๋ž˜ ๋ฐฉํ–ฅ์„ ์ œ์‹œํ•œ๋‹ค.

Distilling LLM Agent into Small Models with Retrieval and Code Tools

Paper, Project
๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ(LLM)์€ ๋ณต์žกํ•œ ์ถ”๋ก  ์ž‘์—…์— ๋›ฐ์–ด๋‚˜์ง€๋งŒ ๊ณ„์‚ฐ ๋น„์šฉ์ด ๋งŽ์ด ๋“ค์–ด ์‹ค์ œ ๋ฐฐํฌ๊ฐ€ ์ œํ•œ์ ์ด๋‹ค. ์ด๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด ์ตœ๊ทผ ์—ฐ๊ตฌ๋“ค์€ ๊ต์‚ฌ LLM์˜ ์—ฐ์‡„์  ์‚ฌ๊ณ (CoT) ์ถ”์ ์„ ์‚ฌ์šฉํ•˜์—ฌ ์ถ”๋ก  ๋Šฅ๋ ฅ์„ ์†Œํ˜• ์–ธ์–ด ๋ชจ๋ธ(sLM)๋กœ ์ฆ๋ฅ˜ํ•˜๋Š” ๋ฐ ์ดˆ์ ์„ ๋งž์ถ”์—ˆ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ์ด ์ ‘๊ทผ ๋ฐฉ์‹์€ ํฌ๊ท€ํ•œ ์‚ฌ์‹ค์  ์ง€์‹์ด๋‚˜ ์ •๋ฐ€ํ•œ ๊ณ„์‚ฐ์ด ํ•„์š”ํ•œ ์‹œ๋‚˜๋ฆฌ์˜ค์—์„œ sLM์ด ์ œํ•œ๋œ ๋Šฅ๋ ฅ์œผ๋กœ ์ธํ•ด ํ™˜๊ฐ์„ ์ผ์œผํ‚ค๋Š” ๋ฌธ์ œ์— ์ง๋ฉดํ•œ๋‹ค. ์ด ๋…ผ๋ฌธ์€ ์ถ”๋ก  ๋Šฅ๋ ฅ๋ฟ๋งŒ ์•„๋‹ˆ๋ผ LLM ๊ธฐ๋ฐ˜ ์—์ด์ „ํŠธ์˜ ์ „์ฒด ์ž‘์—… ํ•ด๊ฒฐ ํ–‰๋™์„ ๊ฒ€์ƒ‰ ๋ฐ ์ฝ”๋“œ ๋„๊ตฌ๋ฅผ ๊ฐ–์ถ˜ sLM์œผ๋กœ ์ด์ „ํ•˜๋Š” ์—์ด์ „ํŠธ ์ฆ๋ฅ˜(Agent Distillation) ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ œ์•ˆํ•œ๋‹ค. (1) ๊ต์‚ฌ๊ฐ€ ์ƒ์„ฑํ•œ ๊ถค์ ์˜ ํ’ˆ์งˆ์„ ํ–ฅ์ƒ์‹œํ‚ค๊ธฐ ์œ„ํ•œ "์ฒซ ์ƒ๊ฐ ์ ‘๋‘์‚ฌ(first-thought prefix)" ํ”„๋กฌํ”„ํŒ… ๋ฐฉ๋ฒ•๊ณผ (2) ์†Œํ˜• ์—์ด์ „ํŠธ์˜ ํ…Œ์ŠคํŠธ ์‹œ๊ฐ„ ๊ฐ•๊ฑด์„ฑ์„ ํ–ฅ์ƒ์‹œํ‚ค๊ธฐ ์œ„ํ•œ ์ž๊ธฐ ์ผ๊ด€์  ํ–‰๋™ ์ƒ์„ฑ(self-consistent action generation)์„ ์ œ์•ˆํ•œ๋‹ค. ์‚ฌ์‹ค ๋ฐ ์ˆ˜ํ•™ ์˜์—ญ์— ๊ฑธ์ณ 8๊ฐ€์ง€ ์ถ”๋ก  ์ž‘์—…์—์„œ ์ด ๋ฐฉ๋ฒ•์„ ํ‰๊ฐ€ํ•œ ๊ฒฐ๊ณผ, 0.5B, 1.5B, 3B ํŒŒ๋ผ๋ฏธํ„ฐ๋งŒํผ ์ž‘์€ sLM๋„ CoT ์ฆ๋ฅ˜๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ๋ฏธ์„ธ ์กฐ์ •๋œ ๋‹ค์Œ ๋‹จ๊ณ„์˜ ๋” ํฐ 1.5B, 3B, 7B ๋ชจ๋ธ๊ณผ ๊ฒฝ์Ÿ๋ ฅ ์žˆ๋Š” ์„ฑ๋Šฅ์„ ๋‹ฌ์„ฑํ•  ์ˆ˜ ์žˆ์Œ์„ ๋ณด์—ฌ์ค€๋‹ค.

Quartet: Native FP4 Training Can Be Optimal for Large Language Models

Paper, Project
๋Œ€ํ˜• ์–ธ์–ด ๋ชจ๋ธ(LLM)์˜ ๊ธ‰์†ํ•œ ๋ฐœ์ „์€ ์ „๋ก€ ์—†๋Š” ๊ณ„์‚ฐ ์š”๊ตฌ๋Ÿ‰ ์ฆ๊ฐ€์™€ ํ•จ๊ป˜ ์ด๋ฃจ์–ด์กŒ์œผ๋ฉฐ, ์ตœ์ฒจ๋‹จ ๋ชจ๋ธ์˜ ํ•™์Šต ๋น„์šฉ์€ ๋ช‡ ๋‹ฌ๋งˆ๋‹ค ๋‘ ๋ฐฐ๋กœ ์ฆ๊ฐ€ํ•˜๊ณ  ์žˆ๋‹ค. ๋ชจ๋ธ์„ ์ €์ •๋ฐ€๋„ ์‚ฐ์ˆ ๋กœ ์ง์ ‘ ํ•™์Šตํ•˜๋ฉด ๊ณ„์‚ฐ ์ฒ˜๋ฆฌ๋Ÿ‰๊ณผ ์—๋„ˆ์ง€ ํšจ์œจ์„ฑ์„ ๋ชจ๋‘ ํ–ฅ์ƒ์‹œ์ผœ ํ•ด๊ฒฐ์ฑ…์„ ์ œ๊ณตํ•  ์ˆ˜ ์žˆ๋‹ค. ํŠนํžˆ NVIDIA์˜ ์ตœ์‹  Blackwell ์•„ํ‚คํ…์ฒ˜๋Š” FP4 ๋ณ€ํ˜•๊ณผ ๊ฐ™์€ ๊ทนํžˆ ๋‚ฎ์€ ์ •๋ฐ€๋„ ์—ฐ์‚ฐ์„ ์šฉ์ดํ•˜๊ฒŒ ํ•˜์—ฌ ์ƒ๋‹นํ•œ ํšจ์œจ์„ฑ ํ–ฅ์ƒ์„ ์•ฝ์†ํ•œ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ FP4 ์ •๋ฐ€๋„๋กœ LLM์„ ํ•™์Šตํ•˜๊ธฐ ์œ„ํ•œ ํ˜„์žฌ ์•Œ๊ณ ๋ฆฌ์ฆ˜์€ ์ƒ๋‹นํ•œ ์ •ํ™•๋„ ์ €ํ•˜์— ์ง๋ฉดํ•˜๊ณ  ์ข…์ข… ํ˜ผํ•ฉ ์ •๋ฐ€๋„ ๋Œ€์ฒด์— ์˜์กดํ•œ๋‹ค. ์ด ๋…ผ๋ฌธ์€ ํ•˜๋“œ์›จ์–ด ์ง€์› FP4 ํ•™์Šต์„ ์ฒด๊ณ„์ ์œผ๋กœ ์กฐ์‚ฌํ•˜๊ณ , ๋ชจ๋“  ์ฃผ์š” ๊ณ„์‚ฐ(์˜ˆ: ์„ ํ˜• ๊ณ„์ธต)์ด ์ €์ •๋ฐ€๋„๋กœ ์ˆ˜ํ–‰๋˜๋Š” ์ •ํ™•ํ•œ ์—”๋“œํˆฌ์—”๋“œ FP4 ํ•™์Šต์„ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•˜๋Š” ์ƒˆ๋กœ์šด ์ ‘๊ทผ ๋ฐฉ์‹์ธ Quartet์„ ์†Œ๊ฐœํ•œ๋‹ค. Llama ์œ ํ˜• ๋ชจ๋ธ์— ๋Œ€ํ•œ ๊ด‘๋ฒ”์œ„ํ•œ ํ‰๊ฐ€๋ฅผ ํ†ตํ•ด ๋‹ค์–‘ํ•œ ๋น„ํŠธ ํญ์— ๊ฑธ์ณ ์„ฑ๋Šฅ ์ ˆ์ถฉ์•ˆ์„ ์ •๋Ÿ‰ํ™”ํ•˜๋Š” ์ƒˆ๋กœ์šด ์ €์ •๋ฐ€๋„ ์Šค์ผ€์ผ๋ง ๋ฒ•์น™์„ ๋ฐํ˜€๋‚ด๊ณ , ์ •ํ™•๋„ ๋Œ€ ๊ณ„์‚ฐ ์ธก๋ฉด์—์„œ "๊ฑฐ์˜ ์ตœ์ "์ธ ์ €์ •๋ฐ€๋„ ํ•™์Šต ๊ธฐ์ˆ ์ธ Quartet์„ ์‹๋ณ„ํ•œ๋‹ค. NVIDIA Blackwell GPU์— ๋งž์ถคํ™”๋œ ์ตœ์ ํ™”๋œ CUDA ์ปค๋„์„ ์‚ฌ์šฉํ•˜์—ฌ Quartet์„ ๊ตฌํ˜„ํ•˜๊ณ , FP4 ์ •๋ฐ€๋„์— ๋Œ€ํ•œ ์ตœ์ฒจ๋‹จ ์ •ํ™•๋„๋ฅผ ๋‹ฌ์„ฑํ•˜์—ฌ ์ˆ˜์‹ญ์–ต ๊ทœ๋ชจ ๋ชจ๋ธ์„ ์„ฑ๊ณต์ ์œผ๋กœ ํ•™์Šตํ•  ์ˆ˜ ์žˆ์Œ์„ ๋ณด์—ฌ์ค€๋‹ค. ์ด ๋ฐฉ๋ฒ•์€ ์™„์ „ FP4 ๊ธฐ๋ฐ˜ ํ•™์Šต์ด ํ‘œ์ค€ ์ •๋ฐ€๋„ ๋ฐ FP8 ํ•™์Šต์— ๋Œ€ํ•œ ๊ฒฝ์Ÿ๋ ฅ ์žˆ๋Š” ๋Œ€์•ˆ์ž„์„ ์ž…์ฆํ•œ๋‹ค.

R2R: Efficiently Navigating Divergent Reasoning Paths with Small-Large Model Token Routing

Paper, Project
๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ(LLM)์€ ์ƒ๋‹นํ•œ ์ถ”๋ก  ์˜ค๋ฒ„ํ—ค๋“œ๋ฅผ ๋Œ€๊ฐ€๋กœ ์ธ์ƒ์ ์ธ ์ถ”๋ก  ๋Šฅ๋ ฅ์„ ๋‹ฌ์„ฑํ•˜์—ฌ ์ƒ๋‹นํ•œ ๋ฐฐํฌ ๋ฌธ์ œ๋ฅผ ์•ผ๊ธฐํ•œ๋‹ค. ์ฆ๋ฅ˜๋œ ์†Œํ˜• ์–ธ์–ด ๋ชจ๋ธ(SLM)์€ ํšจ์œจ์„ฑ์„ ํฌ๊ฒŒ ํ–ฅ์ƒ์‹œํ‚ค์ง€๋งŒ, LLM์˜ ์ถ”๋ก  ๊ฒฝ๋กœ๋ฅผ ๋”ฐ๋ฅด์ง€ ๋ชปํ•ด ์„ฑ๋Šฅ์ด ์ €ํ•˜๋œ๋‹ค. ๋‹คํ–‰ํžˆ๋„, ์ด ๋…ผ๋ฌธ์€ LLM๊ณผ SLM ๊ฐ„์˜ ์ถ”๋ก  ๊ฒฝ๋กœ๋ฅผ ์‹ค์ œ๋กœ ๋ถ„๊ธฐ์‹œํ‚ค๋Š” ํ† ํฐ์€ ๊ทน์†Œ์ˆ˜์— ๋ถˆ๊ณผํ•˜๋‹ค๋Š” ์‚ฌ์‹ค์„ ๋ฐํ˜€๋ƒˆ๋‹ค. ๋Œ€๋ถ€๋ถ„์˜ ์ƒ์„ฑ๋œ ํ† ํฐ์€ ๋™์ผํ•˜๊ฑฐ๋‚˜ ์•ฝ์–ด ๋˜๋Š” ํ‘œํ˜„์˜ ์‚ฌ์†Œํ•œ ์ฐจ์ด์™€ ๊ฐ™์€ ์ค‘๋ฆฝ์ ์ธ ์ฐจ์ด๋ฅผ ๋ณด์ธ๋‹ค. ์ด๋Ÿฌํ•œ ํ†ต์ฐฐ์„ ํ™œ์šฉํ•˜์—ฌ, Roads to Rome (R2R)์ด๋ผ๋Š” ์‹ ๊ฒฝ๋ง ํ† ํฐ ๋ผ์šฐํŒ… ๋ฐฉ๋ฒ•์„ ์†Œ๊ฐœํ•œ๋‹ค. R2R์€ ์ด๋Ÿฌํ•œ ์ค‘์š”ํ•˜๊ณ  ๊ฒฝ๋กœ๊ฐ€ ๋ถ„๊ธฐ๋˜๋Š” ํ† ํฐ์— ๋Œ€ํ•ด์„œ๋งŒ ์„ ํƒ์ ์œผ๋กœ LLM์„ ์‚ฌ์šฉํ•˜๊ณ , ๋Œ€๋ถ€๋ถ„์˜ ํ† ํฐ ์ƒ์„ฑ์€ SLM์— ๋งก๊ธด๋‹ค. ๋˜ํ•œ ๋ถ„๊ธฐ ํ† ํฐ์„ ์‹๋ณ„ํ•˜๊ณ  ๊ฐ€๋ฒผ์šด ๋ผ์šฐํ„ฐ๋ฅผ ํ›ˆ๋ จ์‹œํ‚ค๊ธฐ ์œ„ํ•ด ํ† ํฐ ์ˆ˜์ค€ ๋ผ์šฐํŒ… ๋ ˆ์ด๋ธ”์„ ์ƒ์„ฑํ•˜๋Š” ์ž๋™ ๋ฐ์ดํ„ฐ ์ƒ์„ฑ ํŒŒ์ดํ”„๋ผ์ธ๋„ ๊ฐœ๋ฐœํ–ˆ๋‹ค. R2R์„ DeepSeek ์ œํ’ˆ๊ตฐ์˜ R1-1.5B ๋ฐ R1-32B ๋ชจ๋ธ ๊ฒฐํ•ฉ์— ์ ์šฉํ•˜๊ณ , ์–ด๋ ค์šด ์ˆ˜ํ•™, ์ฝ”๋”ฉ ๋ฐ QA ๋ฒค์น˜๋งˆํฌ์—์„œ ํ‰๊ฐ€ํ–ˆ๋‹ค. ํ‰๊ท  ํ™œ์„ฑํ™” ํŒŒ๋ผ๋ฏธํ„ฐ ํฌ๊ธฐ๊ฐ€ 5.6B์ธ R2R์€ R1-7B์˜ ํ‰๊ท  ์ •ํ™•๋„๋ฅผ 1.6๋ฐฐ ๋Šฅ๊ฐ€ํ•˜๋ฉฐ R1-14B ๋ชจ๋ธ๋ณด๋‹ค๋„ ์šฐ์ˆ˜ํ•œ ์„ฑ๋Šฅ์„ ๋ณด์˜€๋‹ค. R1-32B์— ๋น„ํ•ด ์œ ์‚ฌํ•œ ์„ฑ๋Šฅ์œผ๋กœ 2.8๋ฐฐ์˜ ์‹ค์ œ ์‹œ๊ฐ„ ์†๋„ ํ–ฅ์ƒ์„ ์ œ๊ณตํ•˜์—ฌ ํ…Œ์ŠคํŠธ ์‹œ๊ฐ„ ํ™•์žฅ ํšจ์œจ์„ฑ์˜ ํŒŒ๋ ˆํ†  ํ”„๋ก ํ‹ฐ์–ด๋ฅผ ๋ฐœ์ „์‹œํ‚จ๋‹ค.

AI์˜ ์ถ”๋ก  ๋Šฅ๋ ฅ ์‹ฌ์ธต ๋ถ„์„ ๋ฐ ๊ฐ•ํ™” ๋ถ„์•ผ

The Entropy Mechanism of Reinforcement Learning for Reasoning Language Models

Paper, Project
๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ(LLM)์„ ์‚ฌ์šฉํ•œ ์ถ”๋ก ์— ๊ฐ•ํ™”ํ•™์Šต(RL)์„ ์ ์šฉํ•  ๋•Œ ์ฃผ์š” ์žฅ์• ๋ฌผ์€ ์ •์ฑ… ์—”ํŠธ๋กœํ”ผ์˜ ๋ถ•๊ดด์ด๋‹ค. ์—”ํŠธ๋กœํ”ผ ๊ฐœ์ž… ์—†์ด ๊ฐ•ํ™”ํ•™์Šต์„ ์‹คํ–‰ํ•˜๋ฉด ์ •์ฑ… ์—”ํŠธ๋กœํ”ผ๊ฐ€ ํ›ˆ๋ จ ์ดˆ๊ธฐ์— ๊ธ‰๊ฒฉํžˆ ๊ฐ์†Œํ•˜์—ฌ ํƒ์ƒ‰ ๋Šฅ๋ ฅ์ด ์ €ํ•˜๋˜๊ณ  ์ •์ฑ… ์„ฑ๋Šฅ์ด ์ •์ฒด๋˜๋Š” ํ˜„์ƒ์ด ์ผ๊ด€๋˜๊ฒŒ ๊ด€์ฐฐ๋œ๋‹ค. ์ด ๋…ผ๋ฌธ์€ ์—”ํŠธ๋กœํ”ผ(H)์™€ ๋‹ค์šด์ŠคํŠธ๋ฆผ ์„ฑ๋Šฅ(R) ์‚ฌ์ด์— R=โˆ’aโ‹…e^H+b ๋ผ๋Š” ๊ฒฝํ—˜์  ๊ด€๊ณ„์‹์„ ์ •๋ฆฝํ•œ๋‹ค. ์ด๋Š” ์ •์ฑ… ์„ฑ๋Šฅ์ด ์ •์ฑ… ์—”ํŠธ๋กœํ”ผ๋ฅผ ์†Œ๋ชจํ•˜์—ฌ ์–ป์–ด์ง€๋ฉฐ, ์—”ํŠธ๋กœํ”ผ ๊ณ ๊ฐˆ๋กœ ์ธํ•ด ๋ณ‘๋ชฉ ํ˜„์ƒ์ด ๋ฐœ์ƒํ•จ์„ ์‹œ์‚ฌํ•œ๋‹ค. ์—ฐ๊ตฌ์ง„์€ ์—”ํŠธ๋กœํ”ผ ์—ญํ•™์„ ์ด๋ก ์ , ๊ฒฝํ—˜์ ์œผ๋กœ ์กฐ์‚ฌํ•˜์—ฌ ์ •์ฑ… ์—”ํŠธ๋กœํ”ผ ๋ณ€ํ™”๊ฐ€ ํ–‰๋™ ํ™•๋ฅ ๊ณผ ๋กœ์ง“ ๋ณ€ํ™” ๊ฐ„์˜ ๊ณต๋ถ„์‚ฐ์— ์˜ํ•ด ์ฃผ๋„๋จ์„ ๋ฐํ˜€๋ƒˆ๋‹ค. ์ด๋Ÿฌํ•œ ์ดํ•ด๋ฅผ ๋ฐ”ํƒ•์œผ๋กœ, ๊ณต๋ถ„์‚ฐ์ด ๋†’์€ ํ† ํฐ์˜ ์—…๋ฐ์ดํŠธ๋ฅผ ์ œํ•œํ•˜๋Š” Clip-Cov์™€ KL-Cov๋ผ๋Š” ๋‘ ๊ฐ€์ง€ ๊ฐ„๋‹จํ•˜๋ฉด์„œ๋„ ํšจ๊ณผ์ ์ธ ๊ธฐ๋ฒ•์„ ์ œ์•ˆํ•˜์—ฌ ์—”ํŠธ๋กœํ”ผ ๋ถ•๊ดด๋ฅผ ๋ง‰๊ณ  ๋” ๋‚˜์€ ์„ฑ๋Šฅ์„ ๋‹ฌ์„ฑํ•˜๋„๋ก ๋•๋Š”๋‹ค.

MME-Reasoning: A Comprehensive Benchmark for Logical Reasoning in MLLMs

Paper, Project
๋…ผ๋ฆฌ์  ์ถ”๋ก ์€ ์ธ๊ฐ„ ์ง€๋Šฅ์˜ ๊ธฐ๋ณธ์ด๋ฉฐ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๋Œ€ํ˜• ์–ธ์–ด ๋ชจ๋ธ(MLLM)์˜ ํ•„์ˆ˜ ๊ธฐ๋Šฅ์ด๋‹ค. ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ถ”๋ก ์ด ํฌ๊ฒŒ ๋ฐœ์ „ํ–ˆ์Œ์—๋„ ๋ถˆ๊ตฌํ•˜๊ณ , ๊ธฐ์กด ๋ฒค์น˜๋งˆํฌ๋Š” ๋…ผ๋ฆฌ์  ์ถ”๋ก  ์œ ํ˜•์— ๋Œ€ํ•œ ๋ช…ํ™•ํ•œ ๋ถ„๋ฅ˜ ๋ถ€์กฑ๊ณผ ์ถ”๋ก ์— ๋Œ€ํ•œ ๋ถˆ๋ถ„๋ช…ํ•œ ์ดํ•ด๋กœ ์ธํ•ด ์ถ”๋ก  ๋Šฅ๋ ฅ์„ ์ข…ํ•ฉ์ ์œผ๋กœ ํ‰๊ฐ€ํ•˜์ง€ ๋ชปํ•œ๋‹ค. ์ด๋Ÿฌํ•œ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด, ์ด ๋…ผ๋ฌธ์€ MME-Reasoning์ด๋ผ๋Š” MLLM์˜ ์ถ”๋ก  ๋Šฅ๋ ฅ ํ‰๊ฐ€๋ฅผ ์œ„ํ•œ ํฌ๊ด„์ ์ธ ๋ฒค์น˜๋งˆํฌ๋ฅผ ์†Œ๊ฐœํ•œ๋‹ค. ์ด ๋ฒค์น˜๋งˆํฌ๋Š” ๊ท€๋‚ฉ์ , ์—ฐ์—ญ์ , ๊ท€์ถ”์  ์ถ”๋ก ์˜ ์„ธ ๊ฐ€์ง€ ์œ ํ˜•์„ ๋ชจ๋‘ ํฌํ•จํ•œ๋‹ค. ๊ฐ ์งˆ๋ฌธ์ด ์ง€๊ฐ ๋Šฅ๋ ฅ์ด๋‚˜ ์ง€์‹์˜ ํญ์ด ์•„๋‹Œ ์ถ”๋ก  ๋Šฅ๋ ฅ์„ ํšจ๊ณผ์ ์œผ๋กœ ํ‰๊ฐ€ํ•˜๋„๋ก ๋ฐ์ดํ„ฐ๋ฅผ ์‹ ์ค‘ํ•˜๊ฒŒ ์„ ๋ณ„ํ–ˆ์œผ๋ฉฐ, ๋‹ค์–‘ํ•œ ์งˆ๋ฌธ ํ‰๊ฐ€๋ฅผ ํฌ๊ด„ํ•˜๋„๋ก ํ‰๊ฐ€ ํ”„๋กœํ† ์ฝœ์„ ํ™•์žฅํ–ˆ๋‹ค. ํ‰๊ฐ€ ๊ฒฐ๊ณผ, ์ตœ์ฒจ๋‹จ MLLM์กฐ์ฐจ๋„ ์ข…ํ•ฉ์ ์ธ ๋…ผ๋ฆฌ์  ์ถ”๋ก  ๋Šฅ๋ ฅ์—์„œ ์ƒ๋‹นํ•œ ํ•œ๊ณ„๋ฅผ ๋ณด์˜€์œผ๋ฉฐ, ์ถ”๋ก  ์œ ํ˜•์— ๋”ฐ๋ผ ์„ฑ๋Šฅ ๋ถˆ๊ท ํ˜•์ด ๋‘๋“œ๋Ÿฌ์กŒ๋‹ค. ๋˜ํ•œ, "์‚ฌ๊ณ  ๋ชจ๋“œ"๋‚˜ ๊ทœ์น™ ๊ธฐ๋ฐ˜ RL๊ณผ ๊ฐ™์ด ์ถ”๋ก  ๋Šฅ๋ ฅ์„ ํ–ฅ์ƒ์‹œํ‚จ๋‹ค๊ณ  ์ผ๋ฐ˜์ ์œผ๋กœ ์•Œ๋ ค์ง„ ์ ‘๊ทผ ๋ฐฉ์‹์— ๋Œ€ํ•œ ์‹ฌ์ธต ๋ถ„์„๋„ ์ˆ˜ํ–‰ํ–ˆ๋‹ค.

QwenLong-L1: Towards Long-Context Large Reasoning Models with Reinforcement Learning

Paper, Project
์ตœ๊ทผ ๋Œ€ํ˜• ์ถ”๋ก  ๋ชจ๋ธ(LRM)์€ ๊ฐ•ํ™”ํ•™์Šต(RL)์„ ํ†ตํ•ด ๊ฐ•๋ ฅํ•œ ์ถ”๋ก  ๋Šฅ๋ ฅ์„ ๋ณด์—ฌ์ฃผ์—ˆ์ง€๋งŒ, ์ด๋Š” ์ฃผ๋กœ ์งง์€ ์ปจํ…์ŠคํŠธ์˜ ์ถ”๋ก  ์ž‘์—…์—์„œ ๊ด€์ฐฐ๋˜์—ˆ๋‹ค. ๋ฐ˜๋ฉด, RL์„ ํ†ตํ•ด LRM์ด ๊ธด ์ปจํ…์ŠคํŠธ ์ž…๋ ฅ์„ ํšจ๊ณผ์ ์œผ๋กœ ์ฒ˜๋ฆฌํ•˜๊ณ  ์ถ”๋ก ํ•˜๋„๋ก ํ™•์žฅํ•˜๋Š” ๊ฒƒ์€ ์—ฌ์ „ํžˆ ์ค‘์š”ํ•œ ๋ฏธํ•ด๊ฒฐ ๊ณผ์ œ์ด๋‹ค. ์ด ๋…ผ๋ฌธ์€ ๋จผ์ € ์žฅ๋ฌธ ์ปจํ…์ŠคํŠธ ์ถ”๋ก  RL์˜ ํŒจ๋Ÿฌ๋‹ค์ž„์„ ๊ณต์‹ํ™”ํ•˜๊ณ , ๋น„์ตœ์  ํ›ˆ๋ จ ํšจ์œจ์„ฑ ๋ฐ ๋ถˆ์•ˆ์ •ํ•œ ์ตœ์ ํ™” ๊ณผ์ •์ด๋ผ๋Š” ์ฃผ์š” ๊ณผ์ œ๋ฅผ ์‹๋ณ„ํ•œ๋‹ค. ์ด๋Ÿฌํ•œ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด, QwenLong-L1์ด๋ผ๋Š” ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ œ์•ˆํ•˜์—ฌ ์ ์ง„์ ์ธ ์ปจํ…์ŠคํŠธ ํ™•์žฅ์„ ํ†ตํ•ด ์งง์€ ์ปจํ…์ŠคํŠธ LRM์„ ์žฅ๋ฌธ ์ปจํ…์ŠคํŠธ ์‹œ๋‚˜๋ฆฌ์˜ค์— ์ ์šฉํ•œ๋‹ค. ๊ตฌ์ฒด์ ์œผ๋กœ, ๊ฐ•๋ ฅํ•œ ์ดˆ๊ธฐ ์ •์ฑ…์„ ๊ตฌ์ถ•ํ•˜๊ธฐ ์œ„ํ•œ ์ค€๋น„ ์ง€๋„ ๋ฏธ์„ธ ์กฐ์ •(SFT) ๋‹จ๊ณ„๋ฅผ ์‚ฌ์šฉํ•˜๊ณ , ์ •์ฑ… ์ง„ํ™”๋ฅผ ์•ˆ์ •ํ™”ํ•˜๊ธฐ ์œ„ํ•œ ์ปค๋ฆฌํ˜๋Ÿผ ๊ธฐ๋ฐ˜ ๋‹จ๊ณ„์  RL ๊ธฐ๋ฒ•, ๊ทธ๋ฆฌ๊ณ  ์ •์ฑ… ํƒ์ƒ‰์„ ์žฅ๋ คํ•˜๊ธฐ ์œ„ํ•œ ๋‚œ์ด๋„ ์ธ์‹ ํšŒ๊ณ ์  ์ƒ˜ํ”Œ๋ง ์ „๋žต์œผ๋กœ ๊ฐ•ํ™”ํ•œ๋‹ค. 7๊ฐœ์˜ ์žฅ๋ฌธ ๋ฌธ์„œ ์งˆ์˜์‘๋‹ต ๋ฒค์น˜๋งˆํฌ ์‹คํ—˜์—์„œ QwenLong-L1-32B๋Š” OpenAI-o3-mini ๋ฐ Qwen3-235B-A22B์™€ ๊ฐ™์€ ๋Œ€ํ‘œ์ ์ธ LRM์„ ๋Šฅ๊ฐ€ํ•˜๊ณ  Claude-3.7-Sonnet-Thinking๊ณผ ๋™๋“ฑํ•œ ์„ฑ๋Šฅ์„ ๋‹ฌ์„ฑํ•˜์—ฌ ์ตœ์ฒจ๋‹จ LRM ์ค‘ ์ตœ๊ณ ์˜ ์„ฑ๋Šฅ์„ ๋ณด์—ฌ์ค€๋‹ค.

Reasoning Model is Stubborn: Diagnosing Instruction Overriding in Reasoning Models

Paper, Project
๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ์€ ๊ธธ๊ณ  ๋ณต์žกํ•œ ์ถ”๋ก  ์ž‘์—…์—์„œ ๋†€๋ผ์šด ๋Šฅ์ˆ™ํ•จ์„ ๋ณด์—ฌ์ฃผ์—ˆ์ง€๋งŒ, ์ต์ˆ™ํ•œ ์ถ”๋ก  ํŒจํ„ด์— ๋ฌธ์ œ๊ฐ€ ๋  ์ •๋„๋กœ ์˜์กดํ•˜๋Š” ๊ฒฝํ–ฅ์„ ์ž์ฃผ ๋ณด์ด๋Š”๋ฐ, ์ด๋ฅผ ์ถ”๋ก  ๊ฒฝ์ง์„ฑ(reasoning rigidity)์ด๋ผ๊ณ  ๋ช…๋ช…ํ•œ๋‹ค. ์‚ฌ์šฉ์ž์˜ ๋ช…์‹œ์ ์ธ ์ง€์‹œ์—๋„ ๋ถˆ๊ตฌํ•˜๊ณ  ์ด๋Ÿฌํ•œ ๋ชจ๋ธ์€ ๋ช…ํ™•ํ•˜๊ฒŒ ๋ช…์‹œ๋œ ์กฐ๊ฑด์„ ๋ฌด์‹œํ•˜๊ณ  ์Šต๊ด€์ ์ธ ์ถ”๋ก  ๊ฒฝ๋กœ๋กœ ๊ธฐ๋ณธ ์„ค์ •๋˜์–ด ์ž˜๋ชป๋œ ๊ฒฐ๋ก ์„ ๋‚ด๋ฆฐ๋‹ค. ์ด๋Ÿฌํ•œ ํ–‰๋™์€ ํŠนํžˆ ์ˆ˜ํ•™ ๋ฐ ๋…ผ๋ฆฌ ํผ์ฆ๊ณผ ๊ฐ™์ด ์ง€์ •๋œ ์ œ์•ฝ ์กฐ๊ฑด์— ๋Œ€ํ•œ ์ •ํ™•ํ•œ ์ค€์ˆ˜๊ฐ€ ์ค‘์š”ํ•œ ์˜์—ญ์—์„œ ์‹ฌ๊ฐํ•œ ๋ฌธ์ œ๋ฅผ ์•ผ๊ธฐํ•œ๋‹ค. ์ด์ „ ์—ฐ๊ตฌ์—์„œ ๊ฑฐ์˜ ํƒ๊ตฌ๋˜์ง€ ์•Š์€ ํ–‰๋™์ธ ์ถ”๋ก  ๊ฒฝ์ง์„ฑ์„ ์ฒด๊ณ„์ ์œผ๋กœ ์กฐ์‚ฌํ•˜๊ธฐ ์œ„ํ•ด, ์ „๋ฌธ๊ฐ€๊ฐ€ ์„ ๋ณ„ํ•œ ์ง„๋‹จ ์„ธํŠธ๋ฅผ ์†Œ๊ฐœํ•œ๋‹ค. ์ด ๋ฐ์ดํ„ฐ์…‹์—๋Š” ๊ธฐ์กด ์ˆ˜ํ•™ ๋ฒค์น˜๋งˆํฌ์ธ AIME ๋ฐ MATH500์˜ ํŠน๋ณ„ํžˆ ์ˆ˜์ •๋œ ๋ณ€ํ˜•๊ณผ ์ต์ˆ™ํ•œ ์ถ”๋ก  ์ „๋žต์—์„œ ๋ฒ—์–ด๋‚˜๋„๋ก ์˜๋„์ ์œผ๋กœ ์žฌ์„ค๊ณ„๋œ ์ž˜ ์•Œ๋ ค์ง„ ํผ์ฆ์ด ํฌํ•จ๋œ๋‹ค. ์ด ๋ฐ์ดํ„ฐ์…‹์„ ์‚ฌ์šฉํ•˜์—ฌ ๋ชจ๋ธ์ด ๋‚ด์žฌ๋œ ์ถ”๋ก ์œผ๋กœ ๊ธฐ๋ณธ ์„ค์ •๋  ๋•Œ ๋ฐœ์ƒํ•˜๋Š” ๋ฐ˜๋ณต์ ์ธ ์˜ค์—ผ ํŒจํ„ด์„ ์‹๋ณ„ํ•œ๋‹ค. ๊ตฌ์ฒด์ ์œผ๋กœ, ์ด ์˜ค์—ผ์„ (1) ํ•ด์„ ๊ณผ๋ถ€ํ•˜(Interpretation Overload), (2) ์ž…๋ ฅ ๋ถˆ์‹ (Input Distrust), (3) ๋ถ€๋ถ„์  ์ง€์‹œ ์ฃผ์˜(Partial Instruction Attention)์˜ ์„ธ ๊ฐ€์ง€ ๋…ํŠนํ•œ ๋ชจ๋“œ๋กœ ๋ถ„๋ฅ˜ํ•˜๋ฉฐ, ๊ฐ ๋ชจ๋“œ๋Š” ๋ชจ๋ธ์ด ์ œ๊ณต๋œ ์ง€์‹œ๋ฅผ ๋ฌด์‹œํ•˜๊ฑฐ๋‚˜ ์™œ๊ณกํ•˜๋„๋ก ์œ ๋ฐœํ•œ๋‹ค. ์–ธ์–ด ๋ชจ๋ธ์˜ ์ถ”๋ก  ๊ฒฝ์ง์„ฑ์„ ์™„ํ™”ํ•˜๊ธฐ ์œ„ํ•œ ํ–ฅํ›„ ์—ฐ๊ตฌ๋ฅผ ์ด‰์ง„ํ•˜๊ธฐ ์œ„ํ•ด ์ง„๋‹จ ์„ธํŠธ๋ฅผ ๊ณต๊ฐœํ•œ๋‹ค.

AI ์—์ด์ „ํŠธ, ์‘์šฉ ์‹œ์Šคํ…œ ๋ฐ ๋ฐ์ดํ„ฐ ๊ธฐ๋ฐ˜ ํ˜์‹  ๋ถ„์•ผ

TabSTAR: A Foundation Tabular Model With Semantically Target-Aware Representations

Paper, Project
๋”ฅ๋Ÿฌ๋‹์€ ์—ฌ๋Ÿฌ ๋ถ„์•ผ์—์„œ ์„ฑ๊ณตํ–ˆ์ง€๋งŒ, ํ…Œ์ด๋ธ” ํ˜•์‹ ๋ฐ์ดํ„ฐ ํ•™์Šต์—์„œ๋Š” ์—ฌ์ „ํžˆ ๊ทธ๋ž˜๋””์–ธํŠธ ๋ถ€์ŠคํŒ… ๊ฒฐ์ • ํŠธ๋ฆฌ(GBDT)์— ๋น„ํ•ด ์„ฑ๋Šฅ์ด ๋‚ฎ์•˜๋‹ค. ์ตœ๊ทผ ํ…์ŠคํŠธ ๋ฐ์ดํ„ฐ๊ฐ€ ํฌํ•จ๋œ ๊ฒฝ์šฐ, ์‹ค์ œ ์ง€์‹์„ ํ™œ์šฉํ•˜๊ณ  ๋‹ค์–‘ํ•œ ๋ฐ์ดํ„ฐ์…‹์— ์ผ๋ฐ˜ํ™”ํ•  ์ˆ˜ ์žˆ๋Š” 'ํ…Œ์ด๋ธ” ํ˜•์‹ ํŒŒ์šด๋ฐ์ด์…˜ ๋ชจ๋ธ'์˜ ๊ฐ€๋Šฅ์„ฑ์ด ์—ด๋ฆฌ๊ณ  ์žˆ๋‹ค. ์ด ๋…ผ๋ฌธ์€ TabSTAR๋ผ๋Š” ์ƒˆ๋กœ์šด ํ…Œ์ด๋ธ” ํ˜•์‹ ํŒŒ์šด๋ฐ์ด์…˜ ๋ชจ๋ธ์„ ์ œ์•ˆํ•œ๋‹ค. TabSTAR๋Š” ํ…์ŠคํŠธ ํŠน์ง•์ด ์žˆ๋Š” ํ…Œ์ด๋ธ” ๋ฐ์ดํ„ฐ์— ์ „์ด ํ•™์Šต์„ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•˜๋ฉฐ, ๋ฐ์ดํ„ฐ์…‹๋ณ„ ํŒŒ๋ผ๋ฏธํ„ฐ ์—†์ด ์‚ฌ์ „ ํ›ˆ๋ จ๋œ ํ…์ŠคํŠธ ์ธ์ฝ”๋”๋ฅผ ์‚ฌ์šฉํ•œ๋‹ค. ํŠนํžˆ, ์ž…๋ ฅ์œผ๋กœ '๋ชฉํ‘œ ํ† ํฐ'์„ ๋ฐ›์•„ ๋ชจ๋ธ์ด ์ž‘์—…๋ณ„ ์ž„๋ฒ ๋”ฉ์„ ํ•™์Šตํ•˜๋„๋ก ํ•œ๋‹ค. TabSTAR๋Š” ํ…์ŠคํŠธ ํŠน์ง•์„ ๊ฐ€์ง„ ๋ถ„๋ฅ˜ ์ž‘์—…์—์„œ ์ค‘๊ฐ„ ๋ฐ ๋Œ€๊ทœ๋ชจ ๋ฐ์ดํ„ฐ์…‹ ๋ชจ๋‘ ์ตœ๊ณ  ์ˆ˜์ค€์˜ ์„ฑ๋Šฅ์„ ๋ณด์˜€์œผ๋ฉฐ, ๋ฐ์ดํ„ฐ์…‹ ์ˆ˜์— ๋”ฐ๋ฅธ ํ™•์žฅ ๊ฐ€๋Šฅ์„ฑ๋„ ํ™•์ธ๋˜์–ด ์ถ”๊ฐ€ ์„ฑ๋Šฅ ํ–ฅ์ƒ์˜ ๊ธธ์„ ์ œ์‹œํ•œ๋‹ค.

ScienceBoard: Evaluating Multimodal Autonomous Agents in Realistic Scientific Workflows

Paper, Project
๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ(LLM) ๊ธฐ๋ฐ˜ ์—์ด์ „ํŠธ๋“ค์ด ๊ณผํ•™์  ๋ฐœ๊ฒฌ์„ ๋•๋Š” ๋„๊ตฌ๋กœ ๋ฐœ์ „ํ•˜๊ณ  ์žˆ๋‹ค. ํŠนํžˆ ์šด์˜์ฒด์ œ์™€ ์ƒํ˜ธ์ž‘์šฉํ•˜๋ฉฐ ์—ฐ๊ตฌ์ž์˜ ์ž‘์—…์„ ์ž๋™ํ™”ํ•˜๋Š” ์ปดํ“จํ„ฐ ์‚ฌ์šฉ ์—์ด์ „ํŠธ์˜ ์ž ์žฌ๋ ฅ์ด ํฌ๋‹ค. ์ด ๋…ผ๋ฌธ์€ ์ด๋Ÿฌํ•œ ์—์ด์ „ํŠธ์˜ ๋Šฅ๋ ฅ์„ ํ‰๊ฐ€ํ•˜๊ธฐ ์œ„ํ•ด ScienceBoard๋ฅผ ์ œ์•ˆํ•œ๋‹ค. ScienceBoard๋Š” ๋‘ ๊ฐ€์ง€ ์ฃผ์š” ๊ธฐ์—ฌ๋ฅผ ํ•œ๋‹ค: (1) ์—์ด์ „ํŠธ๊ฐ€ ๋ณต์žกํ•œ ์—ฐ๊ตฌ ์ž‘์—…๊ณผ ์‹คํ—˜์„ ๊ฐ€์†ํ™”ํ•˜๊ธฐ ์œ„ํ•ด ๋‹ค์–‘ํ•œ ์ธํ„ฐํŽ˜์ด์Šค๋ฅผ ํ†ตํ•ด ์ž์œจ์ ์œผ๋กœ ์ƒํ˜ธ์ž‘์šฉํ•  ์ˆ˜ ์žˆ๋Š”, ์ „๋ฌธ ์†Œํ”„ํŠธ์›จ์–ด๊ฐ€ ํ†ตํ•ฉ๋œ ํ˜„์‹ค์ ์ด๊ณ  ์‹œ๊ฐ์ ์œผ๋กœ ํ’๋ถ€ํ•œ ๋‹ค๋ถ„์•ผ ํ™˜๊ฒฝ์„ ์ œ๊ณตํ•œ๋‹ค. (2) ์ƒํ™”ํ•™, ์ฒœ๋ฌธํ•™, ์ง€๋ฆฌ์ •๋ณดํ•™ ๋“ฑ ๊ณผํ•™์  ๋ฐœ๊ฒฌ ์›Œํฌํ”Œ๋กœ์šฐ๋ฅผ ํฌ๊ด„ํ•˜๋Š”, ์ธ๊ฐ„์ด ๊ฒ€์ฆํ•œ 169๊ฐœ์˜ ๊ณ ํ’ˆ์งˆ ์‹ค์ œ ์ž‘์—…์œผ๋กœ ๊ตฌ์„ฑ๋œ ๋„์ „์ ์ธ ๋ฒค์น˜๋งˆํฌ๋ฅผ ์ œ๊ณตํ•œ๋‹ค. GPT-4o, Claude 3.7๊ณผ ๊ฐ™์€ ์ตœ์ฒจ๋‹จ ๋ชจ๋ธ์„ ์‚ฌ์šฉํ•œ ์—์ด์ „ํŠธ ํ‰๊ฐ€ ๊ฒฐ๊ณผ, ๋ณต์žกํ•œ ์›Œํฌํ”Œ๋กœ์šฐ์—์„œ ๊ณผํ•™์ž๋ฅผ ์•ˆ์ •์ ์œผ๋กœ ์ง€์›ํ•˜๋Š” ๋ฐ๋Š” ์•„์ง ๋ฏธํกํ•˜๋ฉฐ ์ „๋ฐ˜์ ์ธ ์„ฑ๊ณต๋ฅ ์€ 15%์— ๊ทธ์ณค๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ํ˜„์žฌ ์—์ด์ „ํŠธ์˜ ํ•œ๊ณ„์™€ ๋” ํšจ๊ณผ์ ์ธ ์„ค๊ณ„ ์›์น™์— ๋Œ€ํ•œ ํ†ต์ฐฐ์„ ์ œ๊ณตํ•œ๋‹ค.

Paper2Poster: Towards Multimodal Poster Automation from Scientific Papers

Paper, Project
ํ•™์ˆ  ํฌ์Šคํ„ฐ ์ œ์ž‘์€ ๊ธด ๋‚ด์šฉ์˜ ๋ฌธ์„œ๋ฅผ ์‹œ๊ฐ์ ์œผ๋กœ ์ผ๊ด€์„ฑ ์žˆ๋Š” ํ•œ ํŽ˜์ด์ง€๋กœ ์••์ถ•ํ•ด์•ผ ํ•˜๋Š” ์ค‘์š”ํ•œ ์ž‘์—…์ด๋‹ค. ์ด ๋…ผ๋ฌธ์€ ํฌ์Šคํ„ฐ ์ƒ์„ฑ์„ ์œ„ํ•œ ์ตœ์ดˆ์˜ ๋ฒค์น˜๋งˆํฌ ๋ฐ ํ‰๊ฐ€ ์ง€ํ‘œ ์ œํ’ˆ๊ตฐ์„ ์†Œ๊ฐœํ•œ๋‹ค. ์ด๋Š” ์ตœ๊ทผ ํ•™ํšŒ ๋…ผ๋ฌธ๊ณผ ์ €์ž๊ฐ€ ๋””์ž์ธํ•œ ํฌ์Šคํ„ฐ๋ฅผ ์Œ์œผ๋กœ ๊ตฌ์„ฑํ•˜๋ฉฐ, (1)์‹œ๊ฐ์  ํ’ˆ์งˆ, (2)ํ…์ŠคํŠธ ์ผ๊ด€์„ฑ, (3)VLM(์‹œ๊ฐ ์–ธ์–ด ๋ชจ๋ธ) ์‹ฌ์‚ฌ์œ„์›์ด ํ‰๊ฐ€ํ•˜๋Š” 6๊ฐ€์ง€ ์„ธ๋ถ€ ๋ฏธํ•™ ๋ฐ ์ •๋ณด ๊ธฐ์ค€, (4)์ƒ์„ฑ๋œ ํ€ด์ฆˆ์— VLM์ด ๋‹ตํ•˜์—ฌ ํฌ์Šคํ„ฐ๊ฐ€ ๋…ผ๋ฌธ ํ•ต์‹ฌ ๋‚ด์šฉ์„ ์ „๋‹ฌํ•˜๋Š” ๋Šฅ๋ ฅ์„ ์ธก์ •ํ•˜๋Š” PaperQuiz๋กœ ๊ฒฐ๊ณผ๋ฌผ์„ ํ‰๊ฐ€ํ•œ๋‹ค. ๋˜ํ•œ PosterAgent๋ผ๋Š” ํ•˜ํ–ฅ์‹, ์‹œ๊ฐ์  ํ”ผ๋“œ๋ฐฑ ๋ฃจํ”„๋ฅผ ๊ฐ–์ถ˜ ๋‹ค์ค‘ ์—์ด์ „ํŠธ ํŒŒ์ดํ”„๋ผ์ธ์„ ์ œ์•ˆํ•œ๋‹ค. PosterAgent๋Š” (a)ํŒŒ์„œ๊ฐ€ ๋…ผ๋ฌธ์„ ๊ตฌ์กฐํ™”๋œ ์ž์‚ฐ ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ๋กœ ์ถ”์ถœํ•˜๊ณ , (b)ํ”Œ๋ž˜๋„ˆ๊ฐ€ ํ…์ŠคํŠธ-์‹œ๊ฐ ์Œ์„ ์ด์ง„ ํŠธ๋ฆฌ ๋ ˆ์ด์•„์›ƒ์œผ๋กœ ์ •๋ ฌํ•˜๋ฉฐ, (c)ํŽ˜์ธํ„ฐ-์ฝ”๋ฉ˜ํ„ฐ ๋ฃจํ”„๊ฐ€ ๋ Œ๋”๋ง ์ฝ”๋“œ๋ฅผ ์‹คํ–‰ํ•˜๊ณ  VLM ํ”ผ๋“œ๋ฐฑ์„ ์‚ฌ์šฉํ•˜์—ฌ ๊ฐ ํŒจ๋„์„ ๊ฐœ์„ ํ•œ๋‹ค. ํ‰๊ฐ€ ๊ฒฐ๊ณผ, GPT-4o ๊ฒฐ๊ณผ๋ฌผ์€ ์‹œ๊ฐ์ ์œผ๋กœ๋Š” ๋งค๋ ฅ์ ์ด๋‚˜ ํ…์ŠคํŠธ ๋…ธ์ด์ฆˆ์™€ ๋‚ฎ์€ PaperQuiz ์ ์ˆ˜๋ฅผ ๋ณด์˜€์œผ๋ฉฐ, ์ธ๊ฐ„ ๋””์ž์ธ ํฌ์Šคํ„ฐ๋Š” ์‹œ๊ฐ์  ์˜๋ฏธ ์ „๋‹ฌ์— ํฌ๊ฒŒ ์˜์กดํ•˜๋ฏ€๋กœ ๋…์ž ์ฐธ์—ฌ๊ฐ€ ์ฃผ์š” ๋ฏธ์  ๋ณ‘๋ชฉ ์ง€์ ์ž„์ด ๋ฐํ˜€์กŒ๋‹ค. Qwen-2.5 ์‹œ๋ฆฌ์ฆˆ ๊ธฐ๋ฐ˜์˜ ์™„์ „ ์˜คํ”ˆ์†Œ์Šค ๋ณ€ํ˜• ๋ชจ๋ธ์€ ํ† ํฐ ์‚ฌ์šฉ๋Ÿ‰์„ 87% ์ค„์ด๋ฉด์„œ๋„ ๊ฑฐ์˜ ๋ชจ๋“  ์ง€ํ‘œ์—์„œ ๊ธฐ์กด 4o ๊ธฐ๋ฐ˜ ๋‹ค์ค‘ ์—์ด์ „ํŠธ ์‹œ์Šคํ…œ์„ ๋Šฅ๊ฐ€ํ•˜๋ฉฐ, 22ํŽ˜์ด์ง€ ๋…ผ๋ฌธ์„ ํŽธ์ง‘ ๊ฐ€๋Šฅํ•œ .pptx ํฌ์Šคํ„ฐ๋กœ ๋‹จ๋ˆ $0.005์— ๋ณ€ํ™˜ํ•œ๋‹ค.

SWE-rebench: An Automated Pipeline for Task Collection and Decontaminated Evaluation of Software Engineering Agents

Paper, Project
LLM ๊ธฐ๋ฐ˜ ์—์ด์ „ํŠธ๋Š” ์†Œํ”„ํŠธ์›จ์–ด ๊ณตํ•™(SWE) ์ž‘์—…์—์„œ ์œ ๋งํ•œ ๋Šฅ๋ ฅ์„ ๋ณด์—ฌ์ฃผ๊ณ  ์žˆ์ง€๋งŒ, ์ด ๋ถ„์•ผ์˜ ๋ฐœ์ „์—๋Š” ๋‘ ๊ฐ€์ง€ ์ค‘์š”ํ•œ ๊ณผ์ œ๊ฐ€ ์žˆ๋‹ค. ์ฒซ์งธ, ๊ณ ํ’ˆ์งˆ ํ›ˆ๋ จ ๋ฐ์ดํ„ฐ, ํŠนํžˆ ์—์ด์ „ํŠธ๊ฐ€ ๊ฐœ๋ฐœ ํ™˜๊ฒฝ๊ณผ ์ƒํ˜ธ์ž‘์šฉํ•˜๊ณ  ์ฝ”๋“œ๋ฅผ ์‹คํ–‰ํ•˜๋ฉฐ ํ–‰๋™ ๊ฒฐ๊ณผ๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ํ–‰๋™์„ ์กฐ์ •ํ•ด์•ผ ํ•˜๋Š” ์‹ค์ œ SWE ์‹œ๋‚˜๋ฆฌ์˜ค๋ฅผ ๋ฐ˜์˜ํ•˜๋Š” ๋ฐ์ดํ„ฐ๊ฐ€ ๋ถ€์กฑํ•˜๋‹ค. ๋‘˜์งธ, ์ƒˆ๋กœ์šด ๋Œ€ํ™”ํ˜• SWE ์ž‘์—…์˜ ๋ถ€์กฑ์€ ์ •์  ๋ฒค์น˜๋งˆํฌ๊ฐ€ ์˜ค์—ผ ๋ฌธ์ œ๋กœ ์ธํ•ด ๋น ๋ฅด๊ฒŒ ๊ตฌ์‹์ด ๋˜๋ฉด์„œ ๋น ๋ฅด๊ฒŒ ๊ฐœ์„ ๋˜๋Š” ๋ชจ๋ธ์˜ ํ‰๊ฐ€์— ์˜ํ–ฅ์„ ๋ฏธ์นœ๋‹ค. ์ด๋Ÿฌํ•œ ํ•œ๊ณ„๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด, ์ด ๋…ผ๋ฌธ์€ ๋‹ค์–‘ํ•œ GitHub ์ €์žฅ์†Œ์—์„œ ์‹ค์ œ ๋Œ€ํ™”ํ˜• SWE ์ž‘์—…์„ ์ง€์†์ ์œผ๋กœ ์ถ”์ถœํ•˜๋Š” ์ƒˆ๋กญ๊ณ  ์ž๋™ํ™”๋˜์—ˆ์œผ๋ฉฐ ํ™•์žฅ ๊ฐ€๋Šฅํ•œ ํŒŒ์ดํ”„๋ผ์ธ์„ ์†Œ๊ฐœํ•œ๋‹ค. ์ด ํŒŒ์ดํ”„๋ผ์ธ์„ ์‚ฌ์šฉํ•˜์—ฌ ๋Œ€๊ทœ๋ชจ SWE ์—์ด์ „ํŠธ์˜ ๊ฐ•ํ™” ํ•™์Šต์— ์ ํ•ฉํ•œ 21,000๊ฐœ ์ด์ƒ์˜ ๋Œ€ํ™”ํ˜• Python ๊ธฐ๋ฐ˜ SWE ์ž‘์—…์œผ๋กœ ๊ตฌ์„ฑ๋œ ๊ณต๊ฐœ ๋ฐ์ดํ„ฐ์…‹์ธ SWE-rebench๋ฅผ ๊ตฌ์ถ•ํ•œ๋‹ค. ๋˜ํ•œ, SWE-rebench ๋ฐฉ๋ฒ•๋ก ์„ ์‚ฌ์šฉํ•˜์—ฌ ์ˆ˜์ง‘๋œ ์ƒˆ๋กœ์šด ์ž‘์—…์˜ ์ง€์†์ ์ธ ๊ณต๊ธ‰์„ ํ†ตํ•ด ์—์ด์ „ํŠธ ๊ธฐ๋ฐ˜ ์†Œํ”„ํŠธ์›จ์–ด ๊ณตํ•™์„ ์œ„ํ•œ ์˜ค์—ผ ์—†๋Š” ๋ฒค์น˜๋งˆํฌ๋ฅผ ๊ตฌ์ถ•ํ•œ๋‹ค. ์ด ๋ฒค์น˜๋งˆํฌ์—์„œ ๋‹ค์–‘ํ•œ LLM์˜ ๊ฒฐ๊ณผ๋ฅผ SWE-bench Verified์˜ ๊ฒฐ๊ณผ์™€ ๋น„๊ตํ•˜์—ฌ ์ผ๋ถ€ ์–ธ์–ด ๋ชจ๋ธ์˜ ์„ฑ๋Šฅ์ด ์˜ค์—ผ ๋ฌธ์ œ๋กœ ์ธํ•ด ๋ถ€ํ’€๋ ค์กŒ์„ ์ˆ˜ ์žˆ์Œ์„ ๋ณด์—ฌ์ค€๋‹ค.

Alchemist: Turning Public Text-to-Image Data into Generative Gold

Paper, Project
์‚ฌ์ „ ํ›ˆ๋ จ์€ ํ…์ŠคํŠธ-์ด๋ฏธ์ง€(T2I) ๋ชจ๋ธ์— ๊ด‘๋ฒ”์œ„ํ•œ ์„ธ๊ณ„ ์ง€์‹์„ ์ œ๊ณตํ•˜์ง€๋งŒ, ์ด๊ฒƒ๋งŒ์œผ๋กœ๋Š” ๋†’์€ ๋ฏธ์  ํ’ˆ์งˆ๊ณผ ์ •๋ ฌ์„ ๋‹ฌ์„ฑํ•˜๊ธฐ์— ์ถฉ๋ถ„ํ•˜์ง€ ์•Š์€ ๊ฒฝ์šฐ๊ฐ€ ๋งŽ๋‹ค. ๋”ฐ๋ผ์„œ ์ง€๋„ ๋ฏธ์„ธ ์กฐ์ •(SFT)์€ ์ถ”๊ฐ€ ๊ฐœ์„ ์— ๋งค์šฐ ์ค‘์š”ํ•˜๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ๊ทธ ํšจ๊ณผ๋Š” ๋ฏธ์„ธ ์กฐ์ • ๋ฐ์ดํ„ฐ์…‹์˜ ํ’ˆ์งˆ์— ํฌ๊ฒŒ ์ขŒ์šฐ๋œ๋‹ค. ๊ธฐ์กด ๊ณต๊ฐœ SFT ๋ฐ์ดํ„ฐ์…‹์€ ์ข…์ข… ์ข์€ ์˜์—ญ(์˜ˆ: ์• ๋‹ˆ๋ฉ”์ด์…˜ ๋˜๋Š” ํŠน์ • ์•„ํŠธ ์Šคํƒ€์ผ)์„ ๋Œ€์ƒ์œผ๋กœ ํ•˜๋ฉฐ, ๊ณ ํ’ˆ์งˆ์˜ ๋ฒ”์šฉ SFT ๋ฐ์ดํ„ฐ์…‹ ์ƒ์„ฑ์€ ์—ฌ์ „ํžˆ ์ค‘์š”ํ•œ ๊ณผ์ œ์ด๋‹ค. ํ˜„์žฌ ํ๋ ˆ์ด์…˜ ๋ฐฉ๋ฒ•์€ ๋น„์šฉ์ด ๋งŽ์ด ๋“ค๊ณ  ์ง„์ •์œผ๋กœ ์˜ํ–ฅ๋ ฅ ์žˆ๋Š” ์ƒ˜ํ”Œ์„ ์‹๋ณ„ํ•˜๋Š” ๋ฐ ์–ด๋ ค์›€์„ ๊ฒช๋Š”๋‹ค. ์ด ๋…ผ๋ฌธ์€ ์‚ฌ์ „ ํ›ˆ๋ จ๋œ ์ƒ์„ฑ ๋ชจ๋ธ์„ ์˜ํ–ฅ๋ ฅ ์žˆ๋Š” ํ›ˆ๋ จ ์ƒ˜ํ”Œ ์ถ”์ •๊ธฐ๋กœ ํ™œ์šฉํ•˜์—ฌ ๋ฒ”์šฉ SFT ๋ฐ์ดํ„ฐ์…‹์„ ์ƒ์„ฑํ•˜๋Š” ์ƒˆ๋กœ์šด ๋ฐฉ๋ฒ•๋ก ์„ ์†Œ๊ฐœํ•œ๋‹ค. ์ด ๋ฐฉ๋ฒ•๋ก ์„ ์ ์šฉํ•˜์—ฌ ์ž‘์ง€๋งŒ(3,350๊ฐœ ์ƒ˜ํ”Œ) ๋งค์šฐ ํšจ๊ณผ์ ์ธ SFT ๋ฐ์ดํ„ฐ์…‹์ธ Alchemist๋ฅผ ๊ตฌ์ถ•ํ•˜๊ณ  ๊ณต๊ฐœํ•œ๋‹ค. ์‹คํ—˜ ๊ฒฐ๊ณผ, Alchemist๋Š” ๋‹ค์–‘์„ฑ๊ณผ ์Šคํƒ€์ผ์„ ๋ณด์กดํ•˜๋ฉด์„œ 5๊ฐœ์˜ ๊ณต๊ฐœ T2I ๋ชจ๋ธ์˜ ์ƒ์„ฑ ํ’ˆ์งˆ์„ ํฌ๊ฒŒ ํ–ฅ์ƒ์‹œํ‚ค๋Š” ๊ฒƒ์œผ๋กœ ๋‚˜ํƒ€๋‚ฌ๋‹ค. ๋˜ํ•œ ๋ฏธ์„ธ ์กฐ์ •๋œ ๋ชจ๋ธ์˜ ๊ฐ€์ค‘์น˜๋„ ๊ณต๊ฐœํ•œ๋‹ค.

OmniConsistency: Learning Style-Agnostic Consistency from Paired Stylization Data

Paper, Project
ํ™•์‚ฐ ๋ชจ๋ธ์€ ์ด๋ฏธ์ง€ ์Šคํƒ€์ผํ™”๋ฅผ ํฌ๊ฒŒ ๋ฐœ์ „์‹œ์ผฐ์ง€๋งŒ, ๋‘ ๊ฐ€์ง€ ํ•ต์‹ฌ ๊ณผ์ œ๊ฐ€ ๋‚จ์•„ ์žˆ๋‹ค: (1) ๋ณต์žกํ•œ ์žฅ๋ฉด, ํŠนํžˆ ์ •์ฒด์„ฑ, ๊ตฌ์„ฑ ๋ฐ ๋ฏธ์„ธํ•œ ์„ธ๋ถ€ ์‚ฌํ•ญ์—์„œ ์ผ๊ด€๋œ ์Šคํƒ€์ผํ™” ์œ ์ง€, (2) ์Šคํƒ€์ผ LoRA๋ฅผ ์‚ฌ์šฉํ•˜๋Š” ์ด๋ฏธ์ง€ ๋Œ€ ์ด๋ฏธ์ง€ ํŒŒ์ดํ”„๋ผ์ธ์—์„œ ์Šคํƒ€์ผ ์ €ํ•˜ ๋ฐฉ์ง€. GPT-4o์˜ ๋›ฐ์–ด๋‚œ ์Šคํƒ€์ผํ™” ์ผ๊ด€์„ฑ์€ ์˜คํ”ˆ์†Œ์Šค ๋ฐฉ๋ฒ•๊ณผ ๋…์  ๋ชจ๋ธ ๊ฐ„์˜ ์„ฑ๋Šฅ ๊ฒฉ์ฐจ๋ฅผ ๊ฐ•์กฐํ•œ๋‹ค. ์ด๋Ÿฌํ•œ ๊ฒฉ์ฐจ๋ฅผ ํ•ด์†Œํ•˜๊ธฐ ์œ„ํ•ด, ์ด ๋…ผ๋ฌธ์€ ๋Œ€๊ทœ๋ชจ ํ™•์‚ฐ ํŠธ๋žœ์Šคํฌ๋จธ(DiT)๋ฅผ ํ™œ์šฉํ•˜๋Š” ๋ณดํŽธ์ ์ธ ์ผ๊ด€์„ฑ ํ”Œ๋Ÿฌ๊ทธ์ธ์ธ OmniConsistency๋ฅผ ์ œ์•ˆํ•œ๋‹ค. OmniConsistency๋Š” ๋‹ค์Œ์„ ๊ธฐ์—ฌํ•œ๋‹ค: (1) ๊ฐ•๋ ฅํ•œ ์ผ๋ฐ˜ํ™”๋ฅผ ์œ„ํ•ด ์ •๋ ฌ๋œ ์ด๋ฏธ์ง€ ์Œ์— ๋Œ€ํ•ด ํ›ˆ๋ จ๋œ ์ปจํ…์ŠคํŠธ ๋‚ด ์ผ๊ด€์„ฑ ํ•™์Šต ํ”„๋ ˆ์ž„์›Œํฌ, (2) ์Šคํƒ€์ผ ์ €ํ•˜๋ฅผ ์™„ํ™”ํ•˜๊ธฐ ์œ„ํ•ด ์Šคํƒ€์ผ ํ•™์Šต๊ณผ ์ผ๊ด€์„ฑ ๋ณด์กด์„ ๋ถ„๋ฆฌํ•˜๋Š” 2๋‹จ๊ณ„ ์ ์ง„์  ํ•™์Šต ์ „๋žต, (3) Flux ํ”„๋ ˆ์ž„์›Œํฌ ํ•˜์—์„œ ์ž„์˜์˜ ์Šคํƒ€์ผ LoRA์™€ ํ˜ธํ™˜๋˜๋Š” ์™„์ „ํ•œ ํ”Œ๋Ÿฌ๊ทธ ์•ค ํ”Œ๋ ˆ์ด ์„ค๊ณ„. ๊ด‘๋ฒ”์œ„ํ•œ ์‹คํ—˜์„ ํ†ตํ•ด OmniConsistency๋Š” ์‹œ๊ฐ์  ์ผ๊ด€์„ฑ๊ณผ ๋ฏธ์  ํ’ˆ์งˆ์„ ํฌ๊ฒŒ ํ–ฅ์ƒ์‹œ์ผœ ์ƒ์šฉ ์ตœ์ฒจ๋‹จ ๋ชจ๋ธ์ธ GPT-4o์™€ ์œ ์‚ฌํ•œ ์„ฑ๋Šฅ์„ ๋‹ฌ์„ฑํ•จ์„ ๋ณด์—ฌ์ค€๋‹ค.

profile
XR๊ณผ AI์— ๊ด€์‹ฌ์ด ๋งŽ์€ Sky ์ž…๋‹ˆ๋‹ค.

0๊ฐœ์˜ ๋Œ“๊ธ€