[2025/W02] ๐Ÿค— Weekly AI Research

Skyยท2025๋…„ 1์›” 25์ผ

Weekly AI Research Digest

๋ชฉ๋ก ๋ณด๊ธฐ
2/89

2025๋…„ 2์ฃผ์ฐจ์— ๊ณต๊ฐœ๋œ ์ฃผ๋ชฉํ• ๋งŒํ•œ AI ๋ถ„์•ผ์˜ ๋…ผ๋ฌธ๋“ค์„ ์†Œ๊ฐœํ•ฉ๋‹ˆ๋‹ค.

๋กœ๋ณดํ‹ฑ์Šค/๋ฌผ๋ฆฌ์  AI ๋ถ„์•ผ

EnerVerse: Envisioning Embodied Future Space for Robotics Manipulation

Paper, Project

EnerVerse๋Š” ๋กœ๋ด‡ ์กฐ์ž‘ ์ž‘์—…์„ ์œ„ํ•œ ์‹ค์ฒดํ™”๋œ ๋ฏธ๋ž˜ ๊ณต๊ฐ„ ์ƒ์„ฑ ํ”„๋ ˆ์ž„์›Œํฌ์ž…๋‹ˆ๋‹ค. ๋‚ด๋ถ€ ์ฒญํฌ ๊ณต๊ฐ„ ๋ชจ๋ธ๋ง์„ ์œ„ํ•ด ํ•ฉ์„ฑ๊ณฑ๊ณผ ์–‘๋ฐฉํ–ฅ ์ฃผ์˜ ๋ฉ”์ปค๋‹ˆ์ฆ˜์„ ํ†ตํ•ฉํ•˜๊ณ , ์˜์ƒ ๋ฐ์ดํ„ฐ์˜ ์ค‘๋ณต์„ฑ์„ ๊ณ ๋ คํ•˜์—ฌ ํฌ์†Œ ๋ฉ”๋ชจ๋ฆฌ ์ปจํ…์ŠคํŠธ์™€ ์ฒญํฌ ๋‹จ์œ„ ๋‹จ๋ฐฉํ–ฅ ์ƒ์„ฑ ํŒจ๋Ÿฌ๋‹ค์ž„์„ ๋„์ž…ํ•จ์œผ๋กœ์จ ๋ฌดํ•œํžˆ ๊ธด ์‹œํ€€์Šค ์ƒ์„ฑ์„ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•ฉ๋‹ˆ๋‹ค. ํŠนํžˆ ์ž์œ  ์•ต์ปค ๋ทฐ(FAV) ๊ณต๊ฐ„์„ ํ†ตํ•ด ์œ ์—ฐํ•œ ๊ด€์ฐฐ ์‹œ์ ์„ ์ œ๊ณตํ•˜์—ฌ ๋กœ๋ด‡์˜ ์ ์‘์„ฑ์„ ํ–ฅ์ƒ์‹œํ‚ค๊ณ , 4D ๊ฐ€์šฐ์‹œ์•ˆ ์Šคํ”Œ๋ž˜ํŒ…๊ณผ ์ƒ์„ฑ ๋ชจ๋ธ์„ ๊ฒฐํ•ฉํ•œ ๋ฐ์ดํ„ฐ ์—”์ง„ ํŒŒ์ดํ”„๋ผ์ธ์œผ๋กœ ๋‹ค์ค‘ ์นด๋ฉ”๋ผ ๊ด€์ฐฐ์˜ ๋น„์šฉ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ–ˆ์Šต๋‹ˆ๋‹ค. ์‹คํ—˜ ๊ฒฐ๊ณผ, ์ด ์ ‘๊ทผ๋ฐฉ์‹์ด ํŠนํžˆ ์žฅ๊ฑฐ๋ฆฌ ๋กœ๋ด‡ ์กฐ์ž‘ ์ž‘์—…์—์„œ ์ •์ฑ… ์˜ˆ์ธก ๋Šฅ๋ ฅ์„ ํฌ๊ฒŒ ํ–ฅ์ƒ์‹œ์ผฐ์Šต๋‹ˆ๋‹ค.

Cosmos World Foundation Model Platform for Physical AI

Paper, Project

Cosmos World Foundation Model Platform์€ ๋ฌผ๋ฆฌ์  AI ์‹œ์Šคํ…œ์„ ์œ„ํ•œ ๋””์ง€ํ„ธ ํŠธ์œˆ ์›”๋“œ ๋ชจ๋ธ์„ ๊ตฌ์ถ•ํ•  ์ˆ˜ ์žˆ๊ฒŒ ๋•๋Š” ํ”Œ๋žซํผ์ž…๋‹ˆ๋‹ค. ๋ฌผ๋ฆฌ์  AI๊ฐ€ ์‹ค์ œ ํ™˜๊ฒฝ์—์„œ ์ž‘๋™ํ•˜๊ธฐ ์ „์— ๋””์ง€ํ„ธ ํ™˜๊ฒฝ์—์„œ ๋จผ์ € ํ›ˆ๋ จ๋˜์–ด์•ผ ํ•˜๋Š”๋ฐ, ์ด๋ฅผ ์œ„ํ•ด AI ์ž์ฒด์˜ ๋””์ง€ํ„ธ ํŠธ์œˆ(์ •์ฑ… ๋ชจ๋ธ)๊ณผ ์„ธ๊ณ„์˜ ๋””์ง€ํ„ธ ํŠธ์œˆ(์›”๋“œ ๋ชจ๋ธ)์ด ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค. ์ด ํ”Œ๋žซํผ์€ ๋น„๋””์˜ค ํ๋ ˆ์ด์…˜ ํŒŒ์ดํ”„๋ผ์ธ, ์‚ฌ์ „ ํ›ˆ๋ จ๋œ ์›”๋“œ ๊ธฐ๋ฐ˜ ๋ชจ๋ธ, ์‚ฌํ›„ ํ›ˆ๋ จ ์˜ˆ์ œ, ๋น„๋””์˜ค ํ† ํฌ๋‚˜์ด์ €๋ฅผ ์ œ๊ณตํ•˜๋ฉฐ, ๋‹ค์–‘ํ•œ ์‘์šฉ ๋ถ„์•ผ์— ๋งž์ถคํ™”ํ•  ์ˆ˜ ์žˆ๋Š” ๋ฒ”์šฉ ์›”๋“œ ๋ชจ๋ธ์„ ์˜คํ”ˆ์†Œ์Šค๋กœ ์ œ๊ณตํ•จ์œผ๋กœ์จ ๋ฌผ๋ฆฌ์  AI ๊ฐœ๋ฐœ์ž๋“ค์„ ์ง€์›ํ•ฉ๋‹ˆ๋‹ค.

์ปดํ“จํ„ฐ ๋น„์ „/์ƒ์„ฑ ๋ชจ๋ธ ๋ถ„์•ผ

STAR: Spatial-Temporal Augmentation with Text-to-Video Models for Real-World Video Super-Resolution

Paper, Project

STAR๋Š” ์‹ค์ œ ๋น„๋””์˜ค์˜ ํ•ด์ƒ๋„๋ฅผ ๋†’์ด๊ธฐ ์œ„ํ•ด ํ…์ŠคํŠธ-๋น„๋””์˜ค(T2V) ๋ชจ๋ธ์„ ํ™œ์šฉํ•˜๋Š” ์ƒˆ๋กœ์šด ์ ‘๊ทผ๋ฒ•์ž…๋‹ˆ๋‹ค. ๊ธฐ์กด์˜ ์ด๋ฏธ์ง€ ๊ธฐ๋ฐ˜ ํ™•์‚ฐ ๋ชจ๋ธ๋“ค์ด ์‹œ๊ฐ„์  ์ผ๊ด€์„ฑ์„ ์œ ์ง€ํ•˜๋Š”๋ฐ ์–ด๋ ค์›€์„ ๊ฒช๊ณ , T2V ๋ชจ๋ธ๋“ค์€ ์‹ค์ œ ํ™˜๊ฒฝ์˜ ๋ณต์žกํ•œ ํ™”์งˆ ์ €ํ•˜์™€ ๊ณผ๋„ํ•œ ์ƒ์„ฑ๋ ฅ์œผ๋กœ ์ธํ•œ ์ถฉ์‹ค๋„ ์†์‹ค ๋ฌธ์ œ๊ฐ€ ์žˆ์—ˆ์Šต๋‹ˆ๋‹ค. STAR์€ ์ด๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด ์ง€์—ญ ์ •๋ณด ๊ฐ•ํ™” ๋ชจ๋“ˆ(LIEM)์„ ๋„์ž…ํ•˜์—ฌ ์„ธ๋ถ€ ๋””ํ…Œ์ผ์„ ํ’๋ถ€ํ•˜๊ฒŒ ํ•˜๊ณ  ํ™”์งˆ ์ €ํ•˜ ํ˜„์ƒ์„ ์ค„์ด๋ฉฐ, ๋™์  ์ฃผํŒŒ์ˆ˜(DF) ์†์‹ค ํ•จ์ˆ˜๋ฅผ ํ†ตํ•ด ํ™•์‚ฐ ๋‹จ๊ณ„๋ณ„๋กœ ๋‹ค๋ฅธ ์ฃผํŒŒ์ˆ˜ ์„ฑ๋ถ„์— ์ง‘์ค‘ํ•˜๋„๋ก ๋ชจ๋ธ์„ ์œ ๋„ํ•ฉ๋‹ˆ๋‹ค. ์‹คํ—˜ ๊ฒฐ๊ณผ, ํ•ฉ์„ฑ ๋ฐ ์‹ค์ œ ๋ฐ์ดํ„ฐ์…‹ ๋ชจ๋‘์—์„œ ์ตœ์‹  ๊ธฐ๋ฒ•๋“ค๋ณด๋‹ค ์šฐ์ˆ˜ํ•œ ์„ฑ๋Šฅ์„ ๋ณด์—ฌ์ฃผ์—ˆ์Šต๋‹ˆ๋‹ค.

LLaVA-Mini: Efficient Image and Video Large Multimodal Models with One Vision Token

Paper, Project

LLaVA-Mini๋Š” ์‹œ๊ฐ ํ† ํฐ์„ ์ตœ์†Œํ™”ํ•˜์—ฌ ๋Œ€๊ทœ๋ชจ ๋‹ค์ค‘ ๋ชจ๋‹ฌ ๋ชจ๋ธ(LMM)์˜ ํšจ์œจ์„ฑ์„ ํฌ๊ฒŒ ํ–ฅ์ƒ์‹œํ‚จ ์ƒˆ๋กœ์šด ํ”„๋ ˆ์ž„์›Œํฌ์ž…๋‹ˆ๋‹ค. ์—ฐ๊ตฌ์ง„์€ LMM์ด ์‹œ๊ฐ ํ† ํฐ์„ ์–ด๋–ป๊ฒŒ ์ดํ•ดํ•˜๋Š”์ง€ ๋ถ„์„ํ•œ ๊ฒฐ๊ณผ, ๋Œ€๋ถ€๋ถ„์˜ ์‹œ๊ฐ ํ† ํฐ์ด LLM ๋ฐฑ๋ณธ์˜ ์ดˆ๊ธฐ ์ธต์—์„œ๋งŒ ์ค‘์š”ํ•œ ์—ญํ• ์„ ํ•œ๋‹ค๋Š” ๊ฒƒ์„ ๋ฐœ๊ฒฌํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด๋ฅผ ๋ฐ”ํƒ•์œผ๋กœ ๋ชจ๋‹ฌ๋ฆฌํ‹ฐ ์‚ฌ์ „ ์œตํ•ฉ(modality pre-fusion)์„ ๋„์ž…ํ•˜์—ฌ ์‹œ๊ฐ ์ •๋ณด๋ฅผ ํ…์ŠคํŠธ ํ† ํฐ์— ๋ฏธ๋ฆฌ ์œตํ•ฉํ•จ์œผ๋กœ์จ, LLM ๋ฐฑ๋ณธ์— ๊ณต๊ธ‰๋˜๋Š” ์‹œ๊ฐ ํ† ํฐ์„ ๋‹จ ํ•˜๋‚˜๋กœ ์••์ถ•ํ•  ์ˆ˜ ์žˆ๊ฒŒ ํ–ˆ์Šต๋‹ˆ๋‹ค. ์‹คํ—˜ ๊ฒฐ๊ณผ, ๊ธฐ์กด LLaVA-v1.5๊ฐ€ 576๊ฐœ์˜ ์‹œ๊ฐ ํ† ํฐ์„ ์‚ฌ์šฉํ•œ ๊ฒƒ๊ณผ ๋‹ฌ๋ฆฌ ๋‹จ 1๊ฐœ์˜ ํ† ํฐ์œผ๋กœ๋„ ๋” ๋‚˜์€ ์„ฑ๋Šฅ์„ ๋ณด์—ฌ์ฃผ์—ˆ์œผ๋ฉฐ, ์—ฐ์‚ฐ๋Ÿ‰์„ 77% ์ค„์ด๊ณ  40๋ฐ€๋ฆฌ์ดˆ ๋‚ด์˜ ๋น ๋ฅธ ์‘๋‹ต ์‹œ๊ฐ„์„ ๋‹ฌ์„ฑํ–ˆ์Šต๋‹ˆ๋‹ค.

The GAN is dead; long live the GAN! A Modern GAN Baseline

Paper, Project

R3GAN์€ GAN(์ƒ์„ฑ์  ์ ๋Œ€ ์‹ ๊ฒฝ๋ง)์ด ํ•™์Šตํ•˜๊ธฐ ์–ด๋ ต๋‹ค๋Š” ํ†ต๋…์„ ๋ฐ˜๋ฐ•ํ•˜๊ณ , ๋” ์ฒด๊ณ„์ ์ธ ๋ฐฉ์‹์œผ๋กœ ํ˜„๋Œ€์ ์ธ GAN ๊ธฐ์ค€์„ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค. ์—ฐ๊ตฌ์ง„์€ ๋ชจ๋“œ ๋ˆ„๋ฝ๊ณผ ๋น„์ˆ˜๋ ด ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๋Š” ์ž˜ ์ •์˜๋œ ์ •๊ทœํ™”๋œ ์ƒ๋Œ€๋ก ์  GAN ์†์‹ค ํ•จ์ˆ˜๋ฅผ ๋„์ถœํ–ˆ์œผ๋ฉฐ, ์ด ์†์‹ค ํ•จ์ˆ˜๊ฐ€ ์ˆ˜ํ•™์ ์œผ๋กœ ์ง€์—ญ ์ˆ˜๋ ด์„ ๋ณด์žฅํ•œ๋‹ค๋Š” ๊ฒƒ์„ ์ฆ๋ช…ํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ๊ธฐ์กด์˜ ์ž„์‹œ๋ฐฉํŽธ์ ์ธ ๊ธฐ๋ฒ•๋“ค์„ ์ œ๊ฑฐํ•˜๊ณ  ๊ตฌ์‹ ๊ตฌ์กฐ๋ฅผ ํ˜„๋Œ€์  ์•„ํ‚คํ…์ฒ˜๋กœ ๋Œ€์ฒดํ•  ์ˆ˜ ์žˆ๊ฒŒ ๋˜์—ˆ์Šต๋‹ˆ๋‹ค. StyleGAN2๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ๋‹จ์ˆœํ™”์™€ ํ˜„๋Œ€ํ™”๋ฅผ ์ง„ํ–‰ํ•œ ๊ฒฐ๊ณผ, FFHQ, ImageNet, CIFAR, Stacked MNIST ๋ฐ์ดํ„ฐ์…‹์—์„œ StyleGAN2๋ฅผ ๋Šฅ๊ฐ€ํ•˜๊ณ  ์ตœ์‹  GAN ๋ฐ ํ™•์‚ฐ ๋ชจ๋ธ๋“ค๊ณผ ๊ฒฌ์ค„ ๋งŒํ•œ ์„ฑ๋Šฅ์„ ๋ณด์—ฌ์ฃผ์—ˆ์Šต๋‹ˆ๋‹ค.

LLM ์ถ”๋ก  ๋ฐ ์ตœ์ ํ™” ์˜์—ญ

REINFORCE++: A Simple and Efficient Approach for Aligning Large Language Models

Paper, Project

REINFORCE++๋Š” ์ธ๊ฐ„์˜ ์„ ํ˜ธ๋„์— ๋งž๊ฒŒ ๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ์„ ์กฐ์ •ํ•˜๋Š” ์ธ๊ฐ„ ํ”ผ๋“œ๋ฐฑ ๊ธฐ๋ฐ˜ ๊ฐ•ํ™”ํ•™์Šต(RLHF)์˜ ์ƒˆ๋กœ์šด ๋ฐฉ๋ฒ•์ž…๋‹ˆ๋‹ค. ๊ธฐ์กด์˜ REINFORCE ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ ๊ฐœ์„ ํ•˜์—ฌ PPO์˜ ํ•ต์‹ฌ ์ตœ์ ํ™” ๊ธฐ๋ฒ•๋“ค์„ ํ†ตํ•ฉํ•˜๋ฉด์„œ๋„ ๋น„ํ‰๊ฐ€ ๋„คํŠธ์›Œํฌ(critic network)์˜ ํ•„์š”์„ฑ์„ ์ œ๊ฑฐํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ๋‹จ์ˆœ์„ฑ, ํ–ฅ์ƒ๋œ ํ•™์Šต ์•ˆ์ •์„ฑ, ๊ฐ์†Œ๋œ ๊ณ„์‚ฐ ๋ถ€ํ•˜๋ผ๋Š” ์„ธ ๊ฐ€์ง€ ์ฃผ์š” ๋ชฉํ‘œ๋ฅผ ๋‹ฌ์„ฑํ–ˆ์œผ๋ฉฐ, ์‹คํ—˜์„ ํ†ตํ•ด GRPO๋ณด๋‹ค ๋” ๋‚˜์€ ์•ˆ์ •์„ฑ์„ ๋ณด์ด๊ณ  PPO๋ณด๋‹ค ๋” ํšจ์œจ์ ์ธ ๊ณ„์‚ฐ์„ ํ•˜๋ฉด์„œ๋„ ๋น„์Šทํ•œ ์ˆ˜์ค€์˜ ์„ฑ๋Šฅ์„ ์œ ์ง€ํ•จ์„ ์ž…์ฆํ–ˆ์Šต๋‹ˆ๋‹ค.

Search-o1: Agentic Search-Enhanced Large Reasoning Models

Paper, Project

Search-o1์€ ๋Œ€๊ทœ๋ชจ ์ถ”๋ก  ๋ชจ๋ธ(LRM)์˜ ์ง€์‹ ๋ถ€์กฑ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•œ ์ƒˆ๋กœ์šด ํ”„๋ ˆ์ž„์›Œํฌ์ž…๋‹ˆ๋‹ค. ๋ชจ๋ธ์ด ๋ถˆํ™•์‹คํ•œ ์ง€์‹์— ์ง๋ฉดํ–ˆ์„ ๋•Œ ๋™์ ์œผ๋กœ ์™ธ๋ถ€ ์ง€์‹์„ ๊ฒ€์ƒ‰ํ•  ์ˆ˜ ์žˆ๋Š” ์—์ด์ „ํŠธ ๊ธฐ๋ฐ˜ ๊ฒ€์ƒ‰-์ฆ๊ฐ• ์ƒ์„ฑ(RAG) ๋ฉ”์ปค๋‹ˆ์ฆ˜์„ ๋„์ž…ํ•˜๊ณ , ๊ฒ€์ƒ‰๋œ ๋ฌธ์„œ๋ฅผ ์ •์ œํ•˜๋Š” Reason-in-Documents ๋ชจ๋“ˆ์„ ํ†ตํ•ด ์ถ”๋ก  ๊ณผ์ •์— ๋…ธ์ด์ฆˆ๋ฅผ ์ตœ์†Œํ™”ํ•˜๋ฉด์„œ ํ•„์š”ํ•œ ์ •๋ณด๋ฅผ ํ†ตํ•ฉํ•ฉ๋‹ˆ๋‹ค. ๊ณผํ•™, ์ˆ˜ํ•™, ์ฝ”๋”ฉ ๋“ฑ์˜ ๋ณต์žกํ•œ ์ถ”๋ก  ์ž‘์—…๊ณผ 6๊ฐœ์˜ ์˜คํ”ˆ ๋„๋ฉ”์ธ QA ๋ฒค์น˜๋งˆํฌ์—์„œ ์‹ค์‹œํ•œ ๊ด‘๋ฒ”์œ„ํ•œ ์‹คํ—˜์„ ํ†ตํ•ด ์šฐ์ˆ˜ํ•œ ์„ฑ๋Šฅ์„ ์ž…์ฆํ–ˆ์œผ๋ฉฐ, ์ด๋Š” ๋ณต์žกํ•œ ์ถ”๋ก  ์ž‘์—…์—์„œ LRM์˜ ์‹ ๋ขฐ์„ฑ๊ณผ ์ ์šฉ ๊ฐ€๋Šฅ์„ฑ์„ ํฌ๊ฒŒ ํ–ฅ์ƒ์‹œ์ผฐ์Šต๋‹ˆ๋‹ค.

Towards System 2 Reasoning in LLMs: Learning How to Think With Meta Chain-of-Though

Paper

Meta Chain-of-Thought(Meta-CoT)๋Š” ์ „ํ†ต์ ์ธ Chain-of-Thought(CoT) ๋ฐฉ์‹์„ ํ™•์žฅํ•˜์—ฌ ํŠน์ • ์‚ฌ๊ณ  ๊ณผ์ •์— ๋„๋‹ฌํ•˜๋Š”๋ฐ ํ•„์š”ํ•œ ๊ทผ๋ณธ์ ์ธ ์ถ”๋ก  ๊ณผ์ •์„ ๋ช…์‹œ์ ์œผ๋กœ ๋ชจ๋ธ๋งํ•˜๋Š” ์ƒˆ๋กœ์šด ํ”„๋ ˆ์ž„์›Œํฌ์ž…๋‹ˆ๋‹ค. ์ตœ์‹  ๋ชจ๋ธ๋“ค์ด ๋งฅ๋ฝ ๋‚ด ๊ฒ€์ƒ‰๊ณผ ์ผ์น˜ํ•˜๋Š” ํ–‰๋™์„ ๋ณด์ธ๋‹ค๋Š” ๊ฒฝํ—˜์  ์ฆ๊ฑฐ๋ฅผ ์ œ์‹œํ•˜๊ณ , ๊ณผ์ • ๊ฐ๋…, ํ•ฉ์„ฑ ๋ฐ์ดํ„ฐ ์ƒ์„ฑ, ๊ฒ€์ƒ‰ ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ ํ†ตํ•ด Meta-CoT๋ฅผ ์ƒ์„ฑํ•˜๋Š” ๋ฐฉ๋ฒ•์„ ํƒ๊ตฌํ•ฉ๋‹ˆ๋‹ค. ํŠนํžˆ ์„ ํ˜•ํ™”๋œ ๊ฒ€์ƒ‰ ์ถ”์ ๊ณผ ๊ฐ•ํ™”ํ•™์Šต ์‚ฌํ›„ ํ›ˆ๋ จ์„ ํฌํ•จํ•œ ๊ตฌ์ฒด์ ์ธ ๋ชจ๋ธ ํ›ˆ๋ จ ํŒŒ์ดํ”„๋ผ์ธ์„ ์ œ์‹œํ•˜๋ฉฐ, ์ด๋Š” ์ธ๊ณต์ง€๋Šฅ์˜ ๋” ๊ฐ•๋ ฅํ•˜๊ณ  ์ธ๊ฐ„๋‹ค์šด ์ถ”๋ก ์„ ์œ„ํ•œ ์ด๋ก ์ , ์‹ค์šฉ์  ๋กœ๋“œ๋งต์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.

Agent Laboratory: Using LLM Agents as Research Assistants

Paper, Project

Agent Laboratory๋Š” ์ธ๊ฐ„์ด ์ œ๊ณตํ•œ ์—ฐ๊ตฌ ์•„์ด๋””์–ด๋ฅผ ๋ฐ”ํƒ•์œผ๋กœ ์ „์ฒด ์—ฐ๊ตฌ ๊ณผ์ •์„ ์ž๋™์œผ๋กœ ์ˆ˜ํ–‰ํ•  ์ˆ˜ ์žˆ๋Š” ๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ(LLM) ๊ธฐ๋ฐ˜ ํ”„๋ ˆ์ž„์›Œํฌ์ž…๋‹ˆ๋‹ค. ๋ฌธํ—Œ ๊ฒ€ํ† , ์‹คํ—˜, ๋ณด๊ณ ์„œ ์ž‘์„ฑ์ด๋ผ๋Š” ์„ธ ๋‹จ๊ณ„๋ฅผ ๊ฑฐ์ณ ์ฝ”๋“œ ์ €์žฅ์†Œ์™€ ์—ฐ๊ตฌ ๋ณด๊ณ ์„œ๋ฅผ ์ƒ์„ฑํ•˜๋ฉฐ, ๊ฐ ๋‹จ๊ณ„์—์„œ ์‚ฌ์šฉ์ž์˜ ํ”ผ๋“œ๋ฐฑ๊ณผ ์ง€์นจ์„ ๋ฐ˜์˜ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๋‹ค์–‘ํ•œ ์ตœ์‹  LLM์„ ํ†ตํ•œ ์‹คํ—˜ ๊ฒฐ๊ณผ, o1-preview๊ฐ€ ๊ฐ€์žฅ ์šฐ์ˆ˜ํ•œ ์—ฐ๊ตฌ ๊ฒฐ๊ณผ๋ฅผ ์ƒ์„ฑํ–ˆ์œผ๋ฉฐ, ์ƒ์„ฑ๋œ ๊ธฐ๊ณ„ํ•™์Šต ์ฝ”๋“œ๋Š” ๊ธฐ์กด ๋ฐฉ๋ฒ•๋“ค๊ณผ ๋น„๊ตํ•ด ์ตœ๊ณ  ์ˆ˜์ค€์˜ ์„ฑ๋Šฅ์„ ๋‹ฌ์„ฑํ–ˆ์Šต๋‹ˆ๋‹ค. ํŠนํžˆ ๊ฐ ๋‹จ๊ณ„์—์„œ์˜ ์ธ๊ฐ„ ํ”ผ๋“œ๋ฐฑ์ด ์—ฐ๊ตฌ์˜ ์ „๋ฐ˜์ ์ธ ํ’ˆ์งˆ์„ ํฌ๊ฒŒ ํ–ฅ์ƒ์‹œ์ผฐ๊ณ , ๊ธฐ์กด ์ž๋™ ์—ฐ๊ตฌ ๋ฐฉ๋ฒ• ๋Œ€๋น„ 84%์˜ ๋น„์šฉ ์ ˆ๊ฐ์„ ๋‹ฌ์„ฑํ–ˆ์Šต๋‹ˆ๋‹ค.

AI ์‘์šฉ ์‹œ์Šคํ…œ ๋ถ„์•ผ

rStar-Math: Small LLMs Can Master Math Reasoning with Self-Evolved Deep Thinking

Paper, Project

rStar-Math๋Š” ์ž‘์€ ์–ธ์–ด ๋ชจ๋ธ(SLM)์ด ๋ชฌํ…Œ์นด๋ฅผ๋กœ ํŠธ๋ฆฌ ํƒ์ƒ‰(MCTS)์„ ํ†ตํ•œ "๊นŠ์€ ์‚ฌ๊ณ "๋ฅผ ํ™œ์šฉํ•˜์—ฌ OpenAI o1๊ณผ ๊ฒฌ์ค„๋งŒํ•œ ์ˆ˜ํ•™ ์ถ”๋ก  ๋Šฅ๋ ฅ์„ ๋‹ฌ์„ฑํ•  ์ˆ˜ ์žˆ์Œ์„ ๋ณด์—ฌ์ฃผ๋Š” ์—ฐ๊ตฌ์ž…๋‹ˆ๋‹ค. ์„ธ ๊ฐ€์ง€ ํ˜์‹ ์ ์ธ ๋ฐฉ๋ฒ•์„ ๋„์ž…ํ–ˆ๋Š”๋ฐ, 1) ์ฝ”๋“œ ์ฆ๊ฐ•๋œ CoT ๋ฐ์ดํ„ฐ ํ•ฉ์„ฑ ๋ฐฉ๋ฒ•์œผ๋กœ ๊ฒ€์ฆ๋œ ๋‹จ๊ณ„๋ณ„ ์ถ”๋ก  ๊ฒฝ๋กœ๋ฅผ ์ƒ์„ฑํ•˜๊ณ , 2) ๋‹จ์ˆœํ•œ ๋‹จ๊ณ„๋ณ„ ์ ์ˆ˜ ์ฃผ์„์„ ํ”ผํ•˜๋Š” ์ƒˆ๋กœ์šด ๊ณผ์ • ๋ณด์ƒ ๋ชจ๋ธ ํ•™์Šต ๋ฐฉ๋ฒ•์„ ๊ฐœ๋ฐœํ•˜๋ฉฐ, 3) ์ •์ฑ… SLM๊ณผ ๊ณผ์ • ์„ ํ˜ธ๋„ ๋ชจ๋ธ์„ ์ฒ˜์Œ๋ถ€ํ„ฐ ๊ตฌ์ถ•ํ•˜์—ฌ ๋ฐ˜๋ณต์ ์œผ๋กœ ์ง„ํ™”์‹œํ‚ค๋Š” ์ž๊ฐ€ ์ง„ํ™” ๋ฐฉ์‹์„ ์ ์šฉํ–ˆ์Šต๋‹ˆ๋‹ค. 74.7๋งŒ ๊ฐœ์˜ ์ˆ˜ํ•™ ๋ฌธ์ œ์— ๋Œ€ํ•œ ์ˆ˜๋ฐฑ๋งŒ ๊ฐœ์˜ ํ•ฉ์„ฑ ํ•ด๋ฒ•์„ ํ†ตํ•ด 4๋ผ์šด๋“œ์˜ ์ž๊ฐ€ ์ง„ํ™”๋ฅผ ๊ฑฐ์นœ ๊ฒฐ๊ณผ, MATH ๋ฒค์น˜๋งˆํฌ์™€ ๋ฏธ๊ตญ ์ˆ˜ํ•™ ์˜ฌ๋ฆผํ”ผ์•„๋“œ(AIME)์—์„œ ์ตœ๊ณ  ์ˆ˜์ค€์˜ ์„ฑ๋Šฅ์„ ๋‹ฌ์„ฑํ–ˆ์Šต๋‹ˆ๋‹ค.

URSA: Understanding and Verifying Chain-of-thought Reasoning in Multimodal Mathematics

Paper, Project

์ด ์—ฐ๊ตฌ๋Š” ๋‹ค์ค‘ ๋ชจ๋‹ฌ ์ˆ˜ํ•™ ์ถ”๋ก ์— ์‹œ์Šคํ…œ 2 ์Šคํƒ€์ผ์˜ ์‚ฌ๊ณ ๋ฅผ ๋„์ž…ํ•˜๋Š” ์ƒˆ๋กœ์šด ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค. Chain-of-Thought(CoT) ๋ฐ์ดํ„ฐ ํ•ฉ์„ฑ์„ ์œ„ํ•ด CoT ์ฆ๋ฅ˜, ๊ถค์  ํ˜•์‹ ์žฌ์ž‘์„ฑ, ํ˜•์‹ ํ†ตํ•ฉ์ด๋ผ๋Š” ์„ธ ๊ฐ€์ง€ ๋ชจ๋“ˆ์„ ๋„์ž…ํ•˜์—ฌ ๊ณ ํ’ˆ์งˆ์˜ CoT ์ถ”๋ก  ํ•™์Šต ๋ฐ์ดํ„ฐ์…‹์ธ MMathCoT-1M์„ ์ƒ์„ฑํ–ˆ์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ ์‹œ๊ฐ์  ์ ‘์ง€ ์ถฉ์‹ค๋„์™€ ์—ฐ์—ญ์  ์ฒด์ธ ์œ ํšจ์„ฑ์„ ๋ชจ๋‘ ๊ณ ๋ คํ•˜๋Š” ์ด์ค‘ ๊ด€์  ๊ถค์  ๋ผ๋ฒจ๋ง ์ž๋™ํ™”๋ฅผ ๊ตฌํ˜„ํ•˜์—ฌ DualMath-1.1M ๋ฐ์ดํ„ฐ์…‹์„ ๋งŒ๋“ค์—ˆ์Šต๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ํ•™์Šต๋œ URSA-8B ๋ชจ๋ธ์€ 6๊ฐœ์˜ ์ถ”๋ก  ๋ฒค์น˜๋งˆํฌ์—์„œ ์œ ์‚ฌํ•œ ํฌ๊ธฐ์˜ ๋‹ค์ค‘ ๋ชจ๋‹ฌ LLM๋“ค ์ค‘ ์ตœ๊ณ  ์„ฑ๋Šฅ์„ ๋‹ฌ์„ฑํ–ˆ์œผ๋ฉฐ, DualMath-1.1M์œผ๋กœ ์ถ”๊ฐ€ ํ•™์Šต๋œ URSA-RM-8B๋Š” GPT-4o์™€ ๊ฐ™์€ ๊ฐ•๋ ฅํ•œ ๋น„๊ณต๊ฐœ ๋ชจ๋ธ๋“ค๋„ ๋Šฅ๊ฐ€ํ–ˆ์Šต๋‹ˆ๋‹ค.

profile
XR๊ณผ AI์— ๊ด€์‹ฌ์ด ๋งŽ์€ Sky ์ž…๋‹ˆ๋‹ค.

0๊ฐœ์˜ ๋Œ“๊ธ€