[2025/W01] ๐Ÿค— Weekly AI Research

Skyยท2025๋…„ 1์›” 25์ผ

Weekly AI Research Digest

๋ชฉ๋ก ๋ณด๊ธฐ
1/89

2025๋…„ 1์ฃผ์ฐจ์— ๊ณต๊ฐœ๋œ ์ฃผ๋ชฉํ• ๋งŒํ•œ AI ๋ถ„์•ผ์˜ ๋…ผ๋ฌธ๋“ค์„ ์†Œ๊ฐœํ•ฉ๋‹ˆ๋‹ค.

์˜๋ฃŒ/ํ—ฌ์Šค์ผ€์–ด AI ๋ถ„์•ผ

HuatuoGPT-o1, Towards Medical Complex Reasoning with LLMs

Paper, Project

HuatuoGPT-o1์€ ์˜๋ฃŒ ๋ถ„์•ผ์—์„œ์˜ ๋ณต์žกํ•œ ์ถ”๋ก  ๋Šฅ๋ ฅ์„ ํ–ฅ์ƒ์‹œํ‚ค๊ธฐ ์œ„ํ•ด ๊ฐœ๋ฐœ๋œ ์ƒˆ๋กœ์šด ์–ธ์–ด ๋ชจ๋ธ์ž…๋‹ˆ๋‹ค. ์ˆ˜ํ•™๊ณผ ๋‹ฌ๋ฆฌ ์˜๋ฃŒ ๋ถ„์•ผ์—์„œ๋Š” ์ถ”๋ก ์˜ ์ •ํ™•์„ฑ์„ ๊ฒ€์ฆํ•˜๊ธฐ๊ฐ€ ์–ด๋ ต๋‹ค๋Š” ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด, ์˜๋ฃŒ ๊ฒ€์ฆ๊ธฐ(medical verifier)๋ฅผ ๋„์ž…ํ•˜์—ฌ ๋ชจ๋ธ์˜ ์ถœ๋ ฅ์„ ๊ฒ€์ฆํ•  ์ˆ˜ ์žˆ๋Š” ๋ฐฉ๋ฒ•์„ ์ œ์•ˆํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด ๋ชจ๋ธ์€ ๋‘ ๋‹จ๊ณ„๋กœ ๊ฐœ๋ฐœ๋˜์—ˆ๋Š”๋ฐ, ๋จผ์ € ๊ฒ€์ฆ๊ธฐ๋ฅผ ํ†ตํ•ด ๋ณต์žกํ•œ ์ถ”๋ก  ๊ฒฝ๋กœ๋ฅผ ์ฐพ์•„ ๋ชจ๋ธ์„ ๋ฏธ์„ธ์กฐ์ •ํ•˜๊ณ , ์ดํ›„ ๊ฒ€์ฆ๊ธฐ ๊ธฐ๋ฐ˜ ๋ณด์ƒ์„ ํ™œ์šฉํ•œ ๊ฐ•ํ™”ํ•™์Šต์„ ์ ์šฉํ•˜์—ฌ ์ถ”๋ก  ๋Šฅ๋ ฅ์„ ๋”์šฑ ํ–ฅ์ƒ์‹œ์ผฐ์Šต๋‹ˆ๋‹ค. ๋‹จ 4๋งŒ ๊ฐœ์˜ ๊ฒ€์ฆ ๊ฐ€๋Šฅํ•œ ๋ฌธ์ œ๋งŒ์œผ๋กœ๋„ ๊ธฐ์กด์˜ ์ผ๋ฐ˜ ๋ฐ ์˜๋ฃŒ ํŠนํ™” ๋ชจ๋ธ๋“ค๋ณด๋‹ค ์šฐ์ˆ˜ํ•œ ์„ฑ๋Šฅ์„ ๋ณด์—ฌ์ฃผ์—ˆ์Šต๋‹ˆ๋‹ค.

On the Compositional Generalization of Multimodal LLMs for Medical Imaging

Paper, Project

์ด ์—ฐ๊ตฌ๋Š” ๋‹ค์ค‘ ๋ชจ๋‹ฌ ๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ(MLLM)์˜ ์˜๋ฃŒ ๋ถ„์•ผ ํ™œ์šฉ์—์„œ ํ•ฉ์„ฑ์  ์ผ๋ฐ˜ํ™”(Compositional Generalization) ๋Šฅ๋ ฅ์„ ๋ถ„์„ํ–ˆ์Šต๋‹ˆ๋‹ค. ์˜๋ฃŒ ์ด๋ฏธ์ง€๋Š” ์ดฌ์˜ ๋ฐฉ์‹(Modality), ํ•ด๋ถ€ํ•™์  ์˜์—ญ(Anatomical area), ์ž‘์—…(Task)์œผ๋กœ ์ •ํ™•ํžˆ ์ •์˜๋  ์ˆ˜ ์žˆ๋‹ค๋Š” ์ ์— ์ฐฉ์•ˆํ•˜์—ฌ, 106๊ฐœ์˜ ์˜๋ฃŒ ๋ฐ์ดํ„ฐ์…‹์œผ๋กœ ๊ตฌ์„ฑ๋œ Med-MAT๋ฅผ ๊ตฌ์ถ•ํ–ˆ์Šต๋‹ˆ๋‹ค. ์‹คํ—˜ ๊ฒฐ๊ณผ, MLLM์ด ์ด๋ฏธ ํ•™์Šตํ•œ ์š”์†Œ๋“ค์„ ์žฌ์กฐํ•ฉํ•˜์—ฌ ์ฒ˜์Œ ๋ณด๋Š” ์˜๋ฃŒ ์ด๋ฏธ์ง€๋„ ์ดํ•ดํ•  ์ˆ˜ ์žˆ์Œ์„ ํ™•์ธํ–ˆ์œผ๋ฉฐ, ์ด๋Ÿฌํ•œ ํ•ฉ์„ฑ์  ์ผ๋ฐ˜ํ™”๊ฐ€ ๋‹ค์ค‘ ์ž‘์—… ํ•™์Šต์—์„œ ๊ด€์ฐฐ๋˜๋Š” ์ผ๋ฐ˜ํ™”์˜ ์ฃผ์š” ๋™์ธ์ž„์„ ๋ฐํ˜”์Šต๋‹ˆ๋‹ค. ํŠนํžˆ ์ด ์ ‘๊ทผ๋ฐฉ์‹์€ ์ œํ•œ๋œ ๋ฐ์ดํ„ฐ์…‹์—์„œ๋„ ํšจ๊ณผ์ ์œผ๋กœ ์ž‘๋™ํ•˜๊ณ  ๋‹ค์–‘ํ•œ ๋ชจ๋ธ ๊ตฌ์กฐ์—์„œ ์ผ๊ด€๋œ ์„ฑ๋Šฅ์„ ๋ณด์—ฌ์ฃผ์—ˆ์Šต๋‹ˆ๋‹ค.

์ปดํ“จํ„ฐ ๋น„์ „/๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๋ถ„์•ผ

VideoRefer Suite: Advancing Spatial-Temporal Object Understanding with Video LLM

Paper, Project

VideoRefer Suite๋Š” ๋น„๋””์˜ค ๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ(Video LLM)์ด ๋น„๋””์˜ค ๋‚ด์˜ ์‹œ๊ณต๊ฐ„์  ์„ธ๋ถ€ ์‚ฌํ•ญ์„ ๋” ์ •ํ™•ํ•˜๊ฒŒ ์ดํ•ดํ•  ์ˆ˜ ์žˆ๋„๋ก ๊ฐœ๋ฐœ๋œ ์ข…ํ•ฉ์ ์ธ ํ”„๋ ˆ์ž„์›Œํฌ์ž…๋‹ˆ๋‹ค. ์ด ํ”„๋ ˆ์ž„์›Œํฌ๋Š” ์„ธ ๊ฐ€์ง€ ํ•ต์‹ฌ ์š”์†Œ๋กœ ๊ตฌ์„ฑ๋ฉ๋‹ˆ๋‹ค: 1) ๋‹ค์ค‘ ์—์ด์ „ํŠธ ๋ฐ์ดํ„ฐ ์—”์ง„์„ ํ†ตํ•ด ๊ตฌ์ถ•ํ•œ 70๋งŒ ๊ฐœ์˜ ๊ฐ์ฒด ์ˆ˜์ค€ ๋น„๋””์˜ค ์ง€์‹œ ๋ฐ์ดํ„ฐ์…‹(VideoRefer-700K), 2) ์ •ํ™•ํ•œ ์ง€์—ญ์ , ์ˆœ์ฐจ์  ํ‘œํ˜„์„ ํฌ์ฐฉํ•  ์ˆ˜ ์žˆ๋Š” ์‹œ๊ณต๊ฐ„ ๊ฐ์ฒด ์ธ์ฝ”๋”๋ฅผ ๊ฐ–์ถ˜ VideoRefer ๋ชจ๋ธ, 3) Video LLM์˜ ์‹œ๊ณต๊ฐ„์  ์ดํ•ด ๋Šฅ๋ ฅ์„ ์ข…ํ•ฉ์ ์œผ๋กœ ํ‰๊ฐ€ํ•˜๊ธฐ ์œ„ํ•œ VideoRefer-Bench์ž…๋‹ˆ๋‹ค. ์‹คํ—˜ ๊ฒฐ๊ณผ, ์ด ๋ชจ๋ธ์€ ๋น„๋””์˜ค ๋‚ด ๊ฐ์ฒด ์ฐธ์กฐ ์ž‘์—…์—์„œ ์šฐ์ˆ˜ํ•œ ์„ฑ๋Šฅ์„ ๋ณด์—ฌ์ฃผ์—ˆ์„ ๋ฟ๋งŒ ์•„๋‹ˆ๋ผ, ์ „๋ฐ˜์ ์ธ ๋น„๋””์˜ค ์ดํ•ด ๋Šฅ๋ ฅ๋„ ํ–ฅ์ƒ์‹œ์ผฐ์Šต๋‹ˆ๋‹ค.

VideoAnydoor: High-fidelity Video Object Insertion with Precise Motion Control

Paper, Project

VideoAnydoor๋Š” ์ฃผ์–ด์ง„ ๊ฐ์ฒด๋ฅผ ๋น„๋””์˜ค์— ์ž์—ฐ์Šค๋Ÿฝ๊ฒŒ ์‚ฝ์ž…ํ•  ์ˆ˜ ์žˆ๋Š” ์ƒˆ๋กœ์šด ํ”„๋ ˆ์ž„์›Œํฌ์ž…๋‹ˆ๋‹ค. ๊ฐ์ฒด์˜ ์„ธ๋ถ€์ ์ธ ์™ธ๊ด€์„ ์œ ์ง€ํ•˜๋ฉด์„œ ๋™์‹œ์— ์ผ๊ด€๋œ ์›€์ง์ž„์„ ๋งŒ๋“ค์–ด๋‚ด๋Š” ๊ฒƒ์ด ํ•ต์‹ฌ์ธ๋ฐ, ์ด๋ฅผ ์œ„ํ•ด ID ์ถ”์ถœ๊ธฐ๋กœ ์ „๋ฐ˜์ ์ธ ํŠน์„ฑ์„ ์ฃผ์ž…ํ•˜๊ณ  ๋ฐ•์Šค ์‹œํ€€์Šค๋กœ ์ „์ฒด์ ์ธ ์›€์ง์ž„์„ ์ œ์–ดํ•ฉ๋‹ˆ๋‹ค. ํŠนํžˆ 'pixel warper'๋ผ๋Š” ์ƒˆ๋กœ์šด ๊ธฐ์ˆ ์„ ๋„์ž…ํ•˜์—ฌ ์ฐธ์กฐ ์ด๋ฏธ์ง€์˜ ์ฃผ์š” ์ง€์ ๋“ค๊ณผ ๊ทธ๋“ค์˜ ์›€์ง์ž„ ๊ถค์ ์„ ์ž…๋ ฅ๋ฐ›์•„ ์„ธ๋ถ€์ ์ธ ์™ธ๊ด€๊ณผ ์›€์ง์ž„์„ ์ •๊ตํ•˜๊ฒŒ ์ œ์–ดํ•ฉ๋‹ˆ๋‹ค. ๋˜ํ•œ ๋น„๋””์˜ค์™€ ์ •์  ์ด๋ฏธ์ง€๋ฅผ ๋ชจ๋‘ ํ™œ์šฉํ•˜๋Š” ๊ฐ€์ค‘ ์†์‹ค ๊ธฐ๋ฐ˜ ํ›ˆ๋ จ ์ „๋žต์„ ํ†ตํ•ด ์‚ฝ์ž… ํ’ˆ์งˆ์„ ํ–ฅ์ƒ์‹œ์ผฐ์œผ๋ฉฐ, ์ถ”๊ฐ€ ํ•™์Šต ์—†์ด๋„ ํ† ํ‚นํ—ค๋“œ ์ƒ์„ฑ, ๊ฐ€์ƒ ์ฐฉ์šฉ, ๋‹ค์ค‘ ์˜์—ญ ํŽธ์ง‘ ๋“ฑ ๋‹ค์–‘ํ•œ ์‘์šฉ์ด ๊ฐ€๋Šฅํ•ฉ๋‹ˆ๋‹ค.

2.5 Years in Class: A Multimodal Textbook for Vision-Language Pretraining

Paper, Project

์ด ์—ฐ๊ตฌ๋Š” ๊ธฐ์กด์˜ ์›น ํฌ๋กค๋ง ๊ธฐ๋ฐ˜ ๋ฐ์ดํ„ฐ์…‹์˜ ํ•œ๊ณ„๋ฅผ ๊ทน๋ณตํ•˜๊ธฐ ์œ„ํ•ด, ์˜จ๋ผ์ธ ๊ต์œก ๋น„๋””์˜ค๋ฅผ ํ™œ์šฉํ•œ ์ƒˆ๋กœ์šด '๋‹ค์ค‘ ๋ชจ๋‹ฌ ๊ต๊ณผ์„œ' ๋ฐ์ดํ„ฐ์…‹์„ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค. 2.5๋…„ ๋ถ„๋Ÿ‰์˜ 22,000์‹œ๊ฐ„์— ๋‹ฌํ•˜๋Š” ๊ต์œก ๋น„๋””์˜ค์—์„œ ํ•ต์‹ฌ ํ”„๋ ˆ์ž„, ์Œ์„ฑ ํ…์ŠคํŠธ, OCR ํ…์ŠคํŠธ๋ฅผ ์ถ”์ถœํ•˜๊ณ  ์‹œ๊ฐ„ ์ˆœ์„œ๋Œ€๋กœ ์ •๋ฆฌํ•˜์—ฌ, ๋” ํ’๋ถ€ํ•œ ๊ธฐ์ดˆ ์ง€์‹๊ณผ ๋…ผ๋ฆฌ์  ์ผ๊ด€์„ฑ์„ ๊ฐ€์ง„ ์ด๋ฏธ์ง€-ํ…์ŠคํŠธ ๋ฐ์ดํ„ฐ์…‹์„ ๊ตฌ์ถ•ํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ํ•™์Šต๋œ ์‹œ๊ฐ-์–ธ์–ด ๋ชจ๋ธ(VLM)์€ ํŠนํžˆ ScienceQA์™€ MathVista ๊ฐ™์€ ์ง€์‹๊ณผ ์ถ”๋ก ์ด ํ•„์š”ํ•œ ์ž‘์—…์—์„œ ์šฐ์ˆ˜ํ•œ ์„ฑ๋Šฅ์„ ๋ณด์—ฌ์ฃผ์—ˆ์œผ๋ฉฐ, ๋งฅ๋ฝ์„ ์ดํ•ดํ•˜๊ณ  ์‹œ๊ฐ์ , ํ…์ŠคํŠธ์  ๋‹จ์„œ๋ฅผ ํ™œ์šฉํ•˜๋Š” ๋Šฅ๋ ฅ๋„ ํ–ฅ์ƒ๋˜์—ˆ์Šต๋‹ˆ๋‹ค.

Explanatory Instructions: Towards Unified Vision Tasks Understanding and Zero-shot Generalization

Paper, Project

์ด ์—ฐ๊ตฌ๋Š” ์ปดํ“จํ„ฐ ๋น„์ „(CV)์ด ์ž์—ฐ์–ด ์ฒ˜๋ฆฌ(NLP)๋งŒํผ์˜ ์ œ๋กœ์ƒท ์ž‘์—… ์ผ๋ฐ˜ํ™” ๋Šฅ๋ ฅ์„ ๋‹ฌ์„ฑํ•˜์ง€ ๋ชปํ•˜๋Š” ์ด์œ ๋ฅผ ํƒ๊ตฌํ•ฉ๋‹ˆ๋‹ค. ์—ฐ๊ตฌ์ง„์€ CV๊ฐ€ "์ด๋ฏธ์ง€ ๋ถ„ํ• "๊ณผ ๊ฐ™์€ ๋‹จ์ˆœํ•œ ์šฉ์–ด์  ์ •์˜๋ฅผ ์‚ฌ์šฉํ•˜๋Š” ๊ฒƒ์ด ์ฃผ์š” ์žฅ์• ๋ฌผ์ด๋ผ๊ณ  ๋ณด๊ณ , ๋Œ€์‹  ์ž…๋ ฅ ์ด๋ฏธ์ง€์—์„œ ์ถœ๋ ฅ๊นŒ์ง€์˜ ๊ณผ์ •์„ ์ƒ์„ธํžˆ ์„ค๋ช…ํ•˜๋Š” '์„ค๋ช…์  ์ง€์‹œ์‚ฌํ•ญ(Explanatory Instructions)'์„ ๋„์ž…ํ–ˆ์Šต๋‹ˆ๋‹ค. 1,200๋งŒ ๊ฐœ์˜ "์ด๋ฏธ์ง€ ์ž…๋ ฅ โ†’ ์„ค๋ช…์  ์ง€์‹œ์‚ฌํ•ญ โ†’ ์ถœ๋ ฅ" ๋ฐ์ดํ„ฐ์…‹์„ ๊ตฌ์ถ•ํ•˜์—ฌ ์ž๋™ ํšŒ๊ท€ ๊ธฐ๋ฐ˜ ์‹œ๊ฐ-์–ธ์–ด ๋ชจ๋ธ์„ ํ•™์Šต์‹œ์ผฐ๊ณ , ๊ทธ ๊ฒฐ๊ณผ ๋ชจ๋ธ์€ ๊ธฐ์กด์— ๋ณด์ง€ ๋ชปํ•œ CV ์ž‘์—…์— ๋Œ€ํ•ด์„œ๋„ ๊ฐ•๋ ฅํ•œ ์ œ๋กœ์ƒท ์ผ๋ฐ˜ํ™” ๋Šฅ๋ ฅ์„ ๋ณด์—ฌ์ฃผ์—ˆ์Šต๋‹ˆ๋‹ค.

๋ชจ๋ธ ์ตœ์ ํ™”/ํšจ์œจํ™” ๋ถ„์•ผ

1.58-bit FLUX

Paper, Project

1.58-bit FLUX๋Š” ์ตœ์‹  ํ…์ŠคํŠธ-์ด๋ฏธ์ง€ ์ƒ์„ฑ ๋ชจ๋ธ์ธ FLUX.1-dev๋ฅผ ๋‹จ 1.58๋น„ํŠธ(-1, 0, +1 ๊ฐ’๋งŒ ์‚ฌ์šฉ)๋กœ ์–‘์žํ™”ํ•˜๋Š”๋ฐ ์„ฑ๊ณตํ•œ ์ฒซ ๋ฒˆ์งธ ์ ‘๊ทผ๋ฒ•์ž…๋‹ˆ๋‹ค. ํŠนํžˆ ์ด๋ฏธ์ง€ ๋ฐ์ดํ„ฐ ์—†์ด FLUX.1-dev ๋ชจ๋ธ์˜ ์ž๊ธฐ ๊ฐ๋… ํ•™์Šต๋งŒ์œผ๋กœ ์–‘์žํ™”๋ฅผ ์ˆ˜ํ–‰ํ•˜๋ฉด์„œ๋„, 1024 x 1024 ํ•ด์ƒ๋„์˜ ์ด๋ฏธ์ง€ ์ƒ์„ฑ์—์„œ ์›๋ณธ๊ณผ ๋น„์Šทํ•œ ์„ฑ๋Šฅ์„ ์œ ์ง€ํ•ฉ๋‹ˆ๋‹ค. 1.58๋น„ํŠธ ์—ฐ์‚ฐ์— ์ตœ์ ํ™”๋œ ์ปค๋„์„ ๊ฐœ๋ฐœํ•˜์—ฌ ๋ชจ๋ธ ์ €์žฅ ๊ณต๊ฐ„์„ 7.7๋ฐฐ, ์ถ”๋ก  ๋ฉ”๋ชจ๋ฆฌ๋ฅผ 5.1๋ฐฐ ์ค„์ด๊ณ  ์ถ”๋ก  ์†๋„๋„ ๊ฐœ์„ ํ–ˆ์œผ๋ฉฐ, GenEval๊ณผ T2I Compbench ๋ฒค์น˜๋งˆํฌ์—์„œ ์ด๋ฏธ์ง€ ์ƒ์„ฑ ํ’ˆ์งˆ์„ ์œ ์ง€ํ•˜๋ฉด์„œ๋„ ๊ณ„์‚ฐ ํšจ์œจ์„ฑ์„ ํฌ๊ฒŒ ํ–ฅ์ƒ์‹œ์ผฐ์Œ์„ ์ž…์ฆํ–ˆ์Šต๋‹ˆ๋‹ค.

Reconstruction vs. Generation: Taming Optimization Dilemma in Latent Diffusion Models

Paper, Project

VA-VAE(Vision foundation model Aligned Variational AutoEncoder)๋Š” ์ž ์žฌ ํ™•์‚ฐ ๋ชจ๋ธ์˜ ์ตœ์ ํ™” ๋”œ๋ ˆ๋งˆ๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•œ ์ƒˆ๋กœ์šด ์ ‘๊ทผ๋ฒ•์ž…๋‹ˆ๋‹ค. ๊ธฐ์กด์—๋Š” ์‹œ๊ฐ ํ† ํฌ๋‚˜์ด์ €์˜ ํŠน์ง• ์ฐจ์›์„ ๋Š˜๋ฆฌ๋ฉด ์žฌ๊ตฌ์„ฑ ํ’ˆ์งˆ์€ ํ–ฅ์ƒ๋˜์ง€๋งŒ, ์ด์— ์ƒ์‘ํ•˜๋Š” ๋” ํฐ ํ™•์‚ฐ ๋ชจ๋ธ๊ณผ ๋” ๋งŽ์€ ํ•™์Šต ๋ฐ˜๋ณต์ด ํ•„์š”ํ–ˆ์Šต๋‹ˆ๋‹ค. VA-VAE๋Š” ์‹œ๊ฐ ํ† ํฌ๋‚˜์ด์ €๋ฅผ ํ•™์Šตํ•  ๋•Œ ์‚ฌ์ „ ํ•™์Šต๋œ ์‹œ๊ฐ ๊ธฐ๋ฐ˜ ๋ชจ๋ธ๊ณผ ์ž ์žฌ ๊ณต๊ฐ„์„ ์ •๋ ฌํ•จ์œผ๋กœ์จ ์ด ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•ฉ๋‹ˆ๋‹ค. ๊ฐœ์„ ๋œ ํ•™์Šต ์ „๋žต๊ณผ ๊ตฌ์กฐ ์„ค๊ณ„๋ฅผ ์ ์šฉํ•œ LightningDiT์™€ ๊ฒฐํ•ฉํ•˜์—ฌ, ImageNet 256x256 ์ด๋ฏธ์ง€ ์ƒ์„ฑ์—์„œ ์ตœ๊ณ  ์„ฑ๋Šฅ(FID 1.35)์„ ๋‹ฌ์„ฑํ–ˆ์œผ๋ฉฐ, ํŠนํžˆ 64 ์—ํฌํฌ๋งŒ์— FID 2.11 ์ ์ˆ˜์— ๋„๋‹ฌํ•˜์—ฌ ๊ธฐ์กด DiT๋ณด๋‹ค 21๋ฐฐ ์ด์ƒ ๋น ๋ฅธ ํ•™์Šต ์†๋„๋ฅผ ๋ณด์—ฌ์ฃผ์—ˆ์Šต๋‹ˆ๋‹ค.

AI ์‹œ์Šคํ…œ/ํ”„๋ ˆ์ž„์›Œํฌ ๋ถ„์•ผ

OS-Genesis: Automating GUI Agent Trajectory Construction via Reverse Task Synthesis

Paper, Project

OS-Genesis๋Š” GUI ์—์ด์ „ํŠธ ํ•™์Šต์„ ์œ„ํ•œ ์ƒˆ๋กœ์šด ๋ฐ์ดํ„ฐ ํ•ฉ์„ฑ ํŒŒ์ดํ”„๋ผ์ธ์ž…๋‹ˆ๋‹ค. ๊ธฐ์กด์˜ ๋ฐฉ์‹์ด ๋ฏธ๋ฆฌ ์ •์˜๋œ ์ž‘์—…์„ ์‹คํ–‰ํ•˜๊ฑฐ๋‚˜ ์ธ๊ฐ„์˜ ๊ฐ๋…์— ์˜์กดํ–ˆ๋˜ ๊ฒƒ๊ณผ ๋‹ฌ๋ฆฌ, OS-Genesis๋Š” ์ด ๊ณผ์ •์„ ๋’ค์ง‘์–ด ์—์ด์ „ํŠธ๊ฐ€ ๋จผ์ € ํ™˜๊ฒฝ์„ ์ธ์‹ํ•˜๊ณ  ์ƒํ˜ธ์ž‘์šฉํ•œ ํ›„, ๊ทธ ๊ฒฐ๊ณผ๋กœ๋ถ€ํ„ฐ ๊ณ ํ’ˆ์งˆ์˜ ์ž‘์—…์„ ๋„์ถœํ•˜๋Š” ๋ฐฉ์‹์„ ์ฑ„ํƒํ•ฉ๋‹ˆ๋‹ค. ๋˜ํ•œ ๊ถค์  ๋ณด์ƒ ๋ชจ๋ธ์„ ์‚ฌ์šฉํ•˜์—ฌ ์ƒ์„ฑ๋œ ์ƒํ˜ธ์ž‘์šฉ ๊ถค์ ์˜ ํ’ˆ์งˆ์„ ๋ณด์žฅํ•ฉ๋‹ˆ๋‹ค. ์‹คํ—˜ ๊ฒฐ๊ณผ, OS-Genesis๋กœ ํ•™์Šต๋œ GUI ์—์ด์ „ํŠธ๋“ค์€ ๊ธฐ์กด ๋ฐ์ดํ„ฐ ํ•ฉ์„ฑ ๋ฐฉ๋ฒ•๋“ค๋ณด๋‹ค ๋” ๋‚˜์€ ๋ฐ์ดํ„ฐ ํ’ˆ์งˆ๊ณผ ๋‹ค์–‘์„ฑ์„ ๋ณด์—ฌ์ฃผ์—ˆ์œผ๋ฉฐ, ์–ด๋ ค์šด ์˜จ๋ผ์ธ ๋ฒค์น˜๋งˆํฌ์—์„œ๋„ ๋›ฐ์–ด๋‚œ ์„ฑ๋Šฅ์„ ๋‹ฌ์„ฑํ–ˆ์Šต๋‹ˆ๋‹ค.

CodeElo: Benchmarking Competition-level Code Generation of LLMs with Human-comparable Elo Ratings

Paper, Project

CodeElo๋Š” ๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ(LLM)์˜ ๊ณ ๊ธ‰ ์ฝ”๋”ฉ ๋Šฅ๋ ฅ์„ ํ‰๊ฐ€ํ•˜๊ธฐ ์œ„ํ•œ ์ƒˆ๋กœ์šด ๊ฒฝ์Ÿ ์ˆ˜์ค€์˜ ์ฝ”๋“œ ์ƒ์„ฑ ๋ฒค์น˜๋งˆํฌ์ž…๋‹ˆ๋‹ค. CodeForces ํ”Œ๋žซํผ์„ ๊ธฐ๋ฐ˜์œผ๋กœ ํ•˜์—ฌ, ์ตœ๊ทผ 6๊ฐœ์›”๊ฐ„์˜ ๋Œ€ํšŒ ๋ฌธ์ œ๋“ค์„ ๋‚œ์ด๋„ ๋“ฑ๊ธ‰, ์•Œ๊ณ ๋ฆฌ์ฆ˜ ํƒœ๊ทธ ๋“ฑ ์ƒ์„ธ ์ •๋ณด์™€ ํ•จ๊ป˜ ์ˆ˜์ง‘ํ–ˆ์œผ๋ฉฐ, ๋ฌธ์ œ๋ฅผ ์ง์ ‘ ํ”Œ๋žซํผ์— ์ œ์ถœํ•˜์—ฌ ํ‰๊ฐ€ํ•˜๋Š” ๋…ํŠนํ•œ ์‹ฌ์‚ฌ ๋ฐฉ์‹์„ ๋„์ž…ํ–ˆ์Šต๋‹ˆ๋‹ค. ํŠนํžˆ ์ธ๊ฐ„ ์ฐธ๊ฐ€์ž๋“ค๊ณผ ๋น„๊ต ๊ฐ€๋Šฅํ•œ Elo ๋“ฑ๊ธ‰ ๊ณ„์‚ฐ ์‹œ์Šคํ…œ์„ ๊ฐœ๋ฐœํ•˜์—ฌ, 33๊ฐœ์˜ LLM์„ ํ‰๊ฐ€ํ•œ ๊ฒฐ๊ณผ o1-mini์™€ QwQ-32B-Preview๊ฐ€ ๊ฐ๊ฐ 1578๊ณผ 1261์˜ Elo ๋“ฑ๊ธ‰์„ ๋‹ฌ์„ฑํ•œ ๋ฐ˜๋ฉด, ๋‹ค๋ฅธ ๋ชจ๋ธ๋“ค์€ ๊ฐ€์žฅ ์‰ฌ์šด ๋ฌธ์ œ๋“ค๋„ ์–ด๋ ค์›Œํ•˜๋ฉฐ ์ธ๊ฐ„ ์ฐธ๊ฐ€์ž ์ค‘ ํ•˜์œ„ 25%์— ๋จธ๋ฌผ๋ €์Šต๋‹ˆ๋‹ค.

Next Token Prediction Towards Multimodal Intelligence: A Comprehensive Survey

Paper, Project

์ด ์—ฐ๊ตฌ๋Š” ์ž์—ฐ์–ด ์ฒ˜๋ฆฌ์—์„œ ์‹œ์ž‘๋œ ๋‹ค์Œ ํ† ํฐ ์˜ˆ์ธก(Next Token Prediction, NTP)์ด ๋‹ค์–‘ํ•œ ๋ชจ๋‹ฌ๋ฆฌํ‹ฐ(ํ…์ŠคํŠธ, ์ด๋ฏธ์ง€, ๋น„๋””์˜ค ๋“ฑ)์˜ ๊ธฐ๊ณ„ํ•™์Šต ์ž‘์—…์—์„œ ์–ด๋–ป๊ฒŒ ํ™œ์šฉ๋˜๊ณ  ์žˆ๋Š”์ง€ ์ข…ํ•ฉ์ ์œผ๋กœ ๋ถ„์„ํ•ฉ๋‹ˆ๋‹ค. ํŠนํžˆ ๋‹ค์ค‘ ๋ชจ๋‹ฌ ํ† ํฐํ™”, ๋ชจ๋ธ ์•„ํ‚คํ…์ฒ˜, ํ†ตํ•ฉ ์ž‘์—… ํ‘œํ˜„, ๋ฐ์ดํ„ฐ์…‹๊ณผ ํ‰๊ฐ€, ํ–ฅํ›„ ๊ณผ์ œ๋ผ๋Š” ๋‹ค์„ฏ ๊ฐ€์ง€ ํ•ต์‹ฌ ์ธก๋ฉด์—์„œ ๋ถ„๋ฅ˜ ์ฒด๊ณ„๋ฅผ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค. ์ตœ๊ทผ ๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ์ด ํ…์ŠคํŠธ ์˜์—ญ์—์„œ ์ดํ•ด์™€ ์ƒ์„ฑ ์ž‘์—…์„ ํ†ตํ•ฉํ–ˆ๋“ฏ์ด, ๋‹ค๋ฅธ ๋ชจ๋‹ฌ๋ฆฌํ‹ฐ์˜ ์ž‘์—…๋“ค๋„ ์ •๋ณด๋ฅผ ํ† ํฐํ™”ํ•˜์—ฌ NTP ํ”„๋ ˆ์ž„์›Œํฌ ๋‚ด์—์„œ ํšจ๊ณผ์ ์œผ๋กœ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ๋‹ค๋Š” ๊ฒƒ์„ ๋ณด์—ฌ์ฃผ๋ฉฐ, ์ด๋Š” ๋‹ค์ค‘ ๋ชจ๋‹ฌ ์ธ๊ณต์ง€๋Šฅ ์—ฐ๊ตฌ์˜ ์ƒˆ๋กœ์šด ๋ฐฉํ–ฅ์„ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค.

3D/4D ์ƒ์„ฑ ๋ถ„์•ผ

Bringing Objects to Life: 4D generation from 3D objects

Paper, Project

์ด ์—ฐ๊ตฌ๋Š” ์‚ฌ์šฉ์ž๊ฐ€ ์ œ๊ณตํ•œ 3D ๊ฐ์ฒด๋ฅผ ํ…์ŠคํŠธ ํ”„๋กฌํ”„ํŠธ๋ฅผ ํ†ตํ•ด ์• ๋‹ˆ๋ฉ”์ด์…˜ํ™”ํ•˜๋Š” ์ƒˆ๋กœ์šด ๋ฐฉ๋ฒ•์„ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค. ๋จผ์ € 3D ๋ฉ”์‹œ๋ฅผ '์ •์ ' 4D Neural Radiance Field(NeRF)๋กœ ๋ณ€ํ™˜ํ•˜์—ฌ ์›๋ณธ ๊ฐ์ฒด์˜ ์‹œ๊ฐ์  ํŠน์„ฑ์„ ๋ณด์กดํ•˜๊ณ , ์ดํ›„ ํ…์ŠคํŠธ ๊ธฐ๋ฐ˜ ์ด๋ฏธ์ง€-๋น„๋””์˜ค ํ™•์‚ฐ ๋ชจ๋ธ์„ ์‚ฌ์šฉํ•˜์—ฌ ์• ๋‹ˆ๋ฉ”์ด์…˜์„ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. ํŠนํžˆ ์ž์—ฐ์Šค๋Ÿฌ์šด ์›€์ง์ž„์„ ์œ„ํ•œ ์ ์ง„์  ์‹œ์  ์„ ํƒ ํ”„๋กœํ† ์ฝœ๊ณผ ์ฃผ์˜ ๋งต์„ ํ™œ์šฉํ•œ ๋งˆ์Šคํฌ๋“œ Score Distillation Sampling(SDS) ์†์‹ค ํ•จ์ˆ˜๋ฅผ ๋„์ž…ํ–ˆ์Šต๋‹ˆ๋‹ค. ์‹คํ—˜ ๊ฒฐ๊ณผ, ์‹œ๊ฐ„์  ์ผ๊ด€์„ฑ, ํ”„๋กฌํ”„ํŠธ ์ค€์ˆ˜๋„, ์‹œ๊ฐ์  ํ’ˆ์งˆ ๋ฉด์—์„œ ๊ธฐ์กด ๋ฐฉ๋ฒ•๋“ค๋ณด๋‹ค ์šฐ์ˆ˜ํ•œ ์„ฑ๋Šฅ์„ ๋ณด์—ฌ์ฃผ์—ˆ์œผ๋ฉฐ, LPIPS ์ ์ˆ˜ ๊ธฐ์ค€์œผ๋กœ ์ตœ๋Œ€ 3๋ฐฐ ํ–ฅ์ƒ๋œ ์ •์ฒด์„ฑ ๋ณด์กด์„ ๋‹ฌ์„ฑํ–ˆ์Šต๋‹ˆ๋‹ค.

profile
XR๊ณผ AI์— ๊ด€์‹ฌ์ด ๋งŽ์€ Sky ์ž…๋‹ˆ๋‹ค.

0๊ฐœ์˜ ๋Œ“๊ธ€