[2025/W28] ๐Ÿค— Weekly AI Research

Skyยท2025๋…„ 7์›” 11์ผ

Weekly AI Research Digest

๋ชฉ๋ก ๋ณด๊ธฐ
40/89

MemOS์™€ LoRA ์ตœ์ ํ™”๋ฅผ ํ†ตํ•œ LLM ๋ฉ”๋ชจ๋ฆฌ ๊ด€๋ฆฌ ๋ฐ Parameter-Efficient ํ•™์Šต
๊ฐ•ํ™”ํ•™์Šต ๊ธฐ๋ฐ˜ Vision-Language ๋ชจ๋ธ๊ณผ Diffusion ์ƒ์„ฑ ์‹œ์Šคํ…œ์˜ ์‹ค์šฉ์  ์‘์šฉ

TL;DR

1.MemOS: LLM์„ ์œ„ํ•œ ๋ฉ”๋ชจ๋ฆฌ ์šด์˜์ฒด์ œ๋กœ ํ…์ŠคํŠธ, ํ™œ์„ฑํ™”, ๋งค๊ฐœ๋ณ€์ˆ˜ ๋ฉ”๋ชจ๋ฆฌ๋ฅผ ํ†ตํ•ฉ ๊ด€๋ฆฌํ•˜์—ฌ ์žฅ๊ธฐ ์ถ”๋ก ๊ณผ ๊ฐœ์ธํ™”๋ฅผ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•œ๋‹ค.

2.SingLoRA: ๋‹จ์ผ ํ–‰๋ ฌ๊ณผ ๊ทธ ์ „์น˜ํ–‰๋ ฌ์˜ ๊ณฑ์œผ๋กœ LoRA๋ฅผ ๋‹จ์ˆœํ™”ํ•˜์—ฌ ๋งค๊ฐœ๋ณ€์ˆ˜๋ฅผ 50% ์ค„์ด๋ฉด์„œ๋„ ๋” ์•ˆ์ •์ ์ด๊ณ  ๋†’์€ ์„ฑ๋Šฅ์„ ๋‹ฌ์„ฑํ•œ๋‹ค.

3.Scaling RL to Long Videos: 52K ๊ธด ๋น„๋””์˜ค QA ๋ฐ์ดํ„ฐ์…‹๊ณผ MR-SP ํ›ˆ๋ จ ์ธํ”„๋ผ๋กœ LongVILA-R1์ด Gemini-1.5-Pro ์ˆ˜์ค€์˜ ๊ธด ๋น„๋””์˜ค ์ถ”๋ก  ์„ฑ๋Šฅ์„ ๋‹ฌ์„ฑํ•œ๋‹ค.

4.T-LoRA: ํ™•์‚ฐ ์‹œ๊ฐ„ ๋‹จ๊ณ„๋ณ„๋กœ ๋‹ค๋ฅธ ๊ฐ•๋„์˜ ์—…๋ฐ์ดํŠธ๋ฅผ ์ ์šฉํ•˜์—ฌ ๋‹จ์ผ ์ด๋ฏธ์ง€ ํ™•์‚ฐ ๋ชจ๋ธ ๋งž์ถคํ™”์—์„œ ๊ณผ์ ํ•ฉ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•œ๋‹ค.

5.MLM vs CLM: 30๊ฐœ ๋ชจ๋ธ ๋Œ€๊ทœ๋ชจ ์‹คํ—˜์„ ํ†ตํ•ด CLMโ†’MLM ์ˆœ์ฐจ ํ›ˆ๋ จ์ด ๊ณ ์ • ์˜ˆ์‚ฐ ํ•˜์—์„œ ์ตœ์  ํ…์ŠคํŠธ ํ‘œํ˜„ ์„ฑ๋Šฅ์„ ๋‹ฌ์„ฑํ•จ์„ ์ž…์ฆํ•œ๋‹ค.

6.A Survey on Latent Reasoning: ์ž์—ฐ์–ด ํ•œ๊ณ„๋ฅผ ๊ทน๋ณตํ•˜์—ฌ ๋ชจ๋ธ์˜ ์ˆจ๊ฒจ์ง„ ์ƒํƒœ์—์„œ ์ง์ ‘ ๋‹ค๋‹จ๊ณ„ ์ถ”๋ก ์„ ์ˆ˜ํ–‰ํ•˜๋Š” ์ž ์žฌ ์ถ”๋ก  ์—ฐ๊ตฌ ๋ถ„์•ผ๋ฅผ ์ข…ํ•ฉ์ ์œผ๋กœ ์ •๋ฆฌํ•œ๋‹ค.

7.4KAgent: ํ”„๋กœํŒŒ์ผ๋ง-์ธ์‹-๋ณต์› ์—์ด์ „ํŠธ ๊ตฌ์กฐ๋กœ 256ร—256 ๊ทน์ €ํ•ด์ƒ๋„ ์ด๋ฏธ์ง€๋ฅผ 4K๋กœ ๋ณ€ํ™˜ํ•˜๋Š” ํ†ตํ•ฉ ์ดˆํ•ด์ƒ๋„ ์‹œ์Šคํ…œ์„ ๊ตฌํ˜„ํ•œ๋‹ค.

8.Agent KB: Reason-Retrieve-Refine ํŒŒ์ดํ”„๋ผ์ธ์œผ๋กœ ์—์ด์ „ํŠธ ๊ฐ„ ๊ฒฝํ—˜ ๊ณต์œ ๋ฅผ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•˜์—ฌ GAIA์—์„œ ์ตœ๋Œ€ 16.28%ํฌ์ธํŠธ ์„ฑ๋Šฅ ํ–ฅ์ƒ์„ ๋‹ฌ์„ฑํ•œ๋‹ค.

9.Skywork-R1V3: ๊ฐ•ํ™”ํ•™์Šต ํ›„ํ›ˆ๋ จ์œผ๋กœ ํ…์ŠคํŠธ LLM์˜ ์ถ”๋ก  ๋Šฅ๋ ฅ์„ ์‹œ๊ฐ ์ž‘์—…์— ์ „์ดํ•˜์—ฌ MMMU์—์„œ 76.0% ์„ฑ๋Šฅ์„ ๋‹ฌ์„ฑํ•œ๋‹ค.

10.OmniPart: ์ž๋™ํšŒ๊ท€ ๊ตฌ์กฐ ๊ณ„ํš๊ณผ ๊ณต๊ฐ„ ์กฐ๊ฑด๋ถ€ ์ƒ์„ฑ์œผ๋กœ ํŽธ์ง‘ ๊ฐ€๋Šฅํ•œ ๋ถ€๋ถ„ ๊ตฌ์กฐ๋ฅผ ๊ฐ€์ง„ 3D ๊ฐ์ฒด๋ฅผ ์ƒ์„ฑํ•˜๋Š” ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ œ์•ˆํ•œ๋‹ค.

MemOS: A Memory OS for AI System

Paper, Project
ํ˜„์žฌ ๋Œ€ํ˜• ์–ธ์–ด๋ชจ๋ธ(LLM)์€ ์ •์  ๋งค๊ฐœ๋ณ€์ˆ˜์™€ ๋‹จ๊ธฐ ๋งฅ๋ฝ ์ƒํƒœ์—๋งŒ ์˜์กดํ•˜์—ฌ ์žฅ๊ธฐ์  ์ถ”๋ก , ์ง€์†์  ๊ฐœ์ธํ™”, ์ง€์‹ ์ผ๊ด€์„ฑ์— ํ•œ๊ณ„๋ฅผ ๋ณด์ธ๋‹ค. ์ด๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด MemOS๋Š” ๋ฉ”๋ชจ๋ฆฌ๋ฅผ ๊ด€๋ฆฌ ๊ฐ€๋Šฅํ•œ ์‹œ์Šคํ…œ ์ž์›์œผ๋กœ ์ทจ๊ธ‰ํ•˜๋Š” ๋ฉ”๋ชจ๋ฆฌ ์šด์˜์ฒด์ œ๋ฅผ ์ œ์•ˆํ•œ๋‹ค. MemCube๋ผ๋Š” ๊ธฐ๋ณธ ๋‹จ์œ„๋ฅผ ํ†ตํ•ด ๋ฉ”๋ชจ๋ฆฌ ๋‚ด์šฉ๊ณผ ์ถœ์ฒ˜, ๋ฒ„์ „ ๋“ฑ์˜ ๋ฉ”ํƒ€๋ฐ์ดํ„ฐ๋ฅผ ์บก์Аํ™”ํ•˜๊ณ , ํ…์ŠคํŠธ, ํ™œ์„ฑํ™” ๊ธฐ๋ฐ˜, ๋งค๊ฐœ๋ณ€์ˆ˜ ์ˆ˜์ค€์˜ ๋ฉ”๋ชจ๋ฆฌ๋ฅผ ํ†ตํ•ฉ์ ์œผ๋กœ ํ‘œํ˜„, ์Šค์ผ€์ค„๋ง, ์ง„ํ™”์‹œํ‚จ๋‹ค. ์ด๋Ÿฌํ•œ ์ ‘๊ทผ์„ ํ†ตํ•ด ๋ฉ”๋ชจ๋ฆฌ ์œ ํ˜• ๊ฐ„ ์œ ์—ฐํ•œ ์ „ํ™˜๊ณผ ๊ฒ€์ƒ‰-๋งค๊ฐœ๋ณ€์ˆ˜ ํ•™์Šต ๊ฐ„์˜ ์—ฐ๊ฒฐ์„ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•˜์—ฌ, LLM์— ์ œ์–ด ๊ฐ€๋Šฅ์„ฑ, ๊ฐ€์†Œ์„ฑ, ์ง„ํ™”์„ฑ์„ ๋ถ€์—ฌํ•˜๋Š” ๋ฉ”๋ชจ๋ฆฌ ์ค‘์‹ฌ ์‹œ์Šคํ…œ ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ๊ตฌ์ถ•ํ•œ๋‹ค.

SingLoRA: Low Rank Adaptation Using a Single Matrix

Paper
๊ธฐ์กด LoRA๋Š” ๋‘ ๊ฐœ์˜ ์ž‘์€ ํ–‰๋ ฌ ๊ณฑ์œผ๋กœ ์‚ฌ์ „ํ›ˆ๋ จ๋œ ๊ฐ€์ค‘์น˜๋ฅผ ์—…๋ฐ์ดํŠธํ•˜๋Š”๋ฐ, ์ด ํ–‰๋ ฌ๋“ค ๊ฐ„์˜ ์Šค์ผ€์ผ ์ฐจ์ด๋กœ ์ธํ•ด ๋ถˆ์•ˆ์ •ํ•œ ํ›ˆ๋ จ ์—ญํ•™๊ณผ ์ฐจ์„ ์˜ ์„ฑ๋Šฅ์„ ๋ณด์ธ๋‹ค. SingLoRA๋Š” ๋‹จ์ผ ์ €์ˆœ์œ„ ํ–‰๋ ฌ๊ณผ ๊ทธ ์ „์น˜ํ–‰๋ ฌ์˜ ๊ณฑ์œผ๋กœ ๊ฐ€์ค‘์น˜ ์—…๋ฐ์ดํŠธ๋ฅผ ๋ถ„ํ•ดํ•˜๋Š” ๋ฐฉ์‹์œผ๋กœ ์ €์ˆœ์œ„ ์ ์‘์„ ์žฌ๊ตฌ์„ฑํ•œ๋‹ค. ์ด ๊ฐ„๋‹จํ•œ ์„ค๊ณ„๋Š” ๋ณธ์งˆ์ ์œผ๋กœ ํ–‰๋ ฌ ๊ฐ„ ์Šค์ผ€์ผ ์ถฉ๋Œ์„ ์ œ๊ฑฐํ•˜์—ฌ ์•ˆ์ •์ ์ธ ์ตœ์ ํ™”๋ฅผ ๋ณด์žฅํ•˜๊ณ  ๋งค๊ฐœ๋ณ€์ˆ˜ ์ˆ˜๋ฅผ ๋Œ€๋žต ์ ˆ๋ฐ˜์œผ๋กœ ์ค„์ธ๋‹ค. ๋ฌดํ•œ ํญ ์‹ ๊ฒฝ๋ง ํ”„๋ ˆ์ž„์›Œํฌ ๋‚ด์—์„œ SingLoRA๋ฅผ ๋ถ„์„ํ•œ ๊ฒฐ๊ณผ ๊ตฌ์กฐ์ ์œผ๋กœ ์•ˆ์ •์ ์ธ ํŠน์ง• ํ•™์Šต์„ ๋ณด์žฅํ•จ์„ ๋ณด์—ฌ์ฃผ๋ฉฐ, MNLI์—์„œ LLama 7B๋ฅผ ๋ฏธ์„ธ์กฐ์ •ํ–ˆ์„ ๋•Œ ๊ธฐ์กด LoRA(89.1%)์™€ LoRA+(90.2%)๋ฅผ ๋Šฅ๊ฐ€ํ•˜๋Š” 91.3% ์ •ํ™•๋„๋ฅผ ๋‹ฌ์„ฑํ•˜๋ฉด์„œ๋„ ๋งค๊ฐœ๋ณ€์ˆ˜ ์˜ˆ์‚ฐ์˜ 60%๋งŒ ์‚ฌ์šฉํ•œ๋‹ค.

Scaling RL to Long Videos

Paper, Project
๋น„์ „-์–ธ์–ด ๋ชจ๋ธ(VLM)์˜ ๊ธด ๋น„๋””์˜ค ์ถ”๋ก ์„ ๊ฐ•ํ™”ํ•™์Šต์œผ๋กœ ํ™•์žฅํ•˜๋Š” ์ „์ฒด ์Šคํƒ ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ œ์•ˆํ•œ๋‹ค. ์Šคํฌ์ธ , ๊ฒŒ์ž„, ๋ธŒ์ด๋กœ๊ทธ ๋“ฑ ๋‹ค์–‘ํ•œ ๋„๋ฉ”์ธ์—์„œ ๊ณ ํ’ˆ์งˆ ์ถ”๋ก  ์ฃผ์„์„ ๊ฐ€์ง„ 52K๊ฐœ์˜ ๊ธด ๋น„๋””์˜ค QA ์Œ์œผ๋กœ ๊ตฌ์„ฑ๋œ LongVideo-Reason ๋ฐ์ดํ„ฐ์…‹, ์‚ฌ๊ณ  ์—ฐ์‡„ ์ง€๋„ ๋ฏธ์„ธ์กฐ์ •๊ณผ ๊ฐ•ํ™”ํ•™์Šต์„ ๊ฒฐํ•ฉํ•œ 2๋‹จ๊ณ„ ํ›ˆ๋ จ ํŒŒ์ดํ”„๋ผ์ธ, ๊ทธ๋ฆฌ๊ณ  ์‹œํ€€์Šค ๋ณ‘๋ ฌํ™”์™€ ์บ์‹œ๋œ ๋น„๋””์˜ค ์ž„๋ฒ ๋”ฉ์„ ํ™œ์šฉํ•˜๋Š” vLLM ๊ธฐ๋ฐ˜ ์—”์ง„์„ ํฌํ•จํ•˜๋Š” Multi-modal Reinforcement Sequence Parallelism(MR-SP) ํ›ˆ๋ จ ์ธํ”„๋ผ๋ฅผ ํ†ตํ•ฉํ•œ๋‹ค. LongVILA-R1-7B๋Š” VideoMME ๋“ฑ ๊ธด ๋น„๋””์˜ค QA ๋ฒค์น˜๋งˆํฌ์—์„œ ๊ฐ•๋ ฅํ•œ ์„ฑ๋Šฅ์„ ๋ณด์ด๋ฉฐ, Video-R1-7B๋ฅผ ๋Šฅ๊ฐ€ํ•˜๊ณ  ์‹ฌ์ง€์–ด Gemini-1.5-Pro์™€ ์‹œ๊ฐ„์  ์ถ”๋ก , ๋ชฉํ‘œ ๋ฐ ๋ชฉ์  ์ถ”๋ก , ๊ณต๊ฐ„์  ์ถ”๋ก , ํ”Œ๋กฏ ์ถ”๋ก ์—์„œ ๊ฒฝ์Ÿํ•  ์ˆ˜์ค€์˜ ์„ฑ๋Šฅ์„ ๋‹ฌ์„ฑํ•˜๊ณ , MR-SP ์‹œ์Šคํ…œ์€ ๊ธด ๋น„๋””์˜ค ๊ฐ•ํ™”ํ•™์Šต ํ›ˆ๋ จ์—์„œ ์ตœ๋Œ€ 2.1๋ฐฐ์˜ ์†๋„ ํ–ฅ์ƒ์„ ์ด๋ฃฌ๋‹ค.

T-LoRA: Single Image Diffusion Model Customization Without Overfitting

Paper, Project
ํ™•์‚ฐ ๋ชจ๋ธ ๋ฏธ์„ธ์กฐ์ •์€ ํŠน์ • ๊ฐ์ฒด ์ƒ์„ฑ์„ ์œ„ํ•œ ๊ฐ•๋ ฅํ•œ ๋งž์ถคํ™” ๋ฐฉ๋ฒ•์ด์ง€๋งŒ, ํ›ˆ๋ จ ์ƒ˜ํ”Œ์ด ์ œํ•œ์ ์ผ ๋•Œ ๊ณผ์ ํ•ฉ์œผ๋กœ ์ธํ•ด ์ผ๋ฐ˜ํ™” ๋Šฅ๋ ฅ๊ณผ ์ถœ๋ ฅ ๋‹ค์–‘์„ฑ์ด ์ €ํ•˜๋˜๋Š” ๋ฌธ์ œ๊ฐ€ ์žˆ๋‹ค. ๊ฐ€์žฅ ์‹ค์šฉ์  ์ž ์žฌ๋ ฅ์„ ๊ฐ€์ง„ ๋‹จ์ผ ์ด๋ฏธ์ง€ ๋งž์ถคํ™” ์ž‘์—…์— ์ดˆ์ ์„ ๋งž์ถฐ, ๋†’์€ ํ™•์‚ฐ ์‹œ๊ฐ„ ๋‹จ๊ณ„๊ฐ€ ๋‚ฎ์€ ์‹œ๊ฐ„ ๋‹จ๊ณ„๋ณด๋‹ค ๊ณผ์ ํ•ฉ์— ๋” ์ทจ์•ฝํ•˜๋‹ค๋Š” ๋ฐœ๊ฒฌ์„ ๋ฐ”ํƒ•์œผ๋กœ ์‹œ๊ฐ„ ๋‹จ๊ณ„์— ๋ฏผ๊ฐํ•œ ๋ฏธ์„ธ์กฐ์ • ์ „๋žต์˜ ํ•„์š”์„ฑ์„ ์ œ์‹œํ•œ๋‹ค. T-LoRA๋Š” ํ™•์‚ฐ ์‹œ๊ฐ„ ๋‹จ๊ณ„์— ๋”ฐ๋ผ ์ˆœ์œ„ ์ œ์•ฝ ์—…๋ฐ์ดํŠธ๋ฅผ ์กฐ์ •ํ•˜๋Š” ๋™์  ๋ฏธ์„ธ์กฐ์ • ์ „๋žต๊ณผ ์ง๊ต ์ดˆ๊ธฐํ™”๋ฅผ ํ†ตํ•ด ์–ด๋Œ‘ํ„ฐ ๊ตฌ์„ฑ ์š”์†Œ ๊ฐ„ ๋…๋ฆฝ์„ฑ์„ ๋ณด์žฅํ•˜๋Š” ๊ฐ€์ค‘์น˜ ๋งค๊ฐœ๋ณ€์ˆ˜ํ™” ๊ธฐ๋ฒ•์„ ํฌํ•จํ•˜๋Š” ์‹œ๊ฐ„ ๋‹จ๊ณ„ ์˜์กด์  ์ €์ˆœ์œ„ ์ ์‘ ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ๋„์ž…ํ•˜์—ฌ, ๊ฐœ๋… ์ถฉ์‹ค๋„์™€ ํ…์ŠคํŠธ ์ •๋ ฌ ๊ฐ„์˜ ์šฐ์ˆ˜ํ•œ ๊ท ํ˜•์„ ๋‹ฌ์„ฑํ•œ๋‹ค.

Should We Still Pretrain Encoders with Masked Language Modeling?

Paper, Project
๊ณ ํ’ˆ์งˆ ํ…์ŠคํŠธ ํ‘œํ˜„ ํ•™์Šต์€ ๊ด‘๋ฒ”์œ„ํ•œ NLP ์ž‘์—…์˜ ๊ธฐ๋ณธ์ด์ง€๋งŒ, ์ „ํ†ต์ ์œผ๋กœ ๋งˆ์Šคํฌ ์–ธ์–ด ๋ชจ๋ธ๋ง(MLM)์— ์˜์กดํ•ด์˜จ ์ธ์ฝ”๋” ์‚ฌ์ „ํ›ˆ๋ จ๊ณผ ๋‹ฌ๋ฆฌ ์ธ๊ณผ ์–ธ์–ด ๋ชจ๋ธ๋ง(CLM)์œผ๋กœ ์‚ฌ์ „ํ›ˆ๋ จ๋œ ๋””์ฝ”๋” ๋ชจ๋ธ์„ ์ธ์ฝ”๋”๋กœ ์žฌํ™œ์šฉํ•˜๋Š” ๋ฐฉ์‹์ด ์ข…์ข… ๋” ๋‚˜์€ ์„ฑ๋Šฅ์„ ๋ณด์ธ๋‹ค๋Š” ์ตœ๊ทผ ์ฆ๊ฑฐ๊ฐ€ ์žˆ์–ด ์ด๋Ÿฌํ•œ ์ด๋“์ด CLM ๋ชฉ์ ํ•จ์ˆ˜์˜ ๋ณธ์งˆ์  ์žฅ์ ์ธ์ง€ ์•„๋‹ˆ๋ฉด ๋ชจ๋ธ ๋ฐ ๋ฐ์ดํ„ฐ ๊ทœ๋ชจ ๋“ฑ์˜ ํ˜ผ์žฌ ์š”์ธ์—์„œ ๋น„๋กฏ๋˜๋Š”์ง€ ๋ถˆ๋ถ„๋ช…ํ•˜๋‹ค. 2์–ต 1์ฒœ๋งŒ์—์„œ 10์–ต ๋งค๊ฐœ๋ณ€์ˆ˜์— ์ด๋ฅด๋Š” ์ด 30๊ฐœ ๋ชจ๋ธ์„ ํ›ˆ๋ จํ•˜๊ณ  15,000ํšŒ ์ด์ƒ์˜ ๋ฏธ์„ธ์กฐ์ • ๋ฐ ํ‰๊ฐ€๋ฅผ ์ˆ˜ํ–‰ํ•œ ๋Œ€๊ทœ๋ชจ์˜ ์‹ ์ค‘ํžˆ ํ†ต์ œ๋œ ์‚ฌ์ „ํ›ˆ๋ จ ์ ˆ์ œ ์—ฐ๊ตฌ๋ฅผ ํ†ตํ•ด, MLM์œผ๋กœ ํ›ˆ๋ จํ•˜๋Š” ๊ฒƒ์ด ์ผ๋ฐ˜์ ์œผ๋กœ ํ…์ŠคํŠธ ํ‘œํ˜„ ์ž‘์—…์—์„œ ๋” ๋‚˜์€ ์„ฑ๋Šฅ์„ ์ œ๊ณตํ•˜์ง€๋งŒ CLM ํ›ˆ๋ จ ๋ชจ๋ธ์ด ๋” ๋ฐ์ดํ„ฐ ํšจ์œจ์ ์ด๊ณ  ํ–ฅ์ƒ๋œ ๋ฏธ์„ธ์กฐ์ • ์•ˆ์ •์„ฑ์„ ๋ณด์ž„์„ ๋ฐœ๊ฒฌํ•˜๊ณ , ๊ณ ์ •๋œ ๊ณ„์‚ฐ ํ›ˆ๋ จ ์˜ˆ์‚ฐ ํ•˜์—์„œ CLM์„ ๋จผ์ € ์ ์šฉํ•œ ํ›„ MLM์„ ์ˆœ์ฐจ์ ์œผ๋กœ ์ ์šฉํ•˜๋Š” ์ด๋‹จ๊ณ„ ํ›ˆ๋ จ ์ „๋žต์ด ์ตœ์  ์„ฑ๋Šฅ์„ ๋‹ฌ์„ฑํ•จ์„ ์‹คํ—˜์ ์œผ๋กœ ๋ณด์—ฌ์ค€๋‹ค.

A Survey on Latent Reasoning

Paper, Project
๋Œ€ํ˜• ์–ธ์–ด๋ชจ๋ธ(LLM)์€ ์ค‘๊ฐ„ ๋‹จ๊ณ„๋ฅผ ์–ธ์–ดํ™”ํ•˜๋Š” ๋ช…์‹œ์  ์‚ฌ๊ณ  ์—ฐ์‡„(CoT) ์ถ”๋ก ์˜ ์•ˆ๋‚ด๋ฅผ ๋ฐ›์„ ๋•Œ ์ธ์ƒ์ ์ธ ์ถ”๋ก  ๋Šฅ๋ ฅ์„ ๋ณด์—ฌ์ฃผ์ง€๋งŒ, CoT๊ฐ€ ํ•ด์„ ๊ฐ€๋Šฅ์„ฑ๊ณผ ์ •ํ™•์„ฑ์„ ํ–ฅ์ƒ์‹œํ‚ค๋Š” ๋ฐ˜๋ฉด ์ž์—ฐ์–ด ์ถ”๋ก ์— ๋Œ€ํ•œ ์˜์กด์„ฑ์ด ๋ชจ๋ธ์˜ ํ‘œํ˜„ ๋Œ€์—ญํญ์„ ์ œํ•œํ•œ๋‹ค. ์ž ์žฌ ์ถ”๋ก ์€ ํ† ํฐ ์ˆ˜์ค€ ๊ฐ๋…์„ ์ œ๊ฑฐํ•˜๊ณ  ๋ชจ๋ธ์˜ ์—ฐ์†์  ์ˆจ๊ฒจ์ง„ ์ƒํƒœ์—์„œ ์™„์ „ํžˆ ๋‹ค๋‹จ๊ณ„ ์ถ”๋ก ์„ ์ˆ˜ํ–‰ํ•จ์œผ๋กœ์จ ์ด๋Ÿฌํ•œ ๋ณ‘๋ชฉ ํ˜„์ƒ์„ ํ•ด๊ฒฐํ•œ๋‹ค. ์ด ์„œ๋ฒ ์ด๋Š” ์ถ”๋ก ์„ ์œ„ํ•œ ๊ณ„์‚ฐ ๊ธฐ์งˆ๋กœ์„œ ์‹ ๊ฒฝ๋ง ์ธต์˜ ๊ธฐ์ดˆ์  ์—ญํ• ์„ ๊ฒ€ํ† ํ•˜๊ณ  ๊ณ„์ธต์  ํ‘œํ˜„์ด ๋ณต์žกํ•œ ๋ณ€ํ™˜์„ ์ง€์›ํ•˜๋Š” ๋ฐฉ์‹์„ ๊ฐ•์กฐํ•˜๋ฉฐ, ํ™œ์„ฑํ™” ๊ธฐ๋ฐ˜ ์ˆœํ™˜, ์ˆจ๊ฒจ์ง„ ์ƒํƒœ ์ „ํŒŒ, ๋ช…์‹œ์  ์ถ”๋ก  ์ถ”์ ์„ ์••์ถ•ํ•˜๊ฑฐ๋‚˜ ๋‚ด์žฌํ™”ํ•˜๋Š” ๋ฏธ์„ธ์กฐ์ • ์ „๋žต์„ ํฌํ•จํ•œ ๋‹ค์–‘ํ•œ ์ž ์žฌ ์ถ”๋ก  ๋ฐฉ๋ฒ•๋ก ์„ ํƒ๊ตฌํ•˜๊ณ , ์ „์—ญ์ ์œผ๋กœ ์ผ๊ด€๋˜๊ณ  ๊ฐ€์—ญ์ ์ธ ์ถ”๋ก  ๊ณผ์ •์„ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•˜๋Š” ๋งˆ์Šคํฌ ํ™•์‚ฐ ๋ชจ๋ธ์„ ํ†ตํ•œ ๋ฌดํ•œ ๊นŠ์ด ์ž ์žฌ ์ถ”๋ก ๊ณผ ๊ฐ™์€ ๊ณ ๊ธ‰ ํŒจ๋Ÿฌ๋‹ค์ž„์„ ๋…ผ์˜ํ•˜์—ฌ ์ž ์žฌ ์ถ”๋ก ์˜ ๊ฐœ๋…์  ํ’๊ฒฝ์„ ํ†ตํ•ฉํ•˜๊ณ  LLM ์ธ์ง€์˜ ์ตœ์ „์„ ์—์„œ ์—ฐ๊ตฌ์˜ ๋ฏธ๋ž˜ ๋ฐฉํ–ฅ์„ ์ œ์‹œํ•œ๋‹ค.

4KAgent: Agentic Any Image to 4K Super-Resolution

Paper, Project
4KAgent๋Š” ๋ชจ๋“  ์ด๋ฏธ์ง€๋ฅผ 4K ํ•ด์ƒ๋„๋กœ ๋ณดํŽธ์ ์œผ๋กœ ์—…์Šค์ผ€์ผํ•˜๋„๋ก ์„ค๊ณ„๋œ ํ†ตํ•ฉ ์—์ด์ „ํŠธ ์ดˆํ•ด์ƒ๋„ ์ผ๋ฐ˜ํ™” ์‹œ์Šคํ…œ์œผ๋กœ, 256ร—256์˜ ๊ทน๋„๋กœ ์™œ๊ณก๋œ ์ž…๋ ฅ๊ณผ ๊ฐ™์€ ๊ทน์ €ํ•ด์ƒ๋„์—์„œ ์‹ฌ๊ฐํ•œ ์—ดํ™”๋ฅผ ๊ฐ€์ง„ ์ด๋ฏธ์ง€๋ฅผ ์ˆ˜์ •์ฒ˜๋Ÿผ ๋ง‘๊ณ  ์‚ฌ์‹ค์ ์ธ 4K ์ถœ๋ ฅ์œผ๋กœ ๋ณ€ํ™˜ํ•  ์ˆ˜ ์žˆ๋‹ค. ๋งž์ถคํ˜• ์‚ฌ์šฉ ์‚ฌ๋ก€์— ๋”ฐ๋ผ 4KAgent ํŒŒ์ดํ”„๋ผ์ธ์„ ๋งž์ถคํ™”ํ•˜๋Š” ํ”„๋กœํŒŒ์ผ๋ง ๋ชจ๋“ˆ, ๋น„์ „-์–ธ์–ด ๋ชจ๋ธ๊ณผ ์ด๋ฏธ์ง€ ํ’ˆ์งˆ ํ‰๊ฐ€ ์ „๋ฌธ๊ฐ€๋ฅผ ํ™œ์šฉํ•˜์—ฌ ์ž…๋ ฅ ์ด๋ฏธ์ง€๋ฅผ ๋ถ„์„ํ•˜๊ณ  ๋งž์ถคํ˜• ๋ณต์› ๊ณ„ํš์„ ์ˆ˜๋ฆฝํ•˜๋Š” ์ธ์‹ ์—์ด์ „ํŠธ, ๊ทธ๋ฆฌ๊ณ  ๊ฐ ๋‹จ๊ณ„์—์„œ ์ตœ์  ์ถœ๋ ฅ์„ ์„ ํƒํ•˜๊ธฐ ์œ„ํ•œ ํ’ˆ์งˆ ๊ธฐ๋ฐ˜ ์ „๋ฌธ๊ฐ€ ํ˜ผํ•ฉ ์ •์ฑ…์˜ ์•ˆ๋‚ด๋ฅผ ๋ฐ›์•„ ์žฌ๊ท€์  ์‹คํ–‰-๋ฐ˜์„ฑ ํŒจ๋Ÿฌ๋‹ค์ž„์„ ๋”ฐ๋ฅด๋ฉฐ ๊ณ„ํš์„ ์‹คํ–‰ํ•˜๋Š” ๋ณต์› ์—์ด์ „ํŠธ์˜ ์„ธ ๊ฐ€์ง€ ํ•ต์‹ฌ ๊ตฌ์„ฑ ์š”์†Œ๋กœ ์ด๋ฃจ์–ด์ง„๋‹ค. ์ž์—ฐ ์ด๋ฏธ์ง€, ์ดˆ์ƒํ™” ์‚ฌ์ง„, AI ์ƒ์„ฑ ์ฝ˜ํ…์ธ , ์œ„์„ฑ ์˜์ƒ, ํ˜•๊ด‘ ํ˜„๋ฏธ๊ฒฝ, ์•ˆ์ € ์ดฌ์˜, ์ดˆ์ŒํŒŒ, X์„ ๊ณผ ๊ฐ™์€ ์˜๋ฃŒ ์˜์ƒ์„ ํฌํ•จํ•œ ์ด 26๊ฐœ์˜ ๋‹ค์–‘ํ•œ ๋ฒค์น˜๋งˆํฌ๋ฅผ ์•„์šฐ๋ฅด๋Š” 11๊ฐœ์˜ ์„œ๋กœ ๋‹ค๋ฅธ ์ž‘์—… ๋ฒ”์ฃผ์—์„œ ์ง€๊ฐ์ (NIQE, MUSIQ) ๋ฐ ์ถฉ์‹ค๋„(PSNR) ์ง€ํ‘œ ๋ชจ๋‘์—์„œ ์šฐ์ˆ˜ํ•œ ์„ฑ๋Šฅ์„ ๋ณด์—ฌ์ฃผ๋ฉฐ ๊ด‘๋ฒ”์œ„ํ•œ ์ด๋ฏธ์ง• ๋„๋ฉ”์ธ์—์„œ ์ƒˆ๋กœ์šด ์ตœ์ฒจ๋‹จ ์„ฑ๋Šฅ์„ ์„ค์ •ํ•œ๋‹ค.

Agent KB: Leveraging Cross-Domain Experience for Agentic Problem Solving

Paper, Project
์–ธ์–ด ์—์ด์ „ํŠธ๊ฐ€ ์ ์  ๋ณต์žกํ•œ ์ž‘์—…์„ ๋‹ค๋ฃจ๋ฉด์„œ ํšจ๊ณผ์ ์ธ ์˜ค๋ฅ˜ ์ˆ˜์ •๊ณผ ๋„๋ฉ”์ธ ๊ฐ„ ๊ฒฝํ—˜ ์žฌ์‚ฌ์šฉ์— ์–ด๋ ค์›€์„ ๊ฒช๊ณ  ์žˆ์œผ๋ฉฐ, ์ „ํ†ต์ ์œผ๋กœ ์—์ด์ „ํŠธ๋“ค์ด ์„œ๋กœ์˜ ๊ฒฝํ—˜์œผ๋กœ๋ถ€ํ„ฐ ํ•™์Šตํ•  ์ˆ˜ ์—†๋‹ค๋Š” ํ•ต์‹ฌ ํ•œ๊ณ„๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด Agent KB๋Š” ์ƒˆ๋กœ์šด Reason-Retrieve-Refine ํŒŒ์ดํ”„๋ผ์ธ์„ ํ†ตํ•ด ๋ณต์žกํ•œ ์—์ด์ „ํŠธ ๋ฌธ์ œ ํ•ด๊ฒฐ์„ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•˜๋Š” ๊ณ„์ธต์  ๊ฒฝํ—˜ ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ๋„์ž…ํ•œ๋‹ค. ๊ณ ์ˆ˜์ค€ ์ „๋žต๊ณผ ์„ธ๋ถ€ ์‹คํ–‰ ๋กœ๊ทธ๋ฅผ ๋ชจ๋‘ ์บก์ฒ˜ํ•จ์œผ๋กœ์จ Agent KB๋Š” ์—์ด์ „ํŠธ ๊ฐ„ ์ง€์‹ ์ „์ด๋ฅผ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•˜๋Š” ๊ณต์œ  ์ง€์‹ ๋ฒ ์ด์Šค๋ฅผ ์ƒ์„ฑํ•œ๋‹ค. GAIA ๋ฒค์น˜๋งˆํฌ์—์„œ ํ‰๊ฐ€ํ•œ ๊ฒฐ๊ณผ Agent KB๋Š” ์„ฑ๊ณต๋ฅ ์„ ์ตœ๋Œ€ 16.28 ํผ์„ผํŠธ ํฌ์ธํŠธ ํ–ฅ์ƒ์‹œํ‚ค๋ฉฐ, ๊ฐ€์žฅ ๋„์ „์ ์ธ ์ž‘์—…์—์„œ Claude-3์ด 38.46%์—์„œ 57.69%๋กœ, GPT-4๊ฐ€ ์ค‘๊ฐ„ ์ž‘์—…์—์„œ 53.49%์—์„œ 73.26%๋กœ ๊ฐœ์„ ๋˜๊ณ , SWE-bench ์ฝ”๋“œ ์ˆ˜๋ฆฌ์—์„œ Claude-3์ด 41.33%์—์„œ 53.33%๋กœ ํ–ฅ์ƒ๋˜์–ด Agent KB๊ฐ€ ๊ณผ๊ฑฐ ๊ฒฝํ—˜์œผ๋กœ๋ถ€ํ„ฐ ํ•™์Šตํ•˜๊ณ  ์„ฑ๊ณต์ ์ธ ์ „๋žต์„ ์ƒˆ๋กœ์šด ์ž‘์—…์— ์ผ๋ฐ˜ํ™”ํ•  ์ˆ˜ ์žˆ๊ฒŒ ํ•˜๋Š” ๋ชจ๋“ˆ์‹, ํ”„๋ ˆ์ž„์›Œํฌ ๋ฌด๊ด€ ์ธํ”„๋ผ๋ฅผ ์ œ๊ณตํ•จ์„ ์‹œ์‚ฌํ•œ๋‹ค.

Skywork-R1V3 Technical Report

Paper, Project
Skywork-R1V3๋Š” ์‹œ๊ฐ์  ์ถ”๋ก ์— ๋Œ€ํ•œ ์ƒˆ๋กœ์šด ์ ‘๊ทผ ๋ฐฉ์‹์„ ๊ฐœ์ฒ™ํ•˜๋Š” ๊ณ ๊ธ‰ ์˜คํ”ˆ์†Œ์Šค ๋น„์ „-์–ธ์–ด ๋ชจ๋ธ(VLM)๋กœ, ํ…์ŠคํŠธ ์ „์šฉ ๋Œ€ํ˜• ์–ธ์–ด๋ชจ๋ธ(LLM)์˜ ์ถ”๋ก  ๊ธฐ์ˆ ์„ ์‹œ๊ฐ์  ์ž‘์—…์œผ๋กœ ํšจ๊ณผ์ ์œผ๋กœ ์ „์ดํ•˜๋Š” ๊ฒƒ์ด ํ•ต์‹ฌ ํ˜์‹ ์ด๋‹ค. ์ถ”๊ฐ€์ ์ธ ์ง€์† ์‚ฌ์ „ํ›ˆ๋ จ ์—†์ด ๋ชจ๋ธ์˜ ์ถ”๋ก  ๋Šฅ๋ ฅ์„ ํšจ๊ณผ์ ์œผ๋กœ ํ™œ์„ฑํ™”ํ•˜๊ณ  ํ–ฅ์ƒ์‹œํ‚ค๋Š” ์ •๊ตํ•œ ํ›„ํ›ˆ๋ จ ๊ฐ•ํ™”ํ•™์Šต ํ”„๋ ˆ์ž„์›Œํฌ์—์„œ ์ฃผ๋กœ ๊ฐ•๋ ฅํ•œ ์„ฑ๋Šฅ์ด ๋‚˜์˜ค๋ฉฐ, ์ด ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ํ†ตํ•ด ๋‹ค์ค‘๋ชจ๋‹ฌ ์ถ”๋ก  ๋ชจ๋ธ์—์„œ ๊ฒฌ๊ณ ํ•œ ๊ต์ฐจ ๋ชจ๋‹ฌ ์ •๋ ฌ์„ ๋‹ฌ์„ฑํ•˜๋Š” ๋ฐ ์žˆ์–ด ์—ฐ๊ฒฐ์ž ๋ชจ๋“ˆ์˜ ๊ทผ๋ณธ์  ์—ญํ• ์„ ์ถ”๊ฐ€๋กœ ๋ฐœ๊ฒฌํ•œ๋‹ค. ๊ฐ•ํ™”ํ•™์Šต ํ›ˆ๋ จ ์ค‘ ์ฒดํฌํฌ์ธํŠธ ์„ ํƒ์— ๋งค์šฐ ํšจ๊ณผ์ ์ž„์ด ์ž…์ฆ๋œ ์ถ”๋ก  ๋Šฅ๋ ฅ์˜ ๋…ํŠนํ•œ ์ง€ํ‘œ์ธ ํ•ต์‹ฌ ์ถ”๋ก  ํ† ํฐ์˜ ์—”ํŠธ๋กœํ”ผ๋ฅผ ๋„์ž…ํ•˜๊ณ , MMMU์—์„œ 64.3%์—์„œ 76.0%๋กœ ํฌ๊ฒŒ ํ–ฅ์ƒ๋˜๋Š” ์ตœ์ฒจ๋‹จ ๊ฒฐ๊ณผ๋ฅผ ๋‹ฌ์„ฑํ•˜์—ฌ ์ดˆ๊ธ‰ ์ˆ˜์ค€์˜ ์ธ๊ฐ„ ๋Šฅ๋ ฅ๊ณผ ์ผ์น˜ํ•˜๋ฉฐ, ๋†€๋ž๊ฒŒ๋„ ๊ฐ•ํ™”ํ•™์Šต ๊ธฐ๋ฐ˜ ํ›„ํ›ˆ๋ จ ์ ‘๊ทผ๋ฒ•์„ ํ†ตํ•ด 38B ๋งค๊ฐœ๋ณ€์ˆ˜ ๋ชจ๋ธ์กฐ์ฐจ ์ตœ๊ณ  ์ˆ˜์ค€์˜ ํ์‡„ํ˜• VLM๊ณผ ๊ฒฝ์Ÿํ•  ์ˆ˜ ์žˆ๊ฒŒ ํ•˜๊ณ  ์ˆ˜ํ•™์  ์ถ”๋ก ์„ ๋‹ค๋ฅธ ์ฃผ์ œ ๊ด€๋ จ ์ถ”๋ก  ์ž‘์—…์œผ๋กœ ์„ฑ๊ณต์ ์œผ๋กœ ์ „์ด์‹œํ‚จ๋‹ค.

OmniPart: Part-Aware 3D Generation with Semantic Decoupling and Structural Cohesion

Paper, Project
๋ช…์‹œ์ ์ด๊ณ  ํŽธ์ง‘ ๊ฐ€๋Šฅํ•œ ๋ถ€๋ถ„ ๊ตฌ์กฐ๋ฅผ ๊ฐ€์ง„ 3D ์ž์‚ฐ ์ƒ์„ฑ์€ ์ƒํ˜ธ์ž‘์šฉ ์• ํ”Œ๋ฆฌ์ผ€์ด์…˜ ๋ฐœ์ „์— ์ค‘์š”ํ•˜์ง€๋งŒ ๋Œ€๋ถ€๋ถ„์˜ ์ƒ์„ฑ ๋ฐฉ๋ฒ•์€ ๋‹จ์ผ์ฒด ํ˜•ํƒœ๋งŒ ์ƒ์‚ฐํ•˜์—ฌ ์œ ์šฉ์„ฑ์„ ์ œํ•œํ•œ๋‹ค. OmniPart๋Š” ๊ตฌ์„ฑ ์š”์†Œ ๊ฐ„ ๋†’์€ ์˜๋ฏธ์  ๋ถ„๋ฆฌ๋ฅผ ๋‹ฌ์„ฑํ•˜๋ฉด์„œ ๊ฒฌ๊ณ ํ•œ ๊ตฌ์กฐ์  ๊ฒฐํ•ฉ์„ ์œ ์ง€ํ•˜๋„๋ก ์„ค๊ณ„๋œ ๋ถ€๋ถ„ ์ธ์‹ 3D ๊ฐ์ฒด ์ƒ์„ฑ์„ ์œ„ํ•œ ์ƒˆ๋กœ์šด ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ๋„์ž…ํ•œ๋‹ค. ์ง์ ‘์ ์ธ ๋Œ€์‘์ด๋‚˜ ์˜๋ฏธ์  ๋ ˆ์ด๋ธ”์„ ์š”๊ตฌํ•˜์ง€ ์•Š๊ณ  ๋ถ€๋ถ„ ๋ถ„ํ•ด์— ๋Œ€ํ•œ ์ง๊ด€์  ์ œ์–ด๋ฅผ ํ—ˆ์šฉํ•˜๋Š” ์œ ์—ฐํ•œ 2D ๋ถ€๋ถ„ ๋งˆ์Šคํฌ์˜ ์ค‘์š”ํ•œ ์•ˆ๋‚ด๋ฅผ ๋ฐ›์•„ ์ œ์–ด ๊ฐ€๋Šฅํ•˜๊ณ  ๊ฐ€๋ณ€ ๊ธธ์ด์˜ 3D ๋ถ€๋ถ„ ๊ฒฝ๊ณ„ ์ƒ์ž ์‹œํ€€์Šค๋ฅผ ์ƒ์„ฑํ•˜๋Š” ์ž๋™ํšŒ๊ท€ ๊ตฌ์กฐ ๊ณ„ํš ๋ชจ๋“ˆ๊ณผ, ์‚ฌ์ „ํ›ˆ๋ จ๋œ ์ „์ฒด๋ก ์  3D ์ƒ์„ฑ๊ธฐ๋กœ๋ถ€ํ„ฐ ํšจ์œจ์ ์œผ๋กœ ์ ์‘๋˜์–ด ๊ณ„ํš๋œ ๋ ˆ์ด์•„์›ƒ ๋‚ด์—์„œ ๋ชจ๋“  3D ๋ถ€๋ถ„์„ ๋™์‹œ์— ์ผ๊ด€๋˜๊ฒŒ ํ•ฉ์„ฑํ•˜๋Š” ๊ณต๊ฐ„ ์กฐ๊ฑด๋ถ€ ์ •๋ฅ˜ ํ๋ฆ„ ๋ชจ๋ธ์˜ ๋‘ ๊ฐ€์ง€ ์ƒ์Šน ์ž‘์šฉ ๋‹จ๊ณ„๋กœ ์ด ๋ณต์žกํ•œ ์ž‘์—…์„ ๋…ํŠนํ•˜๊ฒŒ ๋ถ„๋ฆฌํ•œ๋‹ค. ์‚ฌ์šฉ์ž ์ •์˜ ๋ถ€๋ถ„ ์„ธ๋ถ„ํ™”, ์ •ํ™•ํ•œ ์œ„์น˜ ์ง€์ •์„ ์ง€์›ํ•˜๊ณ  ๋‹ค์–‘ํ•œ ํ›„์† ์• ํ”Œ๋ฆฌ์ผ€์ด์…˜์„ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•˜๋ฉฐ, ๊ด‘๋ฒ”์œ„ํ•œ ์‹คํ—˜์„ ํ†ตํ•ด OmniPart๊ฐ€ ์ตœ์ฒจ๋‹จ ์„ฑ๋Šฅ์„ ๋‹ฌ์„ฑํ•˜์—ฌ ๋” ํ•ด์„ ๊ฐ€๋Šฅํ•˜๊ณ  ํŽธ์ง‘ ๊ฐ€๋Šฅํ•˜๋ฉฐ ๋‹ค์žฌ๋‹ค๋Šฅํ•œ 3D ์ฝ˜ํ…์ธ ์˜ ๊ธธ์„ ์—ด์–ด์ค€๋‹ค.

profile
XR๊ณผ AI์— ๊ด€์‹ฌ์ด ๋งŽ์€ Sky ์ž…๋‹ˆ๋‹ค.

0๊ฐœ์˜ ๋Œ“๊ธ€