[2025/W32] ๐Ÿค— Weekly AI Research

Skyยท2025๋…„ 8์›” 8์ผ

Weekly AI Research Digest

๋ชฉ๋ก ๋ณด๊ธฐ
48/89

ํ™•์‚ฐ ๋ชจ๋ธ๊ณผ ๋™์  ๋ฏธ์„ธ์กฐ์ • DFT๋กœ ์ถ”๋ก  ํšจ์œจ์˜ ์ƒˆ๋กœ์šด ๊ธฐ์ค€์„ ์ œ์‹œ
์—ฐ์‡„์  ์‚ฌ๊ณ  CoT์˜ ํ•œ๊ณ„๋ฅผ ๋„˜์–ด ํ†ตํ•ฉ ๋ชจ๋ธ ์Šค์นด์ด์›Œํฌ์™€ VeriGUI๋กœ ์‹ค์šฉ์  ์ผ๋ฐ˜ํ™” ๋Šฅ๋ ฅ ์ฆ๋ช…

Is Chain-of-Thought Reasoning of LLMs a Mirage? A Data Distribution Lens

Paper, Project
๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ(LLM)์ด ๋ณด์—ฌ์ฃผ๋Š” ์—ฐ์‡„์  ์‚ฌ๊ณ (Chain-of-Thought, CoT) ๋Šฅ๋ ฅ์€ ์ง„์ •ํ•œ ์ถ”๋ก  ๊ณผ์ •์ด ์•„๋‹ ์ˆ˜ ์žˆ๋‹ค๋Š” ๋ฌธ์ œ์˜์‹์—์„œ ์ด ์—ฐ๊ตฌ๋Š” ์‹œ์ž‘๋œ๋‹ค. ๋…ผ๋ฌธ์€ LLM์˜ CoT๊ฐ€ ์ธ๊ฐ„๊ณผ ์œ ์‚ฌํ•œ ์ถ”๋ก ์ด ์•„๋‹ˆ๋ผ, ํ›ˆ๋ จ ๋ฐ์ดํ„ฐ์— ๋‚ด์žฌ๋œ ํŒจํ„ด์„ ์กฐ๊ฑด๋ถ€๋กœ ์ƒ์„ฑํ•˜๋Š” ๊ฒƒ์— ๊ฐ€๊น๋‹ค๊ณ  ์ฃผ์žฅํ•œ๋‹ค. ๋”ฐ๋ผ์„œ CoT ๋Šฅ๋ ฅ์˜ ํšจ๊ณผ๋Š” ํ›ˆ๋ จ ๋ฐ์ดํ„ฐ์™€ ํ…Œ์ŠคํŠธ ์งˆ๋ฌธ ๊ฐ„์˜ ๋ถ„ํฌ ์ฐจ์ด์— ์˜ํ•ด ๊ทผ๋ณธ์ ์œผ๋กœ ์ œํ•œ๋œ๋‹ค. ์—ฐ๊ตฌ์ง„์€ ์ด๋Ÿฌํ•œ ๊ฐ€์„ค์„ ๊ฒ€์ฆํ•˜๊ธฐ ์œ„ํ•ด 'DataAlchemy'๋ผ๋Š” ๋…๋ฆฝ์ ์ด๊ณ  ํ†ต์ œ๋œ ํ™˜๊ฒฝ์„ ๊ตฌ์ถ•ํ•˜์—ฌ LLM์„ ์ฒ˜์Œ๋ถ€ํ„ฐ ํ›ˆ๋ จ์‹œ์ผฐ๋‹ค. ์ด ํ™˜๊ฒฝ์„ ํ†ตํ•ด ๊ณผ์ œ์˜ ์œ ํ˜•, ์ถ”๋ก ์˜ ๊ธธ์ด, ํ˜•์‹์ด๋ผ๋Š” ์„ธ ๊ฐ€์ง€ ์ฐจ์›์—์„œ ๋ฐ์ดํ„ฐ ๋ถ„ํฌ๋ฅผ ์ฒด๊ณ„์ ์œผ๋กœ ์กฐ์ž‘ํ•˜๋ฉฐ ๋ชจ๋ธ์˜ ๋ฐ˜์‘์„ ๊ด€์ฐฐํ–ˆ๋‹ค. ์‹คํ—˜ ๊ฒฐ๊ณผ, LLM์˜ CoT ์ถ”๋ก  ๋Šฅ๋ ฅ์€ ํ›ˆ๋ จ ๋ฐ์ดํ„ฐ์˜ ๋ถ„ํฌ๋ฅผ ๋ฒ—์–ด๋‚˜๋Š” ์ˆœ๊ฐ„ ๊ธ‰๊ฒฉํžˆ ์ €ํ•˜๋˜๋Š” ์ทจ์•ฝํ•œ ์‹ ๊ธฐ๋ฃจ์ž„์ด ๋“œ๋Ÿฌ๋‚ฌ๋‹ค. ์ด ์—ฐ๊ตฌ๋Š” CoT๊ฐ€ ์™œ ๊ทธ๋ฆฌ๊ณ  ์–ธ์ œ ์‹คํŒจํ•˜๋Š”์ง€์— ๋Œ€ํ•œ ๊นŠ์€ ์ดํ•ด๋ฅผ ์ œ๊ณตํ•˜๋ฉฐ, ์ง„์ •์œผ๋กœ ์ผ๋ฐ˜ํ™” ๊ฐ€๋Šฅํ•œ ์ถ”๋ก  ๋Šฅ๋ ฅ ํ™•๋ณด๊ฐ€ AI ๋ถ„์•ผ์˜ ์ง€์†์ ์ธ ๊ณผ์ œ์ž„์„ ๊ฐ•์กฐํ•œ๋‹ค.

Qwen-Image Technical Report

Paper, Project
๋ณธ ๋ณด๊ณ ์„œ๋Š” ์ด๋ฏธ์ง€ ์ƒ์„ฑ ๋ถ„์•ผ์—์„œ ๋ณต์žกํ•œ ํ…์ŠคํŠธ ๋ Œ๋”๋ง๊ณผ ์ •๋ฐ€ํ•œ ์ด๋ฏธ์ง€ ํŽธ์ง‘ ๋Šฅ๋ ฅ์„ ํฌ๊ฒŒ ๋ฐœ์ „์‹œํ‚จ ํŒŒ์šด๋ฐ์ด์…˜ ๋ชจ๋ธ 'Qwen-Image'๋ฅผ ์†Œ๊ฐœํ•œ๋‹ค. ๊ธฐ์กด ๋ชจ๋ธ๋“ค์€ ์ด๋ฏธ์ง€ ๋‚ด์— ์ •ํ™•ํ•œ ํ…์ŠคํŠธ, ํŠนํžˆ ํ•œ์ž์™€ ๊ฐ™์€ ํ‘œ์–ด ๋ฌธ์ž๋ฅผ ํ‘œํ˜„ํ•˜๋Š” ๋ฐ ์–ด๋ ค์›€์„ ๊ฒช์—ˆ๋‹ค. ์ด ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด ์—ฐ๊ตฌ์ง„์€ ๋Œ€๊ทœ๋ชจ ๋ฐ์ดํ„ฐ ์ˆ˜์ง‘, ํ•„ํ„ฐ๋ง, ์ฃผ์„, ํ•ฉ์„ฑ์„ ํฌํ•จํ•˜๋Š” ํฌ๊ด„์ ์ธ ๋ฐ์ดํ„ฐ ํŒŒ์ดํ”„๋ผ์ธ์„ ์„ค๊ณ„ํ–ˆ๋‹ค. ๋˜ํ•œ, ๊ฐ„๋‹จํ•œ ํ…์ŠคํŠธ ๋ Œ๋”๋ง์—์„œ ์‹œ์ž‘ํ•˜์—ฌ ์ ์ฐจ ๋ฌธ๋‹จ ์ˆ˜์ค€์˜ ๋ณต์žกํ•œ ํ…์ŠคํŠธ๋ฅผ ์ฒ˜๋ฆฌํ•˜๋„๋ก ํ•˜๋Š” ์ ์ง„์  ํ•™์Šต ์ „๋žต์„ ์ฑ„ํƒํ•˜์—ฌ ๋ชจ๋ธ์˜ ๊ธฐ๋ณธ ํ…์ŠคํŠธ ๋ Œ๋”๋ง ๋Šฅ๋ ฅ์„ ํฌ๊ฒŒ ํ–ฅ์ƒ์‹œ์ผฐ๋‹ค. ์ด๋ฏธ์ง€ ํŽธ์ง‘์˜ ์ผ๊ด€์„ฑ์„ ๋†’์ด๊ธฐ ์œ„ํ•ด์„œ๋Š” ์ „ํ†ต์ ์ธ ํ…์ŠคํŠธ-์ด๋ฏธ์ง€ ๋ณ€ํ™˜(T2I) ๋ฐ ํ…์ŠคํŠธ-์ด๋ฏธ์ง€-์ด๋ฏธ์ง€ ๋ณ€ํ™˜(TI2I) ์ž‘์—…์— ๋”ํ•ด, ์ด๋ฏธ์ง€-์ด๋ฏธ์ง€ ๋ณต์›(I2I) ์ž‘์—…์„ ํ†ตํ•ฉํ•˜๋Š” ๊ฐœ์„ ๋œ ๋‹ค์ค‘ ์ž‘์—… ํ›ˆ๋ จ ํŒจ๋Ÿฌ๋‹ค์ž„์„ ๋„์ž…ํ–ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด 'Qwen-Image'๋Š” ์—ฌ๋Ÿฌ ๋ฒค์น˜๋งˆํฌ์—์„œ ์ตœ๊ณ  ์ˆ˜์ค€์˜ ์„ฑ๋Šฅ์„ ๋‹ฌ์„ฑํ•˜๋ฉฐ, ์ด๋ฏธ์ง€ ์ƒ์„ฑ๊ณผ ํŽธ์ง‘ ์–‘์ชฝ ๋ชจ๋‘์—์„œ ๊ฐ•๋ ฅํ•œ ์—ญ๋Ÿ‰์„ ์ž…์ฆํ–ˆ๋‹ค.

VeriGUI: Verifiable Long-Chain GUI Dataset

Paper, Project
์ตœ๊ทผ ์ž์œจ์ ์œผ๋กœ ๋ณต์žกํ•œ ๊ทธ๋ž˜ํ”ฝ ์‚ฌ์šฉ์ž ์ธํ„ฐํŽ˜์ด์Šค(GUI) ๊ธฐ๋ฐ˜ ์ปดํ“จํ„ฐ ์ž‘์—…์„ ์ˆ˜ํ–‰ํ•˜๋Š” AI ์—์ด์ „ํŠธ ์—ฐ๊ตฌ๊ฐ€ ํ™œ๋ฐœํžˆ ์ง„ํ–‰๋˜๊ณ  ์žˆ๋‹ค. ํ•˜์ง€๋งŒ ๊ธฐ์กด ์—ฐ๊ตฌ๋“ค์€ ์ฃผ๋กœ ๋‹จ๊ธฐ์ ์ธ ์ƒํ˜ธ์ž‘์šฉ์— ์ดˆ์ ์„ ๋งž์ถ”๊ณ  ์ตœ์ข… ๊ฒฐ๊ณผ๋งŒ์œผ๋กœ ์„ฑ๊ณต ์—ฌ๋ถ€๋ฅผ ๊ฒ€์ฆํ•˜์—ฌ, ๊ธด ์‹œ๊ฐ„ ๋™์•ˆ ์—ฌ๋Ÿฌ ๋‹จ๊ณ„๋ฅผ ์ˆ˜ํ–‰ํ•ด์•ผ ํ•˜๋Š” ์‹ค์ œ GUI ํ™˜๊ฒฝ์œผ๋กœ ํ™•์žฅํ•˜๋Š” ๋ฐ ํ•œ๊ณ„๊ฐ€ ์žˆ์—ˆ๋‹ค. ์ด๋Ÿฌํ•œ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด ๋ณธ ์—ฐ๊ตฌ๋Š” ํ˜„์‹ค์ ์ธ ์ปดํ“จํ„ฐ ํ™˜๊ฒฝ์—์„œ ๋ฒ”์šฉ GUI ์—์ด์ „ํŠธ์˜ ๊ฐœ๋ฐœ๊ณผ ํ‰๊ฐ€๋ฅผ ์ด‰์ง„ํ•˜๊ธฐ ์œ„ํ•œ ์ƒˆ๋กœ์šด ๋ฐ์ดํ„ฐ์…‹ 'VeriGUI'๋ฅผ ์ œ์•ˆํ•œ๋‹ค. 'VeriGUI'๋Š” ๋‘ ๊ฐ€์ง€ ํ•ต์‹ฌ ์ฐจ์›์— ์ค‘์ ์„ ๋‘”๋‹ค. ์ฒซ์งธ, ์žฅ๊ธฐ ๋ณต์žก์„ฑ์œผ๋กœ, ์ˆ˜๋ฐฑ ๋‹จ๊ณ„์— ์ด๋ฅด๋Š” ์ž‘์—…์„ ์ƒํ˜ธ ์˜์กด์ ์ธ ํ•˜์œ„ ์ž‘์—…์˜ ์ˆœ์„œ๋กœ ๋ถ„ํ•ดํ•˜์—ฌ ์„ค๊ณ„ํ–ˆ๋‹ค. ๋‘˜์งธ, ํ•˜์œ„ ์ž‘์—… ์ˆ˜์ค€์˜ ๊ฒ€์ฆ ๊ฐ€๋Šฅ์„ฑ์œผ๋กœ, ๊ฐ ํ•˜์œ„ ์ž‘์—…์˜ ๋ชฉํ‘œ ๋‹ฌ์„ฑ ์—ฌ๋ถ€๋ฅผ ๋ช…ํ™•ํžˆ ๊ฒ€์ฆํ•  ์ˆ˜ ์žˆ๋„๋ก ํ•˜์—ฌ ์—์ด์ „ํŠธ์˜ ์ˆ˜ํ–‰ ๊ณผ์ •์„ ์ •๋ฐ€ํ•˜๊ฒŒ ํ‰๊ฐ€ํ•  ์ˆ˜ ์žˆ๋‹ค. ๋‹ค์–‘ํ•œ ํŒŒ์šด๋ฐ์ด์…˜ ๋ชจ๋ธ์„ ๊ธฐ๋ฐ˜์œผ๋กœ ํ•œ ์—์ด์ „ํŠธ๋“ค์„ 'VeriGUI'์—์„œ ์‹คํ—˜ํ•œ ๊ฒฐ๊ณผ, ์žฅ๊ธฐ ์ž‘์—…์„ ์ฒ˜๋ฆฌํ•˜๋Š” ๋ฐ ์žˆ์–ด ์ƒ๋‹นํ•œ ์„ฑ๋Šฅ ๊ฒฉ์ฐจ๊ฐ€ ๋ฐœ๊ฒฌ๋˜์—ˆ์œผ๋ฉฐ, ์ด๋Š” GUI ์—์ด์ „ํŠธ์—๊ฒŒ ๋” ๊ฐ•๋ ฅํ•œ ๊ณ„ํš ๋ฐ ์˜์‚ฌ๊ฒฐ์ • ๋Šฅ๋ ฅ์ด ํ•„์š”ํ•จ์„ ์‹œ์‚ฌํ•œ๋‹ค.

Seed Diffusion: A Large-Scale Diffusion Language Model with High-Speed Inference

Paper, Project
์ด ๋…ผ๋ฌธ์€ ์ด์‚ฐ ์ƒํƒœ ํ™•์‚ฐ(discrete-state diffusion) ๊ธฐ์ˆ ์— ๊ธฐ๋ฐ˜ํ•˜์—ฌ ๋งค์šฐ ๋น ๋ฅธ ์ถ”๋ก  ์†๋„๋ฅผ ์ œ๊ณตํ•˜๋Š” ๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ 'Seed Diffusion' ํ”„๋ฆฌ๋ทฐ ๋ฒ„์ „์„ ์ œ์‹œํ•œ๋‹ค. ๊ธฐ์กด์˜ ์–ธ์–ด ๋ชจ๋ธ๋“ค์€ ํ† ํฐ์„ ํ•˜๋‚˜์”ฉ ์ˆœ์ฐจ์ ์œผ๋กœ ์ƒ์„ฑํ•˜์—ฌ ๋ณธ์งˆ์ ์ธ ์ง€์—ฐ ์‹œ๊ฐ„์„ ๊ฐ€์กŒ์ง€๋งŒ, ์ด์‚ฐ ํ™•์‚ฐ ๋ชจ๋ธ์€ ๋น„์ˆœ์ฐจ์ ์ด๊ณ  ๋ณ‘๋ ฌ์ ์ธ ์ƒ์„ฑ ๋ฐฉ์‹์„ ํ†ตํ•ด ์ด ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•œ๋‹ค. 'Seed Diffusion'์€ H20 GPU ํ™˜๊ฒฝ์—์„œ ์ดˆ๋‹น 2,146 ํ† ํฐ์ด๋ผ๋Š” ๋†€๋ผ์šด ์ถ”๋ก  ์†๋„๋ฅผ ๋‹ฌ์„ฑํ–ˆ๋‹ค. ์ด๋Š” ๋™์‹œ๋Œ€์˜ ๋‹ค๋ฅธ ํ™•์‚ฐ ๋ชจ๋ธ๋“ค๋ณด๋‹ค ํ›จ์”ฌ ๋น ๋ฅธ ์†๋„๋‹ค. ๋™์‹œ์—, ํ‘œ์ค€ ์ฝ”๋“œ ํ‰๊ฐ€ ๋ฒค์น˜๋งˆํฌ ์ „๋ฐ˜์—์„œ ๊ฒฝ์Ÿ๋ ฅ ์žˆ๋Š” ์„ฑ๋Šฅ์„ ์œ ์ง€ํ•˜๋ฉฐ ์ฝ”๋“œ ๋ชจ๋ธ์˜ '์†๋„-ํ’ˆ์งˆ ํŒŒ๋ ˆํ†  ํ”„๋ก ํ‹ฐ์–ด'์—์„œ ์ƒˆ๋กœ์šด ์ตœ๊ณ  ๊ธฐ์ˆ  ์ˆ˜์ค€(SOTA)์„ ํ™•๋ฆฝํ–ˆ๋‹ค. ์ด ๋ชจ๋ธ์€ ํŠนํžˆ ์ฝ”๋“œ ์ƒ์„ฑ๊ณผ ๊ฐ™์ด ๊ธด ๊ฒฐ๊ณผ๋ฌผ์ด ํ•„์š”ํ•œ ์ž‘์—…์—์„œ ์ง€์—ฐ ์‹œ๊ฐ„์„ ํš๊ธฐ์ ์œผ๋กœ ์ค„์ผ ์ˆ˜ ์žˆ๋Š” ๊ฐ€๋Šฅ์„ฑ์„ ๋ณด์—ฌ์ค€๋‹ค.

Cognitive Kernel-Pro: A Framework for Deep Research Agents and Agent Foundation Models Training

Paper, Project
๋ฒ”์šฉ AI ์—์ด์ „ํŠธ๋Š” ์ฐจ์„ธ๋Œ€ ์ธ๊ณต์ง€๋Šฅ์˜ ํ•ต์‹ฌ ํ”„๋ ˆ์ž„์›Œํฌ๋กœ ์ธ์‹๋˜๊ณ  ์žˆ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ํ˜„์žฌ ์—์ด์ „ํŠธ ์‹œ์Šคํ…œ์€ ๋Œ€๋ถ€๋ถ„ ๋น„๊ณต๊ฐœ ์†Œ์Šค์ด๊ฑฐ๋‚˜ ์œ ๋ฃŒ API ๋ฐ ๋…์  ๋„๊ตฌ์— ํฌ๊ฒŒ ์˜์กดํ•˜์—ฌ ์—ฐ๊ตฌ ์ปค๋ฎค๋‹ˆํ‹ฐ์˜ ์ ‘๊ทผ์„ฑ๊ณผ ์žฌํ˜„์„ฑ์„ ์ œํ•œํ•œ๋‹ค. ์ด๋Ÿฌํ•œ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๊ณ ์ž ๋ณธ ์—ฐ๊ตฌ๋Š” ๊ณ ๊ธ‰ AI ์—์ด์ „ํŠธ์˜ ๊ฐœ๋ฐœ๊ณผ ํ‰๊ฐ€๋ฅผ ๋ฏผ์ฃผํ™”ํ•˜๊ธฐ ์œ„ํ•ด ์„ค๊ณ„๋œ ์™„์ „ํ•œ ์˜คํ”ˆ์†Œ์Šค ๋ฌด๋ฃŒ ๋‹ค์ค‘ ๋ชจ๋“ˆ ์—์ด์ „ํŠธ ํ”„๋ ˆ์ž„์›Œํฌ 'Cognitive Kernel-Pro'๋ฅผ ๊ณต๊ฐœํ•œ๋‹ค. ์ด ํ”„๋ ˆ์ž„์›Œํฌ ๋‚ด์—์„œ ์—ฐ๊ตฌ์ง„์€ ์—์ด์ „ํŠธ ํŒŒ์šด๋ฐ์ด์…˜ ๋ชจ๋ธ์„ ์œ„ํ•œ ๊ณ ํ’ˆ์งˆ ํ›ˆ๋ จ ๋ฐ์ดํ„ฐ ์ƒ์„ฑ ๋ฐฉ๋ฒ•์„ ์ฒด๊ณ„์ ์œผ๋กœ ์—ฐ๊ตฌํ–ˆ๋‹ค. ํŠนํžˆ ์›น, ํŒŒ์ผ, ์ฝ”๋“œ, ์ผ๋ฐ˜ ์ถ”๋ก ์˜ ๋„ค ๊ฐ€์ง€ ํ•ต์‹ฌ ์˜์—ญ์— ๊ฑธ์ณ ์งˆ์˜, ์‹คํ–‰ ๊ถค์ , ๊ฒ€์ฆ ๊ฐ€๋Šฅํ•œ ๋‹ต๋ณ€์„ ๊ตฌ์ถ•ํ•˜๋Š” ๋ฐ ์ง‘์ค‘ํ–ˆ๋‹ค. ๋˜ํ•œ ์—์ด์ „ํŠธ์˜ ๊ฒฌ๊ณ ์„ฑ๊ณผ ์„ฑ๋Šฅ์„ ํ–ฅ์ƒ์‹œํ‚ค๊ธฐ ์œ„ํ•ด ํ…Œ์ŠคํŠธ ์‹œ๊ฐ„์— ์Šค์Šค๋กœ๋ฅผ ํ‰๊ฐ€ํ•˜๊ณ  ํˆฌํ‘œํ•˜๋Š” ์ƒˆ๋กœ์šด ์ „๋žต์„ ํƒ๊ตฌํ–ˆ๋‹ค. 'Cognitive Kernel-Pro'๋Š” GAIA ๋ฒค์น˜๋งˆํฌ์—์„œ ๋‹ค๋ฅธ ์˜คํ”ˆ์†Œ์Šค ๋ฌด๋ฃŒ ์—์ด์ „ํŠธ๋“ค์„ ๋Šฅ๊ฐ€ํ•˜๋Š” ์ตœ๊ณ  ์ˆ˜์ค€์˜ ๊ฒฐ๊ณผ๋ฅผ ๋‹ฌ์„ฑํ•˜๋ฉฐ, ์ ‘๊ทผ์„ฑ ๋†’์€ ๊ณ ์„ฑ๋Šฅ AI ์—์ด์ „ํŠธ์˜ ์ƒˆ๋กœ์šด ์„ฑ๋Šฅ ํ‘œ์ค€์„ ์ œ์‹œํ–ˆ๋‹ค.

On the Generalization of SFT: A Reinforcement Learning Perspective with Reward Rectification

Paper, Project
๋ณธ ๋…ผ๋ฌธ์€ ๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ ํ›ˆ๋ จ์— ๋„๋ฆฌ ์“ฐ์ด๋Š” ์ง€๋„ ๋ฏธ์„ธ์กฐ์ •(SFT) ๋ฐฉ์‹์ด ๊ฐ•ํ™”ํ•™์Šต(RL)์— ๋น„ํ•ด ์ผ๋ฐ˜ํ™” ์„ฑ๋Šฅ์ด ์ œํ•œ๋˜๋Š” ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด, ์ด๋ก ์— ๊ธฐ๋ฐ˜ํ•œ ๊ฐ„๋‹จํ•˜๋ฉด์„œ๋„ ํšจ๊ณผ์ ์ธ ๊ฐœ์„ ์ฑ…์„ ์ œ์‹œํ•œ๋‹ค. ์ˆ˜ํ•™์  ๋ถ„์„์„ ํ†ตํ•ด, ํ‘œ์ค€ SFT์˜ ๊ทธ๋ž˜๋””์–ธํŠธ๊ฐ€ ๋ชจ๋ธ์˜ ์ผ๋ฐ˜ํ™” ๋Šฅ๋ ฅ์„ ์‹ฌ๊ฐํ•˜๊ฒŒ ์ œํ•œํ•  ์ˆ˜ ์žˆ๋Š” ๋ฌธ์ œ์ ์ธ ๋ณด์ƒ ๊ตฌ์กฐ๋ฅผ ์•”๋ฌต์ ์œผ๋กœ ํ•™์Šตํ•œ๋‹ค๋Š” ์‚ฌ์‹ค์„ ๋ฐํ˜”๋‹ค. ์ด๋ฅผ ๋ฐ”๋กœ์žก๊ธฐ ์œ„ํ•ด ์—ฐ๊ตฌ์ง„์€ ๋™์  ๋ฏธ์„ธ์กฐ์ •(Dynamic Fine-Tuning, DFT)์„ ์ œ์•ˆํ•œ๋‹ค. ์ด ๋ฐฉ๋ฒ•์€ ๊ฐ ํ† ํฐ์ด ์ƒ์„ฑ๋  ํ™•๋ฅ ์„ ์ด์šฉํ•ด ๋ชฉ์  ํ•จ์ˆ˜์˜ ํฌ๊ธฐ๋ฅผ ๋™์ ์œผ๋กœ ์กฐ์ ˆํ•จ์œผ๋กœ์จ ๊ทธ๋ž˜๋””์–ธํŠธ ์—…๋ฐ์ดํŠธ๋ฅผ ์•ˆ์ •์‹œํ‚จ๋‹ค. ๋†€๋ž๊ฒŒ๋„ ์ด ๋‹จ ํ•œ ์ค„์˜ ์ฝ”๋“œ ๋ณ€๊ฒฝ๋งŒ์œผ๋กœ ํ‘œ์ค€ SFT์˜ ์„ฑ๋Šฅ์„ ์—ฌ๋Ÿฌ ์–ด๋ ค์šด ๋ฒค์น˜๋งˆํฌ์™€ ๋‹ค์–‘ํ•œ ๊ธฐ๋ฐ˜ ๋ชจ๋ธ์—์„œ ํฌ๊ฒŒ ๋Šฅ๊ฐ€ํ•˜๋ฉฐ, ์›”๋“ฑํžˆ ํ–ฅ์ƒ๋œ ์ผ๋ฐ˜ํ™” ์„ฑ๋Šฅ์„ ์ž…์ฆํ–ˆ๋‹ค. ์ด ์ ‘๊ทผ๋ฒ•์€ ์ด๋ก ์  ํ†ต์ฐฐ๊ณผ ์‹ค์šฉ์  ํ•ด๊ฒฐ์ฑ…์„ ์—ฐ๊ฒฐํ•˜์—ฌ SFT์˜ ์„ฑ๋Šฅ์„ ์‹ค์งˆ์ ์œผ๋กœ ๋ฐœ์ „์‹œ์ผฐ๋‹ค.

Efficient Agents: Building Effective Agents While Reducing Cost

Paper, Project
LLM ๊ธฐ๋ฐ˜ ์—์ด์ „ํŠธ์˜ ๋†€๋ผ์šด ๋Šฅ๋ ฅ์€ ๋ณต์žกํ•œ ๋‹ค๋‹จ๊ณ„ ์ž‘์—…์„ ํ•ด๊ฒฐํ•˜๋Š” ์ •๊ตํ•œ ์‹œ์Šคํ…œ์„ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ–ˆ์ง€๋งŒ, ๊ธ‰์ฆํ•˜๋Š” ๋น„์šฉ์€ ํ™•์žฅ์„ฑ๊ณผ ์ ‘๊ทผ์„ฑ์„ ์œ„ํ˜‘ํ•œ๋‹ค. ์ด ์—ฐ๊ตฌ๋Š” ์„ฑ๋Šฅ ์ €ํ•˜ ์—†์ด ๋น„์šฉ ํšจ์œจ์ ์ธ ์„ค๊ณ„๋ฅผ ๋ชจ์ƒ‰ํ•˜๋ฉฐ, ํ˜„๋Œ€ ์—์ด์ „ํŠธ ์‹œ์Šคํ…œ์˜ ํšจ์œจ์„ฑ-ํšจ๊ณผ์„ฑ ์ƒ์ถฉ ๊ด€๊ณ„์— ๋Œ€ํ•œ ์ตœ์ดˆ์˜ ์ฒด๊ณ„์ ์ธ ์—ฐ๊ตฌ๋ฅผ ์ œ์‹œํ•œ๋‹ค. ์—ฐ๊ตฌ๋Š” LLM ๋ฐฑ๋ณธ ์„ ํƒ, ์—์ด์ „ํŠธ ํ”„๋ ˆ์ž„์›Œํฌ ์„ค๊ณ„, ํ…Œ์ŠคํŠธ ์‹œ๊ฐ„ ํ™•์žฅ ์ „๋žต์˜ ์˜ํ–ฅ์„ GAIA ๋ฒค์น˜๋งˆํฌ์—์„œ 'ํ†ต๊ณผ ๋น„์šฉ(cost-of-pass)' ์ง€ํ‘œ๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ์ •๋Ÿ‰์ ์œผ๋กœ ํ‰๊ฐ€ํ–ˆ๋‹ค. ์ด ๋ถ„์„ ๊ฒฐ๊ณผ๋ฅผ ๋ฐ”ํƒ•์œผ๋กœ, ์ž‘์—… ์š”๊ตฌ์‚ฌํ•ญ์— ์ตœ์ ํ™”๋œ ๋ณต์žก๋„๋ฅผ ๊ฐ€์ง„ ์ƒˆ๋กœ์šด ์—์ด์ „ํŠธ ํ”„๋ ˆ์ž„์›Œํฌ 'Efficient Agents'๋ฅผ ๊ฐœ๋ฐœํ–ˆ๋‹ค. 'Efficient Agents'๋Š” ์„ ๋„์ ์ธ ์˜คํ”ˆ์†Œ์Šค ์—์ด์ „ํŠธ ํ”„๋ ˆ์ž„์›Œํฌ์ธ OWL ์„ฑ๋Šฅ์˜ 96.7%๋ฅผ ์œ ์ง€ํ•˜๋ฉด์„œ๋„, ์šด์˜ ๋น„์šฉ์„ ํฌ๊ฒŒ ์ ˆ๊ฐํ•˜์—ฌ ๋น„์šฉ ํšจ์œจ์„ฑ์„ 28.4% ๊ฐœ์„ ํ–ˆ๋‹ค. ์ด ์—ฐ๊ตฌ๋Š” ํšจ์œจ์ ์ด๊ณ  ๊ณ ์„ฑ๋Šฅ์ธ ์—์ด์ „ํŠธ ์‹œ์Šคํ…œ ์„ค๊ณ„๋ฅผ ์œ„ํ•œ ์‹ค์งˆ์ ์ธ ํ†ต์ฐฐ์„ ์ œ๊ณตํ•˜๋ฉฐ, AI ๊ธฐ๋ฐ˜ ์†”๋ฃจ์…˜์˜ ์ ‘๊ทผ์„ฑ๊ณผ ์ง€์† ๊ฐ€๋Šฅ์„ฑ์„ ๋†’์ด๋Š” ๋ฐ ๊ธฐ์—ฌํ•œ๋‹ค.

Beyond Fixed: Variable-Length Denoising for Diffusion Large Language Models

Paper, Project
ํ™•์‚ฐ ์–ธ์–ด ๋ชจ๋ธ(DLLM)์€ ํšจ์œจ์ ์ธ ๋ณ‘๋ ฌ ์ƒ์„ฑ๊ณผ ์ „์—ญ์  ๋ฌธ๋งฅ ๋ชจ๋ธ๋ง ๋Šฅ๋ ฅ์œผ๋กœ ์ฃผ๋ชฉ๋ฐ›๊ณ  ์žˆ์œผ๋‚˜, ์ƒ์„ฑ ๊ธธ์ด๋ฅผ ์ •์ ์œผ๋กœ ๋ฏธ๋ฆฌ ์ •์˜ํ•ด์•ผ ํ•˜๋Š” ์น˜๋ช…์ ์ธ ๊ตฌ์กฐ์  ์ œ์•ฝ์„ ๊ฐ€์ง€๊ณ  ์žˆ๋‹ค. ์ด๋กœ ์ธํ•ด ๊ธธ์ด๊ฐ€ ๋ถ€์กฑํ•˜๋ฉด ๋ณต์žกํ•œ ์ž‘์—…์— ์‹คํŒจํ•˜๊ณ , ๊ณผ๋„ํ•˜๊ฒŒ ๊ธธ๋ฉด ๊ณ„์‚ฐ ๋น„์šฉ์ด ๋‚ญ๋น„๋˜๋Š” ๋ฌธ์ œ๊ฐ€ ๋ฐœ์ƒํ•œ๋‹ค. ๋ณธ ์—ฐ๊ตฌ๋Š” ๋ชจ๋ธ ์ž์ฒด๊ฐ€ ์ตœ์ ์˜ ์‘๋‹ต ๊ธธ์ด์— ๋Œ€ํ•œ ๋‚ด๋ถ€ ์‹ ํ˜ธ๋ฅผ ๊ฐ€์ง€๊ณ  ์žˆ๋‹ค๋Š” ์ ์— ์ฐฉ์•ˆํ•˜์—ฌ, ์ด ์ž ์žฌ์  ์‹ ํ˜ธ๋ฅผ ํ™œ์šฉํ•˜๋Š” ์ƒˆ๋กœ์šด ํ›ˆ๋ จ ์—†๋Š” ๋…ธ์ด์ฆˆ ์ œ๊ฑฐ ์ „๋žต 'DAEDAL'์„ ์ œ์•ˆํ•œ๋‹ค. DAEDAL์€ ๋‘ ๋‹จ๊ณ„๋กœ ์ž‘๋™ํ•œ๋‹ค. ์ฒซ์งธ, ๋…ธ์ด์ฆˆ ์ œ๊ฑฐ ์ „์— ์งง์€ ์ดˆ๊ธฐ ๊ธธ์ด์—์„œ ์‹œ์ž‘ํ•˜์—ฌ ์‹œํ€€์Šค ์™„์„ฑ๋„ ์ง€ํ‘œ๋ฅผ ํ†ตํ•ด ์ž‘์—…์— ์ ํ•ฉํ•œ ๋Œ€๋žต์ ์ธ ๊ธธ์ด๊นŒ์ง€ ๋ฐ˜๋ณต์ ์œผ๋กœ ํ™•์žฅํ•œ๋‹ค. ๋‘˜์งธ, ๋…ธ์ด์ฆˆ ์ œ๊ฑฐ ๊ณผ์ • ์ค‘์— ๋™์ ์œผ๋กœ ๊ฐœ์ž…ํ•˜์—ฌ ๋ถˆ์ถฉ๋ถ„ํ•œ ์ƒ์„ฑ ์˜์—ญ์„ ์ฐพ์•„๋‚ด ๋งˆ์Šคํฌ ํ† ํฐ์„ ์‚ฝ์ž…ํ•จ์œผ๋กœ์จ ์ตœ์ข… ๊ฒฐ๊ณผ๋ฌผ์ด ์™„์ „ํžˆ ์ƒ์„ฑ๋˜๋„๋ก ๊ธธ์ด๋ฅผ ํ™•์žฅํ•œ๋‹ค. ์‹คํ—˜ ๊ฒฐ๊ณผ DAEDAL์€ ์ •๊ตํ•˜๊ฒŒ ์กฐ์ •๋œ ๊ณ ์ • ๊ธธ์ด ๋ชจ๋ธ๊ณผ ๋น„์Šทํ•˜๊ฑฐ๋‚˜ ๋” ์šฐ์ˆ˜ํ•œ ์„ฑ๋Šฅ์„ ๋‹ฌ์„ฑํ•˜๋ฉด์„œ๋„, ์œ ํšจ ํ† ํฐ ๋น„์œจ์„ ๋†’์—ฌ ๊ณ„์‚ฐ ํšจ์œจ์„ฑ๊นŒ์ง€ ๋™์‹œ์— ํ–ฅ์ƒ์‹œ์ผฐ๋‹ค.

Skywork UniPic: Unified Autoregressive Modeling for Visual Understanding and Generation

Paper, Project
๋ณธ ์—ฐ๊ตฌ๋Š” ์ด๋ฏธ์ง€ ์ดํ•ด, ํ…์ŠคํŠธ-์ด๋ฏธ์ง€ ์ƒ์„ฑ, ์ด๋ฏธ์ง€ ํŽธ์ง‘ ๊ธฐ๋Šฅ์„ ๋‹จ์ผ ์•„ํ‚คํ…์ฒ˜ ๋‚ด์—์„œ ํ†ตํ•ฉํ•œ 15์–ต ๋งค๊ฐœ๋ณ€์ˆ˜ ๊ทœ๋ชจ์˜ ์ž๊ธฐํšŒ๊ท€ ๋ชจ๋ธ 'Skywork UniPic'์„ ์†Œ๊ฐœํ•œ๋‹ค. ์ด ๋ชจ๋ธ์€ ์ž‘์—…๋ณ„ ์–ด๋Œ‘ํ„ฐ๋‚˜ ๋ชจ๋“ˆ ๊ฐ„ ์—ฐ๊ฒฐ ์žฅ์น˜ ์—†์ด ๋ชจ๋“  ๊ธฐ๋Šฅ์„ ์ˆ˜ํ–‰ํ•˜๋ฉฐ, ๋น„๊ต์  ์ž‘์€ ์‹œ์Šคํ…œ์œผ๋กœ๋„ ์ตœ๊ณ  ์ˆ˜์ค€์˜ ์„ฑ๋Šฅ์„ ๋‹ฌ์„ฑํ•  ์ˆ˜ ์žˆ์Œ์„ ๋ณด์—ฌ์ค€๋‹ค. 'Skywork UniPic'์€ RTX 4090๊ณผ ๊ฐ™์€ ์ผ๋ฐ˜ ์†Œ๋น„์ž์šฉ ํ•˜๋“œ์›จ์–ด(15GB ๋ฏธ๋งŒ GPU ๋ฉ”๋ชจ๋ฆฌ)์—์„œ 1024x1024 ํ•ด์ƒ๋„์˜ ์ด๋ฏธ์ง€๋ฅผ ์ƒ์„ฑํ•  ์ˆ˜ ์žˆ๋‹ค. ์ด๋Ÿฌํ•œ ์„ฑ๊ณผ๋Š” ํ•ฉ์„ฑ์„ ์œ„ํ•œ ๋งˆ์Šคํ‚น๋œ ์ž๊ธฐํšŒ๊ท€ ์ธ์ฝ”๋”์™€ ์ดํ•ด๋ฅผ ์œ„ํ•œ SigLIP2 ์ธ์ฝ”๋”๋ฅผ ๋ถ„๋ฆฌํ•˜์—ฌ ๊ณต์œ  ๋””์ฝ”๋”์— ๊ณต๊ธ‰ํ•˜๋Š” ๋ถ„๋ฆฌ ์ธ์ฝ”๋”ฉ ์ „๋žต, ๊ทธ๋ฆฌ๊ณ  256x256์—์„œ 1024x1024 ํ•ด์ƒ๋„๋กœ ํ™•์žฅํ•˜๋ฉฐ ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ๋™์ ์œผ๋กœ ํ™œ์„ฑํ™”ํ•˜๋Š” ์ ์ง„์ , ํ•ด์ƒ๋„ ์ธ์‹ ํ›ˆ๋ จ ๋ฐฉ์‹ ๋•๋ถ„์ด๋‹ค. ๊ณ ํ’ˆ์งˆ์˜ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ํ†ตํ•ฉ์ด ๋ฐ˜๋“œ์‹œ ๋ง‰๋Œ€ํ•œ ์ž์›์„ ์š”๊ตฌํ•˜์ง€ ์•Š๋Š”๋‹ค๋Š” ๊ฒƒ์„ ์ฆ๋ช…ํ•จ์œผ๋กœ์จ, 'Skywork UniPic'์€ ๋ฐฐํฌ ๊ฐ€๋Šฅํ•œ ๊ณ ์„ฑ๋Šฅ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ AI์˜ ์‹ค์šฉ์ ์ธ ํŒจ๋Ÿฌ๋‹ค์ž„์„ ํ™•๋ฆฝํ–ˆ๋‹ค.

profile
XR๊ณผ AI์— ๊ด€์‹ฌ์ด ๋งŽ์€ Sky ์ž…๋‹ˆ๋‹ค.

0๊ฐœ์˜ ๋Œ“๊ธ€