ํ์ด๋ฐ์ด์ ๋ชจ๋ธ์ ์งํ: ๋ฉํฐ๋ชจ๋ฌ ์ถ๋ก ๊ณผ ์ํธ์์ฉํ Physical AI๋ก์ ํ์ฅ ํ์ฐ ๋ชจ๋ธ
๊ณ ํฌ์์ฑ MoE, ํ๋์จ์ด ์์ํ ํ์ ์ ํตํ AI ํจ์จ์ฑ ๋ฐ ์์ ์ฑ ํ๋ณด
Paper, Project
'Thinking with Video'๋ ํ
์คํธ์ ์ด๋ฏธ์ง ๊ธฐ๋ฐ ์ถ๋ก ์ ์ ์ ์ธ ํ๊ณ๋ฅผ ๊ทน๋ณตํ๊ธฐ ์ํด Sora-2์ ๊ฐ์ ๋น๋์ค ์์ฑ ๋ชจ๋ธ์ ํ์ฉํ๋ ์๋ก์ด ํจ๋ฌ๋ค์์ ์ ์ํ๋ค. ์ด ์ ๊ทผ๋ฒ์ ๋์ ์ธ ํ๋ก์ธ์ค์ ์ฐ์์ ์ธ ๋ณํ๋ฅผ ํต์ผ๋ ์๊ฐ์ ํ๋ ์์ํฌ ์์์ ํตํฉ์ ์ผ๋ก ๋ค๋ฃจ๋ฉฐ, ์ด๋ฅผ ๊ฒ์ฆํ๊ธฐ ์ํด VideoThinkBench๋ผ๋ ๋ฒค์น๋งํฌ๋ฅผ ๊ฐ๋ฐํ๋ค. ์ด ๋ฒค์น๋งํฌ์์ Sora-2๋ ๋น์ ๋ฐ ํ
์คํธ ์ค์ฌ ์์
๋ชจ๋์์ ๊ฐ๋ ฅํ ์ถ๋ก ๋ฅ๋ ฅ์ ์
์ฆํ๋ฉฐ, ๋น๋์ค ์์ฑ ๋ชจ๋ธ์ด ํ
์คํธ์ ๋น์ ์ ์์ฐ๋ฅด๋ ํตํฉ ๋ฉํฐ๋ชจ๋ฌ ์ถ๋ก ๊ธฐ๋ก์์ ์ ์ฌ๋ ฅ์ ์ง๋๊ณ ์์์ ๋ณด์ฌ์ค๋ค.

Paper, Project
VCode๋ ๊ธฐ์กด AI ์ฐ๊ตฌ๊ฐ ์ํํ ๋ค๋ฃฌ '์๊ฐ ์ค์ฌ ์ฝ๋ฉ' ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด, ์ด๋ฏธ์ง๋ฅผ ํด์ ๊ฐ๋ฅํ๊ณ ์คํ ๊ฐ๋ฅํ SVG ์ฝ๋๋ก ๋ณํํ๋ ์๋ก์ด ๋ฒค์น๋งํฌ๋ฅผ ์ ์ํ๋ค. ์ด ๋
ผ๋ฌธ์ ์์ฑ๋ SVG๊ฐ ์๋ณธ์ ์์ง์ ์๋ฏธ๋ฅผ ์ผ๋ง๋ ์ ๋ณด์กดํ๋์ง ํ๊ฐํ๋ CodeVQA ํ๋กํ ์ฝ์ ํจ๊ป ์ ์ํ๋ฉฐ, ๊ธฐ์กด VLM์ SVG ์์ฑ ํ๊ณ๋ฅผ ๊ทน๋ณตํ๊ธฐ ์ํด ๋ฐ๋ณต์ ์ธ '์์ (Revision)'๊ณผ '์๊ฐ์ ๋๊ตฌ(Visual Tools)'๋ฅผ ํ์ฉํ๋ ์์ด์ ํธ ํ๋ ์์ํฌ VCoder๋ฅผ ๊ฐ๋ฐํด ์ฐ์ํ ์ฑ๋ฅ์ ๋ฌ์ฑํ๋ค.

Paper, Project
'Don't Blind Your VLA'๋ VLM(์๊ฐ-์ธ์ด ๋ชจ๋ธ)์ ํ๋(Action) ๋ฐ์ดํฐ๋ก ๋ฏธ์ธ ์กฐ์ ํด VLA(์๊ฐ-์ธ์ด-ํ๋) ๋ชจ๋ธ์ ๋ง๋ค ๋, VLM์ด ์๋ ๊ฐ์ง๊ณ ์๋ ๊ฐ๋ ฅํ ์๊ฐ-์ธ์ด ํํ๋ ฅ์ด ์ ํ๋๋ ๋ฌธ์ ๋ฅผ ์ฒด๊ณ์ ์ผ๋ก ๊ท๋ช
ํ๋ค. ์ด๋ฌํ ํํ๋ ฅ ์ ํ๋ ํนํ ํ์ต๋์ง ์์ ์๋ก์ด ํ๊ฒฝ(OOD)์์์ ์ผ๋ฐํ ์ฑ๋ฅ์ ์ฌ๊ฐํ๊ฒ ๋จ์ด๋จ๋ฆฌ๋ฉฐ, ์ด ์ฐ๊ตฌ๋ ๋ด๋ถ ํํ ๋ถ์์ ํตํด ์ด๋ฅผ ์
์ฆํ๊ณ ํ๋ ํ์ต ์ค์๋ ๊ธฐ์กด VLM์ ์ง์์ ๋ณด์กดํ๋๋ก ์๊ฐ์ ํํ์ ์ ๋ ฌํ๋ ํจ๊ณผ์ ์ธ ์ํ ์ ๋ต์ ์ ์ํ๋ค.

Paper, Project
'Diffusion Language Models are Super Data Learners'๋ ํ์ฐ(Diffusion) ์ธ์ด ๋ชจ๋ธ(DLM)์ด ์๊ธฐํ๊ท(AR) ๋ชจ๋ธ๋ณด๋ค ๋ฐ์ดํฐ ํ์ต ํจ์จ์ด ๋ฐ์ด๋จ์ ์
์ฆํ๋ค. ์ด ์ฐ๊ตฌ๋ ๊ณ ์ ํ ๋ฐ์ดํฐ๊ฐ ์ ํ๋ ํ๊ฒฝ์์ ๋ฐ์ดํฐ๋ฅผ ๋ฐ๋ณต ํ์ต์ํฌ ๊ฒฝ์ฐ, DLM์ด AR ๋ชจ๋ธ์ ์ฑ๋ฅ์ ์ผ๊ด๋๊ฒ ๋ฅ๊ฐํ๋ '๊ต์ฐจ(Crossover)' ํ์์ ๋ฐ๊ฒฌํ์ผ๋ฉฐ, ์ด๋ DLM์ ์์ ๋ฌด๊ด(any-order) ๋ชจ๋ธ๋ง๊ณผ ๊ณ ๋ฐ๋ ์ฐ์ฐ ํน์ฑ ๋๋ถ์ด๋ผ๊ณ ๋ถ์ํ๋ค. ๊ฒฐ๋ก ์ ์ผ๋ก DLM์ ์ ํ๋ ๋ฐ์ดํฐ๋ฅผ '์ง๋ด์ด' ํ์ตํ๋ ๋ฐ ๋งค์ฐ ๊ฐ๋ ฅํ '์ํผ ๋ฐ์ดํฐ ํ์ต์'์์ ์์ฌํ๋ค.

Paper, Project
'Every Activation Boosted'๋ '๋ชจ๋ ํ์ฑํ๊ฐ ์ถ๋ก ๋ฅ๋ ฅ์ ์ฆํญ์ํจ๋ค'๋ ์์น์ ๊ธฐ๋ฐํ์ฌ 160์ต ๊ฐ๋ถํฐ 1์กฐ ๊ฐ ํ๋ผ๋ฏธํฐ๊น์ง ํ์ฅ๋๋ ์ถ๋ก ์งํฅ ์ธ์ด ๋ชจ๋ธ ์๋ฆฌ์ฆ Ling 2.0์ ์ ์ํ๋ค. ์ด ๋ชจ๋ธ์ ๊ณ ํฌ์์ฑ MoE ์ํคํ
์ฒ๋ฅผ ์ฑํํ์ฌ ๊ธฐ์กด ๋ด์ค ๋ชจ๋ธ ๋๋น ์๋์ ์ธ ์ฐ์ฐ ํจ์จ์ ๋ฌ์ฑํ์ผ๋ฉฐ, ์ถ๋ก ์งํฅ ๋ฐ์ดํฐ(CoT) ํ์ต๊ณผ ๊ฐํ ํ์ต ๊ธฐ๋ฐ ๋ฏธ์ธ ์กฐ์ , FP8 ์ธํ๋ผ ๋ฑ ํ์ ์ ํตํฉํ๋ค. ๊ทธ ๊ฒฐ๊ณผ, 1์กฐ ํ๋ผ๋ฏธํฐ ๋ชจ๋ธ์ธ Ling-1T๋ ์ถ๋ก ์ ํ๋์ ๊ณ์ฐ ํจ์จ์ฑ ์ธก๋ฉด์์ ์๋ก์ด ํ๋ ํ ํ๋ก ํฐ์ด๋ฅผ ํ๋ฆฝํ๋ค.

Paper, Project
'ThinkMorph'๋ ์ง์ ํ ๋ฉํฐ๋ชจ๋ฌ ์ถ๋ก ์ด๋ ํ
์คํธ์ ์ด๋ฏธ์ง๊ฐ ์ค๋ณต๋๋ ๊ฒ์ด ์๋๋ผ, ์ถ๋ก ์ ํจ๊ป ๋ฐ์ ์ํค๋ '์ํธ ๋ณด์์ ' ๊ด๊ณ์ฌ์ผ ํ๋ค๊ณ ์ฃผ์ฅํ๋ค. ์ด ์์น์ ๋ฐ๋ผ ๊ฐ๋ฐ๋ ThinkMorph ๋ชจ๋ธ์ 24,000๊ฐ์ ๊ณ ํ์ง ์ธํฐ๋ฆฌ๋ธ๋(interleaved) ์ถ๋ก ๋ฐ์ดํฐ๋ก ํ์ตํ์ผ๋ฉฐ, ์ธ์ด์ ๋
ผ๋ฆฌ๋ฅผ ์ ์งํ๋ฉด์ ์๊ฐ์ ์ฝํ
์ธ ๋ฅผ ๊ตฌ์ฒด์ ์ผ๋ก '์กฐ์'ํ๋ ํ
์คํธ-์ด๋ฏธ์ง ์ฌ๊ณ ๋จ๊ณ๋ฅผ ์์ฑํ๋ค. ๊ทธ ๊ฒฐ๊ณผ, ๋น์ ์ค์ฌ ๋ฒค์น๋งํฌ์์ ๋ฒ ์ด์ค ๋ชจ๋ธ ๋๋น ํ๊ท 34.7%์ ํฐ ์ฑ๋ฅ ํฅ์์ ๋ณด์์ ๋ฟ๋ง ์๋๋ผ, ํ์ตํ์ง ์์ ์๊ฐ ์กฐ์ ๊ธฐ์ ์ ์ ๋ณด์ด๋ '์ฐฝ๋ฐ์ (emergent)' ํน์ฑ์ ๋๋ฌ๋ธ๋ค.

Paper
'OS-Sentinel'์ VLM ๊ธฐ๋ฐ ๋ชจ๋ฐ์ผ GUI ์์ด์ ํธ๊ฐ ์์คํ
์ ์์์ํค๊ฑฐ๋ ๊ฐ์ธ ์ ๋ณด๋ฅผ ์ ์ถํ๋ ๋ฑ์ '์์ ํ์ง ์์ ์๋'์ ํ์งํ๊ธฐ ์ํ ํ์ด๋ธ๋ฆฌ๋ ํ๋ ์์ํฌ๋ฅผ ์ ์ํ๋ค. ์ด ์ฐ๊ตฌ๋ ์ค์ ์ ์ธ ์ํ ์๋๋ฆฌ์ค๋ฅผ ํฌํจํ๋ ์๋๋ฐ์ค ํ๊ฒฝ 'MobileRisk-Live'๋ฅผ ๊ตฌ์ถํ์ผ๋ฉฐ, OS-Sentinel์ ๋ช
์์ ์ธ ์์คํ
๊ท์น ์๋ฐ์ ํ์งํ๋ '์ ํ ๊ฒ์ฆ๊ธฐ'์ ๋ฌธ๋งฅ์ ์ํ์ ํ๋จํ๋ 'VLM ๊ธฐ๋ฐ ๋ฌธ๋งฅ ํ๋จ๊ธฐ'๋ฅผ ๊ฒฐํฉํ๋ค. ์ด ํ์ด๋ธ๋ฆฌ๋ ์ ๊ทผ๋ฒ์ ๊ธฐ์กด ํ์ง ๋ฐฉ์๋ณด๋ค 10~30% ํฅ์๋ ์ ํ๋๋ก ๋ ์์ ํ ๋ชจ๋ฐ์ผ ์์ด์ ํธ ๊ฐ๋ฐ์ ๊ธฐ๋ฐ์ ๋ง๋ จํ๋ค.

Paper, Project
'V-Thinker'๋ LMM(๋ํ ๋ฉํฐ๋ชจ๋ฌ ๋ชจ๋ธ)์ด ์ด๋ฏธ์ง์ ๊น๊ฒ '์ํธ์์ฉ'ํ๋ฉฐ ์ฅ๊ธฐ์ ์ถ๋ก ์ ์ํํ๋๋ก ์ค๊ณ๋ ๋ฒ์ฉ ์ถ๋ก ๋ณด์กฐ ๋ชจ๋ธ์ด๋ค. ์ด ๋ชจ๋ธ์ '๋ฐ์ดํฐ ์งํ ํ๋ผ์ดํ '์ ํตํด ๊ณ ํ์ง์ ์ํธ์์ฉ ์ถ๋ก ๋ฐ์ดํฐ์
์ ์๋์ผ๋ก ์์ฑ ๋ฐ ๊ฒ์ฆํ๋ฉฐ, '์๊ฐ์ ์ ์ง์ ํ์ต ์ปค๋ฆฌํ๋ผ'์ด๋ผ๋ 2๋จ๊ณ ๊ฐํ ํ์ต ํ๋ ์์ํฌ๋ฅผ ํตํด ์ํธ์์ฉ ๋ฅ๋ ฅ์ ํ์ตํ๋ค. V-Thinker๋ ์๋กญ๊ฒ ๋์
๋ VTBench ๋ฒค์น๋งํฌ์์ ๊ธฐ์กด LMM ๊ธฐ๋ฐ ๋ชจ๋ธ๋ค์ ์ผ๊ด๋๊ฒ ๋ฅ๊ฐํ๋ฉฐ, ์ด๋ฏธ์ง ์ํธ์์ฉ ์ถ๋ก ์ ์๋ก์ด ๊ฐ๋ฅ์ฑ์ ์ ์ํ๋ค.

Paper, Project
'INT v.s. FP'๋ ์ต์ AI ํ๋์จ์ด๊ฐ ์ ์ ๋ฐ ๋ถ๋ ์์์ (FP) ํ์์ ์ ํธํ๋ ์ถ์ธ ์์์, ์ ์ ๋ฐ ์ ์(INT)์ FP ํ์์ ์ฑ๋ฅ์ ์ธ๋ถํ๋(fine-grained) ์์ค์์ ์ฒด๊ณ์ ์ผ๋ก ๋น๊ต ๋ถ์ํ๋ค. ์ด ์ฐ๊ตฌ๋ 8๋นํธ ์์ค์์๋ ์ธ๋ถํ๋ ์ ์ ํ์์ธ MXINT8์ด FP๋ณด๋ค ์๊ณ ๋ฆฌ์ฆ ์ ํ๋์ ํ๋์จ์ด ํจ์จ์ฑ ๋ชจ๋์์ ์ฐ์ํ๋ค๋ '์ฑ๋ฅ ๊ต์ฐจ(crossover)'๋ฅผ ๋ฐํ๋๋ค. 4๋นํธ์์๋ FP๊ฐ ์ข
์ข
์ฐ์ธํ์ง๋ง, ์ด๋ ํ๋์จ์ด ์ค๊ณ๊ฐ FP ์ผ๋ณ๋๋ก ๊ฐ๋ ๊ฒ์ด ์ต์ ์ด ์๋ ์ ์์ผ๋ฉฐ, MXINT8๊ณผ ๊ฐ์ ์ธ๋ถํ๋ INT ํ์์ด ๋ ๋์ ๊ท ํ์ ์ ์ ๊ณตํ ์ ์์์ ์์ฌํ๋ค.

Paper, Project
'World Simulation with Video Foundation Models for Physical AI'๋ Physical AI ์ฐ๊ตฌ๋ฅผ ์ํ ์ฐจ์ธ๋ ์๋ ํ์ด๋ฐ์ด์
๋ชจ๋ธ [Cosmos-Predict2.5]๋ฅผ ์๊ฐํ๋ค. ์ด ๋ชจ๋ธ์ Flow ๊ธฐ๋ฐ ์ํคํ
์ฒ๋ฅผ ํตํด ํ
์คํธ, ์ด๋ฏธ์ง, ๋น๋์ค๋ก๋ถํฐ ์ผ๊ด๋ ์๋ ์๋ฎฌ๋ ์ด์
์์ฑ์ ๋จ์ผ ๋ชจ๋ธ๋ก ํตํฉํ์ผ๋ฉฐ, 2์ต ๊ฐ์ ๋น๋์ค ๋ฐ์ดํฐ์ ๊ฐํ ํ์ต์ผ๋ก ์ ์ ๋์ด ๋น๋์ค ํ์ง๊ณผ ๋ช
๋ น์ด ์ ๋ ฌ ๋ฅ๋ ฅ์ด ํฌ๊ฒ ํฅ์๋์๋ค. ๋ํ, Sim2Real ๋ณํ์ ์ํ [Cosmos-Transfer2.5]์ ํจ๊ป ๊ณต๊ฐ๋์ด ๋ก๋ณดํฑ์ค ๋ฐ ์์จ ์์คํ
์ ์ํ ํฉ์ฑ ๋ฐ์ดํฐ ์์ฑ๊ณผ ์ ์ฑ
ํ๊ฐ๋ฅผ ๊ฐ์ํํ๋ค.
