๋ฉํฐ๋ชจ๋ฌ ๋น์ -์ธ์ด ๋ชจ๋ธ(VLM)์ ์งํ, ๊ฐํ ํ์ต(RL) ๊ธฐ๋ฐ ์ถ๋ก ๋ฅ๋ ฅ ๋ฐ ๋น๋์ค ์ดํด ํ์
์์ฑํ AI๋ฅผ ํตํ 3D ์ฅ๋ฉด ์ฌ๊ตฌ์ฑ, ์ ๋๋ฉ์ด์ ์ฑ์, ๊ทธ๋ฆฌ๊ณ ์น ์์ด์ ํธ์ ์ด์ธ์ ์ถ๋ก ๊ตฌํ
GLM-4.1V-Thinking: ๋๊ท๋ชจ ์ฌ์ ํ์ต๊ณผ ๊ฐํ ํ์ต์ผ๋ก STEM ๋ฌธ์ , ๋น๋์ค ์ดํด ๋ฑ ๋ค์ํ ๋ฉํฐ๋ชจ๋ฌ ์ถ๋ก ๋ฅ๋ ฅ์ ๊ฐํํ ๋น์ -์ธ์ด ๋ชจ๋ธ์ด๋ค.
Kwai Keye-VL Technical Report: ๋๊ท๋ชจ ๊ณ ํ์ง ๋น๋์ค ๋ฐ์ดํฐ์ ํ์ ์ ์ธ ๋ค๋จ๊ณ ํ์ต์ ํตํด ์งง์ ๋น๋์ค ์ดํด ๋ฅ๋ ฅ์ ๊ทน๋ํํ ๋ฉํฐ๋ชจ๋ฌ ๋ชจ๋ธ์ด๋ค.
LongAnimation: ๋์ ์ ์ญ-์ง์ญ ๋ฉ๋ชจ๋ฆฌ ๊ธฐ๋ฒ์ผ๋ก ๊ธด ์ ๋๋ฉ์ด์ ์ ์ฅ๊ธฐ์ ์ธ ์์ ์ผ๊ด์ฑ์ ์ ์งํ๋ฉฐ ์๋ ์ฑ์ํ๋ ํ๋ ์์ํฌ์ด๋ค.
WebSailor: ๊ณ ๋ถํ์ค์ฑ ์์ ์์ฑ๊ณผ ํจ์จ์ ์ธ ๊ฐํ ํ์ต์ผ๋ก ์น ์์ด์ ํธ์ ์ด์ธ์ ์ธ ์ ๋ณด ํ์ ๋ฐ ์ถ๋ก ๋ฅ๋ ฅ์ ๊ตฌํํ๋ ๋ฐฉ๋ฒ๋ก ์ด๋ค.
BlenderFusion: 3D ๊ธฐ๋ฐ ์ ์ด์ ์์ฑํ ์ปดํฌ์งํฐ๋ฅผ ํ์ฉํ์ฌ ์๊ฐ์ ์ ๋ ฅ์ 3D ์ํฐํฐ๋ก ๋ถ๋ฆฌ, ํธ์ง, ํฉ์ฑํ๋ ํ์ ์ ์ธ ํ๋ ์์ํฌ์ด๋ค.
Ovis-U1 Technical Report: ๋ฉํฐ๋ชจ๋ฌ ์ดํด, ํ ์คํธ-์ด๋ฏธ์ง ์์ฑ, ์ด๋ฏธ์ง ํธ์ง ๊ธฐ๋ฅ์ ํตํฉํ๊ณ ๋จ์ผ ํ์ต์ผ๋ก ์ฑ๋ฅ์ ํฅ์์ํจ ํจ์จ์ ์ธ ๋ชจ๋ธ์ด๋ค.
Does Math Reasoning Improve General LLM Capabilities? Understanding Transferability of LLM Reasoning: ์ํ ์ถ๋ก ํ๋ จ์ด ๊ฐํ ํ์ต ๋ฐฉ์์ผ ๋๋ง ์ผ๋ฐ LLM ๋ฅ๋ ฅ ์ ์ด์ ํจ๊ณผ์ ์ด๋ฉฐ, ์ง๋ ๋ฏธ์ธ ์กฐ์ ์ ์คํ๋ ค ์ผ๋ฐ ๋ฅ๋ ฅ์ ์ ํดํ ์ ์์์ ๋ฐํ๋ค.
LangScene-X: TriMap ๋น๋์ค ํ์ฐ ๋ชจ๋ธ๊ณผ ์ธ์ด ์์ํ ์์ถ๊ธฐ๋ฅผ ์ฌ์ฉํ์ฌ ํฌ์ํ ๋ทฐ์์๋ ์ผ๋ฐํ ๊ฐ๋ฅํ 3D ์ธ์ด ์๋ฒ ๋๋ ์ฅ๋ฉด์ ์ฌ๊ตฌ์ฑํ๋ ์์ฑ ํ๋ ์์ํฌ์ด๋ค.
Depth Anything at Any Condition: ๋น์ง๋ ์ผ๊ด์ฑ ์ ๊ทํ์ ๊ณต๊ฐ ๊ฑฐ๋ฆฌ ์ ์ฝ์ ํตํด ๋ค์ํ ํ๊ฒฝ ์กฐ๊ฑด์์๋ ๋ฐ์ด๋ ์ฑ๋ฅ์ ๋ฐํํ๋ ๋จ์ ๊น์ด ์ถ์ ํ์ด๋ฐ์ด์ ๋ชจ๋ธ์ด๋ค.
Paper, Project
GLM-4.1V-Thinking์ ๋ค๋ชฉ์ ๋ฉํฐ๋ชจ๋ฌ ์ถ๋ก ์ ์ํด ์ค๊ณ๋ ๋น์ -์ธ์ด ๋ชจ๋ธ(VLM)์ด๋ค. ๋๊ท๋ชจ ์ฌ์ ํ์ต์ผ๋ก ๋น์ ๊ธฐ๋ฐ ๋ชจ๋ธ์ ๊ฐ๋ฐํ ํ, ์ปค๋ฆฌํ๋ผ ์ํ๋ง์ ํ์ฉํ ๊ฐํ ํ์ต(RLCS)์ ํตํด ๋ชจ๋ธ์ ์ ์ฌ๋ ฅ์ ์ต๋ํ ๋ฐํ์์ผฐ๋ค. ์ด๋ก ์ธํด STEM ๋ฌธ์ ํด๊ฒฐ, ๋น๋์ค ์ดํด, ์ฝ๋ฉ, ๊ธด ๋ฌธ์ ์ดํด ๋ฑ ๋ค์ํ ์์
์์ ์ฑ๋ฅ์ด ํฌ๊ฒ ํฅ์๋์๋ค. ํนํ, GLM-4.1V-9B-Thinking์ GPT-4o์ ๊ฐ์ ๋น๊ณต๊ฐ ๋ชจ๋ธ๊ณผ ๋น๊ตํด๋ ๋ฐ์ด๋ ์ฑ๋ฅ์ ๋ณด์ฌ์ค๋ค.

Paper, Project
Kwai Keye-VL์ ์งง์ ๋น๋์ค ์ดํด์ ํนํ๋ 80์ต ๋งค๊ฐ๋ณ์ ๋ฉํฐ๋ชจ๋ฌ ํ์ด๋ฐ์ด์
๋ชจ๋ธ์ด๋ค. 6์ฒ์ต ํ ํฐ ์ด์์ ๋๊ท๋ชจ ๊ณ ํ์ง ๋น๋์ค ์ค์ฌ ๋ฐ์ดํฐ์
๊ณผ ํ์ ์ ์ธ 4๋จ๊ณ ์ฌ์ ํ์ต ๋ฐ 2๋จ๊ณ ์ฌํ ํ์ต(๊ณ ๊ธ ์ถ๋ก ์ ์ํ 5๊ฐ์ง ๋ชจ๋์ ์ฝ๋ ์คํํธ ๋ฐ์ดํฐ ํผํฉ ํฌํจ)์ ํตํด ๊ฐ๋ฐ๋์๋ค. Keye-VL์ ๊ณต๊ฐ ๋น๋์ค ๋ฒค์น๋งํฌ์์ ์ต์ฒจ๋จ ๊ฒฐ๊ณผ๋ฅผ ๋ฌ์ฑํ๋ฉฐ ์ผ๋ฐ ์ด๋ฏธ์ง ๊ธฐ๋ฐ ์์
์์๋ ๊ฒฝ์๋ ฅ์ ์ ์งํ๋ค.

Paper, Project
LongAnimation์ ๋์ ์ ์ญ-์ง์ญ ๋ฉ๋ชจ๋ฆฌ(DGLM)๋ฅผ ์ฌ์ฉํ์ฌ ๊ธด ์ ๋๋ฉ์ด์
์ ์์ ์ผ๊ด์ฑ์ ์ ์งํ๋ฉฐ ์๋ ์ฑ์ํ๋ ํ๋ ์์ํฌ์ด๋ค. ๊ธฐ์กด ๋ฐฉ์์ ์ง์ญ์ ์ ๋ณด์๋ง ์ง์คํ์ฌ ์ฅ๊ธฐ์ ์ธ ์์ ์ผ๊ด์ฑ ์ ์ง๊ฐ ์ด๋ ค์ ์ง๋ง, LongAnimation์ ์ ์ญ์ ์ธ ์์ ์ผ๊ด์ฑ ํน์ง์ ๋์ ์ผ๋ก ์ถ์ถํ์ฌ ์ด๋ฅผ ํด๊ฒฐํ๋ค. SketchDiT, DGLM, ์์ ์ผ๊ด์ฑ ๋ณด์(Color Consistency Reward)์ ํตํด ์ฅ๋จ๊ธฐ ์์ ์ผ๊ด์ฑ์ ํจ๊ณผ์ ์ผ๋ก ์ ์งํ๋ค.

Paper, Project
WebSailor๋ ์น ์์ด์ ํธ๊ฐ ์ธ๊ฐ์ ์ธ์ง์ ํ๊ณ๋ฅผ ๋ฐ์ด๋์ด ์ด์ธ์ ์ธ ์ถ๋ก ๋ฅ๋ ฅ์ ๊ฐ์ถ๋๋ก ํ๋ จํ๋ ์ฌํ ํ์ต ๋ฐฉ๋ฒ๋ก ์ด๋ค. ํนํ, ๋ฐฉ๋ํ ์ ๋ณด ํ๊ฒฝ์์ ๊ทน์ฌํ ๋ถํ์ค์ฑ์ ์ฒด๊ณ์ ์ผ๋ก ์ค์ด๋ ๋ฅ๋ ฅ์ ์ฃผ์
ํ๋ ๋ฐ ์ค์ ์ ๋๋ค. ์๋ก์ด ๊ณ ๋ถํ์ค์ฑ ์์
์์ฑ, RFT ์ฝ๋ ์คํํธ, ํจ์จ์ ์ธ ์์ด์ ํธ RL ํ๋ จ ์๊ณ ๋ฆฌ์ฆ(Duplicating Sampling Policy Optimization, DUPO)์ ํตํฉํ์ฌ ์คํ์์ค ์์ด์ ํธ์ ์ฑ๋ฅ์ ํฌ๊ฒ ํฅ์์ํค๊ณ ๋
์ ์์ด์ ํธ์ ์ ์ฌํ ์ฑ๋ฅ์ ๋ฌ์ฑํ๋ค.

Paper, Project
BlenderFusion์ ๊ฐ์ฒด, ์นด๋ฉ๋ผ, ๋ฐฐ๊ฒฝ์ ์ฌ๊ตฌ์ฑํ์ฌ ์๋ก์ด ์ฅ๋ฉด์ ํฉ์ฑํ๋ ์์ฑํ ์๊ฐ ํฉ์ฑ ํ๋ ์์ํฌ์ด๋ค. ์๊ฐ์ ์
๋ ฅ์ ํธ์ง ๊ฐ๋ฅํ 3D ์ํฐํฐ๋ก ๋ถํ (๋ ์ด์ด๋ง), Blender์์ 3D ๊ธฐ๋ฐ ์ ์ด๋ก ํธ์ง(ํธ์ง), ๊ทธ๋ฆฌ๊ณ ์์ฑํ ์ปดํฌ์งํฐ๋ฅผ ์ฌ์ฉํ์ฌ ์ผ๊ด๋ ์ฅ๋ฉด์ผ๋ก ์ตํฉ(ํฉ์ฑ)ํ๋ ํ์ดํ๋ผ์ธ์ ๋ฐ๋ฅธ๋ค. ์ด๋ฅผ ํตํด ๋ณต์กํ ๊ตฌ์ฑ ์ฅ๋ฉด ํธ์ง ์์
์์ ๊ธฐ์กด ๋ฐฉ๋ฒ์ ๋ฅ๊ฐํ๋ ์ฑ๋ฅ์ ๋ณด์ฌ์ค๋ค.

Paper, Project
Ovis-U1์ ๋ฉํฐ๋ชจ๋ฌ ์ดํด, ํ
์คํธ-์ด๋ฏธ์ง ์์ฑ, ์ด๋ฏธ์ง ํธ์ง ๊ธฐ๋ฅ์ ํตํฉํ 30์ต ๋งค๊ฐ๋ณ์ ํตํฉ ๋ชจ๋ธ์ด๋ค. ํ์ฐ ๊ธฐ๋ฐ ์๊ฐ ๋์ฝ๋์ ์๋ฐฉํฅ ํ ํฐ ๊ฐ์ ๊ธฐ๋ฅผ ๊ฒฐํฉํ์ฌ GPT-4o์ ๊ฐ์ ์ ๋์ ์ธ ๋ชจ๋ธ๊ณผ ์ ์ฌํ ์ด๋ฏธ์ง ์์ฑ ์์
์ ๊ฐ๋ฅํ๊ฒ ํ๋ค. ํตํฉ ํ์ต ์ ๊ทผ ๋ฐฉ์์ ํตํด ์ดํด ๋ฐ ์์ฑ ์์
๋ชจ๋์์ ํฅ์๋ ์ฑ๋ฅ์ ๋ฌ์ฑํ๋ฉฐ, ์ฌ๋ฌ ๋ฒค์น๋งํฌ์์ ์ต์ ๋ชจ๋ธ์ ๋ฅ๊ฐํ๋ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ฌ์ค๋ค.

Paper, Project
์ด ๋
ผ๋ฌธ์ ์ํ ์ถ๋ก ๋ฅ๋ ฅ์ด ์ผ๋ฐ์ ์ธ LLM ๋ฅ๋ ฅ ํฅ์์ ๊ธฐ์ฌํ๋์ง ์ฐ๊ตฌํ๋ค. ๋๋๊ฒ๋ ๋๋ถ๋ถ์ ์ํ์ ์ฑ๊ณต์ ์ธ ๋ชจ๋ธ๋ค์ด ๋ค๋ฅธ ๋๋ฉ์ธ์ผ๋ก ์ด๋์ ์ ์ดํ์ง ๋ชปํ๋ค๋ ๊ฒ์ ๋ฐ๊ฒฌํ๋ค. ํต์ ๋ ์คํ์ ํตํด ๊ฐํ ํ์ต(RL)์ผ๋ก ํ๋๋ ๋ชจ๋ธ์ ๋๋ฉ์ธ ์ ๋ฐ์ ๊ฑธ์ณ ์ ์ผ๋ฐํ๋๋ ๋ฐ๋ฉด, ์ง๋ ๋ฏธ์ธ ์กฐ์ (SFT)์ผ๋ก ํ๋๋ ๋ชจ๋ธ์ ์ผ๋ฐ์ ์ธ ๋ฅ๋ ฅ์ ์์ด๋ฒ๋ฆฌ๋ ๊ฒฝํฅ์ด ์์์ ๋ฐํ๋ธ๋ค. ์ด๋ ํ์ค ์ฌํ ํ์ต ๋ฐฉ์, ํนํ SFT ์ฆ๋ฅ ๋ฐ์ดํฐ ์์กด์ฑ์ ๋ํ ์ฌ๊ณ ๋ฅผ ์์ฌํ๋ค.

Paper, Project
LangScene-X๋ 2D ์ด๋ฏธ์ง์์ ๊ฐ๋ฐฉํ ์ดํ ์ฅ๋ฉด ์ดํด๋ฅผ ํตํด ์ผ๋ฐํ ๊ฐ๋ฅํ 3D ์ธ์ด ์๋ฒ ๋๋ ์ฅ๋ฉด์ ์ฌ๊ตฌ์ฑํ๋ ์์ฑ ํ๋ ์์ํฌ์ด๋ค. ํฌ์ํ ์์ ์์ 3D ์ผ๊ด๋ ๋ค์ค ๋ชจ๋ฌ ์ ๋ณด๋ฅผ ์์ฑํ๋ฉฐ, ํนํ TriMap ๋น๋์ค ํ์ฐ ๋ชจ๋ธ์ ํตํด ์ธํ, ๊ธฐํํ, ์๋ฏธ๋ก ์ ์์ฑํ๊ณ , ๋๊ท๋ชจ ์ด๋ฏธ์ง ๋ฐ์ดํฐ์
์ผ๋ก ํ๋ จ๋ ์ธ์ด ์์ํ ์์ถ๊ธฐ(LQC)๋ฅผ ์ฌ์ฉํ์ฌ ํจ์จ์ ์ผ๋ก ์ธ์ด ์๋ฒ ๋ฉ์ ์ธ์ฝ๋ฉํ๋ค. ์ด๋ฅผ ํตํด ์ค์ ๋ฐ์ดํฐ์์ ๋ฐ์ด๋ ํ์ง๊ณผ ์ผ๋ฐํ ๊ฐ๋ฅ์ฑ์ ๋ณด์ฌ์ค๋ค.

Paper, Project
Depth Anything at Any Condition (DepthAnything-AC)๋ ๋ค์ํ ํ๊ฒฝ ์กฐ๊ฑด(์กฐ๋ช
๋ณํ, ์
์ฒํ, ์ผ์ ์๊ณก ๋ฑ)์ ์ฒ๋ฆฌํ ์ ์๋ ๋จ์ ๊น์ด ์ถ์ (MDE) ํ์ด๋ฐ์ด์
๋ชจ๋ธ์ด๋ค. ๋ฐ์ดํฐ ๋ถ์กฑ๊ณผ ์์๋ ์ด๋ฏธ์ง์์ ๊ณ ํ์ง ์์ฌ ๋ ์ด๋ธ์ ์์ฑํ๊ธฐ ์ด๋ ค์ด ๋ฌธ์ ๋ฅผ ๊ทน๋ณตํ๊ธฐ ์ํด ์๋์ ์ผ๋ก ์ ์ ์์ ๋ ์ด๋ธ ์๋ ๋ฐ์ดํฐ๋ง์ผ๋ก ํ์ต ๊ฐ๋ฅํ ๋น์ง๋ ์ผ๊ด์ฑ ์ ๊ทํ ๋ฏธ์ธ ์กฐ์ ํจ๋ฌ๋ค์์ ์ ์ํ๋ค. ์คํ ๊ฒฐ๊ณผ, ๋ค์ํ ๋ฒค์น๋งํฌ์์ ๋ฐ์ด๋ ์ ๋ก์ท ์ฑ๋ฅ์ ๋ณด์ฌ์ค๋ค.
