2D-3D ๊ณต๊ฐ ํ์ต, ์ฌ๊ท์ ์ฝ๋(ReCode), ์ ์ฌ ๊ณต๊ฐ ์ถ๋ก ์ผ๋ก ์งํํ๋ ์ฐจ์ธ๋ AI ์์ด์ ํธ
๋ชจํธํ ์ฟผ๋ฆฌ ์ํธ์์ฉ, ๋ฅ๋ํ ๋ก๋ด ์ ์ด, ๋ฌดํ 3D ์ธ๊ณ ์์ฑ ๋ฐ ๋ฐ์ดํฐ ์์ด์ ํธ ์์จ์ฑ ํ๊ตฌ
Paper, Project
์ธ๊ฐ์ด ์ฌ๋ฌ ๊ฐ๊ฐ์ ํตํด ๊ณต๊ฐ ๊ฐ๋
์ ํ์ตํ๋ ๋ฐฉ์์ ์ฐฉ์ํ์ฌ, 2D ์ด๋ฏธ์ง์ 3D ํฌ์ธํธ ํด๋ผ์ฐ๋ ๋ฐ์ดํฐ๋ฅผ ํจ๊ป ํ์ฉํ๋ ์๋ก์ด ์๊ธฐ ์ง๋ ํ์ต(self-supervised learning) ๋ฐฉ๋ฒ๋ก 'Concerto'๋ฅผ ์ ์ํ๋ค. ์ด ๋ชจ๋ธ์ 3D ๋ฐ์ดํฐ ์์ฒด ๋ด์์ ํ์ตํ๊ณ , 2D์ 3D ๋ฐ์ดํฐ ๊ฐ์ ๊ด๊ณ๋ฅผ ํ์ตํ๋ ๊ฒ์ ๊ฒฐํฉํ๋ค. ๊ทธ ๊ฒฐ๊ณผ, 3D ์ฌ(scene) ์ธ์ ์์
์์ ๊ธฐ์กด 2D ๋๋ 3D ๋จ๋
๋ชจ๋ธ๋ณด๋ค ์ฐ์ํ ์ฑ๋ฅ์ ๋ณด์ด๋ฉฐ ScanNet๊ณผ ๊ฐ์ ์ฃผ์ ๋ฒค์น๋งํฌ์์ SOTA(์ต๊ณ ์ฑ๋ฅ)๋ฅผ ๋ฌ์ฑํ๋ค. ๋ํ ๋น๋์ค๋ ์ธ์ด(CLIP)์ ์ฐ๊ณํ์ฌ ๊ฐ๋ฐฉํ ์ธ๊ณ ์ธ์์ผ๋ก๋ ํ์ฅ๋ ์ ์๋ค.

Paper, Project
๊ธฐ์กด LLM ์์ด์ ํธ๊ฐ ๊ณ ์์ค '๊ณํ'๊ณผ ์ ์์ค 'ํ๋'์ ๋ถ๋ฆฌํ์ฌ ์ฒ๋ฆฌํ๊ธฐ ๋๋ฌธ์ ์ํฉ์ ๋ฐ๋ฅธ ์ ์ฐํ ๋์ฒ๊ฐ ์ด๋ ต๋ค๋ ๋ฌธ์ ๋ฅผ ์ง์ ํ๋ค. ์ด ๋
ผ๋ฌธ์ 'ReCode'๋ผ๋ ์๋ก์ด ํจ๋ฌ๋ค์์ ์ ์ํ์ฌ, ๊ณํ๊ณผ ํ๋์ '์ฌ๊ท์ ์ฝ๋ ์์ฑ'์ด๋ผ๋ ๋จ์ผํ ํํ์ผ๋ก ํตํฉํ๋ค. ๋์ ์์ค์ ๊ณํ์ ์ถ์์ ์ธ ํจ์๋ก ๊ฐ์ฃผํ๊ณ , ์ด๋ฅผ ์คํ ๊ฐ๋ฅํ ์์ ํ๋์ ๋๋ฌํ ๋๊น์ง ์ฌ๊ท์ ์ผ๋ก ๋ถํดํ๋ค. ์ด ๋ฐฉ์์ ํตํด ์์ด์ ํธ๊ฐ ๋์ ์ผ๋ก ์์ฌ๊ฒฐ์ ์ ์ธ๋ถ์ฑ(granularity)์ ์กฐ์ ํ ์ ์๊ฒ ๋๋ฉฐ, ํ์ต ๋ฐ์ดํฐ ํจ์จ์ฑ๊ณผ ์ถ๋ก ์ฑ๋ฅ ๋ชจ๋์์ ๋ฐ์ด๋ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์๋ค.

Paper, Project
๋๋ถ๋ถ์ ๊ฒ์ ์์ด์ ํธ๊ฐ ์ฌ์ฉ์์ ์ฟผ๋ฆฌ๊ฐ ๋ช
ํํ๋ค๊ณ ๊ฐ์ ํ์ง๋ง, ์ค์ ์ฟผ๋ฆฌ๋ '๋ชจํธํ' ๊ฒฝ์ฐ๊ฐ ๋ง์ ์ํธ์์ฉ์ ํตํ ๋ช
ํํ๊ฐ ํ์ํ๋ค. ์ด ๋
ผ๋ฌธ์ ์์ด์ ํธ๊ฐ ์ฟผ๋ฆฌ์ ๋ชจํธ์ฑ์ ์ธ์งํ๊ณ ์ด๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด '์ ๊ทน์ ์ผ๋ก ์ํธ์์ฉ'ํ๋์ง ํ๊ฐํ๋ ์๋ก์ด ๋ฒค์น๋งํฌ 'InteractComp'๋ฅผ ์ ์ํ๋ค. 17๊ฐ ๋ชจ๋ธ์ ํ๊ฐํ ๊ฒฐ๊ณผ, ๋ชจ๋ธ๋ค์ด ๋ชจํธํ ์ํฉ์์ ์ง๋ฌธํ์ง ์๊ณ '๊ณผ์ 'ํ์ฌ ์๋ชป๋ ๋ต์ ๋ด๋๋ ๊ฒฝํฅ์ ๋ณด์๋ค. ์ง๋ 15๊ฐ์๊ฐ ๊ฒ์ ์ฑ๋ฅ์ 7๋ฐฐ ํฅ์๋์ง๋ง ์ํธ์์ฉ ๋ฅ๋ ฅ์ ์ ์ฒด๋์ด ์์์์ ๋ฐํ๋ฉฐ, ์ด ๋ฒค์น๋งํฌ๊ฐ ์์ด์ ํธ์ ์ํธ์์ฉ ๋ฅ๋ ฅ ํ๊ฐ์ ํ๋ จ์ ์ค์ํ๋ค๊ณ ๊ฐ์กฐํ๋ค.

Paper, Project
์ฝ๋ ์ธํ
๋ฆฌ์ ์ค๊ฐ ํ
์คํธ ์ฝ๋๋ฅผ ๋์ด ํ๋ก๊ทธ๋จ์ด ์์ฑํ๋ '์๊ฐ์ ๊ฒฐ๊ณผ๋ฌผ'(์ฐจํธ, UI ๋ฑ)๊น์ง ์ดํดํด์ผ ํ ํ์์ฑ์ ์ฃผ๋ชฉํ๋ค. ์ด ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด, (1) ๊ณ ํ์ง ๋ฉํฐ๋ชจ๋ฌ ์ฝ๋ ๋ฐ์ดํฐ๋ฅผ ํจ์จ์ ์ผ๋ก ์์ฑํ๋ ํดํท์ ๊ฐ๋ฐํ๊ณ , ์ด๋ฅผ ํตํด ๋๊ท๋ชจ ์ฝํผ์ค 'JanusCode-800K'๋ฅผ ๊ตฌ์ถํ๋ค. (2) ์ด ๋ฐ์ดํฐ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํ
์คํธ, ์๊ฐ์ ์
๋ ฅ, ๋๋ ๋์ ์กฐํฉ์ผ๋ก๋ถํฐ ์ฝ๋๋ฅผ ์์ฑํ๋ 'JanusCoder' ๋ชจ๋ธ์ ํ๋ จ์์ผฐ๋ค. ์ด ๋ชจ๋ธ์ ํ
์คํธ ์ค์ฌ ๋ฐ ๋น์ ์ค์ฌ ์ฝ๋ฉ ์์
๋ชจ๋์์ ๋ฐ์ด๋ ์ฑ๋ฅ์ ๋ณด์ด๋ฉฐ, ์ผ๋ถ๋ ์์ฉ ๋ชจ๋ธ์ ์ฑ๋ฅ์ ๋ฅ๊ฐํ๋ค.

Paper, Project
๋ณต์กํ ์ค์ ์์
์ ์ํด ์ธ๋ถ ๋๊ตฌ๋ฅผ ์ฌ์ฉํ๊ณ ์ฅ๊ธฐ์ ์ธ ์ํธ์์ฉ์ ์ํํ๋ ์์ด์ ํธ 'DeepAgent'๋ฅผ ์ ์ํ๋ค. ๊ธฐ์กด ์์ด์ ํธ๊ฐ ๊ธด ์ํธ์์ฉ ์ด๋ ฅ์ผ๋ก ์ธํด ์ปจํ
์คํธ ๊ธธ์ด ํญ๋ฐ๊ณผ ์ค๋ฅ ๋์ ์ ๊ฒช๋ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด, '์์จ์ ๋ฉ๋ชจ๋ฆฌ ํด๋ฉ' ๋ฉ์ปค๋์ฆ์ ๋์
ํ๋ค. ์ด๋ ๊ณผ๊ฑฐ ์ด๋ ฅ์ ๊ตฌ์กฐํ๋ ๋ฉ๋ชจ๋ฆฌ๋ก ์์ถํ์ฌ ์ค์ํ ์ ๋ณด๋ ๋ณด์กดํ๊ณ ์ค๋ฅ๋ฅผ ์ค์ธ๋ค. ๋ํ 'ToolPO'๋ผ๋ ๊ฐํํ์ต ์ ๋ต์ ํตํด ํจ์จ์ ์ธ ๋๊ตฌ ์ฌ์ฉ๋ฒ์ ํ์ตํ๋ค. DeepAgent๋ 8๊ฐ์ ๋ฒค์น๋งํฌ์์ ๊ธฐ์กด ๋ชจ๋ธ๋ณด๋ค ๋ฐ์ด๋ ์ฑ๋ฅ์ ๋ณด์๋ค.

Paper, Project
MLLM์ด "์ด๋ฏธ์ง๋ฅผ ๋ณด๋ฉฐ ์๊ฐ"ํ๋ ๋ฅ๋ ฅ์ ๋์ด "๋น๋์ค๋ฅผ ๋ณด๋ฉฐ ์๊ฐ"ํ ์ ์๋๋ก ํ๋ ๋ฐฉ๋ฒ๋ก 'Video-Thinker'๋ฅผ ์ ์ํ๋ค. ์ด ๋ชจ๋ธ์ ์ถ๋ก ๊ณผ์ ์์ ์ธ๋ถ ๋๊ตฌ ์์ด MLLM ์์ฒด๊ฐ ๊ฐ์ง "๊ทธ๋ผ์ด๋ฉ"๊ณผ "์บก์
๋" ๋ฅ๋ ฅ์ ์์จ์ ์ผ๋ก ํ์ฉํด ์ถ๋ก ๋จ์๋ฅผ ์์ฑํ๋ค. ์ด๋ฅผ ์ํด, (1) ์์จ์ ๋๊ตฌ ์ฌ์ฉ๋ฒ์ด ํฌํจ๋ ์ถ๋ก ๋ฐ์ดํฐ์
(Video-Thinker-10K)์ ๊ตฌ์ถํ๊ณ , (2) ์ง๋ ํ์ต(SFT)๊ณผ ๊ฐํํ์ต(GRPO)์ ๊ฒฐํฉํ ํ๋ จ ์ ๋ต์ ์ฌ์ฉํ๋ค. ๊ทธ ๊ฒฐ๊ณผ, ์ฌ๋ฌ ๋น๋์ค ์ถ๋ก ๋ฒค์น๋งํฌ์์ SOTA(์ต๊ณ ์ฑ๋ฅ)๋ฅผ ๋ฌ์ฑํ๋ค.

Paper, Project
๊ธฐ์กด LLM์ด CoT(Chain-of-Thought)์ฒ๋ผ ํ
์คํธ๋ฅผ ๋ช
์์ ์ผ๋ก '์์ฑ'ํ๋ฉฐ ์ถ๋ก ํ๋ ๋ฐฉ์์ ํ๊ณ๋ฅผ ์ง์ ํ๋ค. ์ด ๋
ผ๋ฌธ์ ์ถ๋ก ๊ณผ์ ์ ์ฌ์ ํ์ต ๋จ๊ณ์ ๋ด์ฅํ๋ 'Looped Language Models (LoopLM)' ํจ๋ฌ๋ค์๊ณผ 'Ouro' ๋ชจ๋ธ์ ์ ์ํ๋ค. Ouro๋ ํ
์คํธ๊ฐ ์๋ '์ ์ฌ ๊ณต๊ฐ(latent space)'์์ ๋ฐ๋ณต์ ์ธ ๊ณ์ฐ์ ์ํํ๋ฉฐ ์ถ๋ก ํ๋ค. ๊ทธ ๊ฒฐ๊ณผ, 1.4B, 2.6B์ ๋น๊ต์ ์์ Ouro ๋ชจ๋ธ์ด 12B ํฌ๊ธฐ์ SOTA LLM๊ณผ ๋๋ฑํ๊ฑฐ๋ ์ฐ์ํ ์ฑ๋ฅ์ ๋ณด์๋ค. ์ด๋ ์ง์ ์ฉ๋์ด ์ปค์๊ฐ ์๋๋ผ, '์ง์์ ์กฐ์ํ๊ณ ํ์ฉํ๋ ๋ฅ๋ ฅ'์ด ๋ฐ์ด๋๊ธฐ ๋๋ฌธ์์ ๋ฐํ๋ค.

Paper, Project
'๋ฐ์ดํฐ ์์ด์ ํธ'๋ผ๋ ์ฉ์ด๊ฐ ํ์ฌ ๋ช
ํํ ์ ์ ์์ด ํผ์ฉ๋์ด ์ฌ์ฉ์์ ๊ธฐ๋์ ์ค์ ์ฑ๋ฅ ๊ฐ์ ๋ถ์ผ์น ๋ฑ์ ์ผ์ผํค๊ณ ์์์ ์ง์ ํ๋ ์๋ฒ ์ด ๋
ผ๋ฌธ์ด๋ค. ์ด ๋
ผ๋ฌธ์ ์์จ ์ฃผํ์ SAE ๋ ๋ฒจ(L0~L5) ๋ถ๋ฅ์ฒ๋ผ, ๋ฐ์ดํฐ ์์ด์ ํธ์ '์์จ์ฑ ์์ค'์ 6๋จ๊ณ๋ก ์ ์ํ๋ ๊ณ์ธต์ ๋ถ๋ฅ ์ฒด๊ณ๋ฅผ ์ต์ด๋ก ์ ์ํ๋ค. ์ด ๋ถ๋ฅ ์ฒด๊ณ๋ฅผ ๊ธฐ์ค์ผ๋ก ๊ธฐ์กด ์ฐ๊ตฌ๋ค์ ์ฒด๊ณ์ ์ผ๋ก ๊ฒํ ํ๊ณ , ํนํ ํ์ฌ L2์์ L3๋ก ๋์ด๊ฐ๋ ๋จ๊ณ์ ๊ธฐ์ ์ ๊ณผ์ ๋ฅผ ๋ถ์ํ๋ฉฐ, ํฅํ ์์ ์์จ ์์ด์ ํธ(L5)๋ก ๋์๊ฐ๊ธฐ ์ํ ๋ก๋๋งต์ ์ ์ํ๋ค.

Paper, Project
๊ธฐ์กด ๋ก๋ด์ด ๋ช
์์ ์ง์์ ์์กดํ๋ ํ๊ณ๋ฅผ ๋์ด, ์ค์ ํ๊ฒฝ์ฒ๋ผ ์ฌ์ฉ์์ ๋ง, ์ฃผ๋ณ ์๋ฆฌ, ์๊ฐ์ ๋จ์ ๋ฑ '๋ชจ๋ (omni-modal) ๋งฅ๋ฝ'์ ํ์
ํด ์๋๋ฅผ ๋ฅ๋์ ์ผ๋ก ์ถ๋ก ํ๊ณ ํ๋ํ๋ ๋ก๋ด 'RoboOmni'๋ฅผ ์ ์ํ๋ค. ์ด๋ฅผ ์ํด (1) ๋ํ, ์๋ฆฌ, ์๊ฐ ์ ๋ณด๋ฅผ ํตํฉํ๋ ์ด๋ ๋ชจ๋ฌ LLM ๊ธฐ๋ฐ์ ํ๋ ์์ํฌ๋ฅผ ๊ฐ๋ฐํ๊ณ , (2) ์ด๋ฌํ ๋ฅ๋์ ์๋ ์ธ์์ ํ๋ จ์ํค๊ธฐ ์ํ ๋๊ท๋ชจ 'OmniAction' ๋ฐ์ดํฐ์
์ ๊ตฌ์ถํ๋ค. ์คํ ๊ฒฐ๊ณผ, RoboOmni๋ ํ
์คํธ๋ ์์ฑ ์ธ์(ASR) ๊ธฐ๋ฐ ๋ชจ๋ธ๋ณด๋ค ์์
์ฑ๊ณต๋ฅ ๊ณผ ๋ฅ๋์ ์ง์ ๋ฅ๋ ฅ์์ ๋ฐ์ด๋ ์ฑ๋ฅ์ ๋ณด์๋ค.

Paper, Project
๊ธฐํํ์ /์๊ฐ์ ์ผ๋ก ์ผ๊ด์ฑ์ ์ ์งํ๋ฉฐ '๋ฌดํํ ํ์ฅ ๊ฐ๋ฅํ 3D ์ธ๊ณ'๋ฅผ ์์ฑํ๋ ๋ฌธ์ ๋ฅผ ๋ค๋ฃฌ๋ค. ๊ธฐ์กด 3D ๋ชจ๋ธ์ด ๊ฐ์ฒด ์ค์ฌ์ด๊ฑฐ๋ ์ค์ผ์ผ์
์ด ์ด๋ ค์ด ํ๊ณ๋ฅผ ๊ทน๋ณตํ๊ธฐ ์ํด, 'WorldGrow'๋ ๊ณ์ธต์ ํ๋ ์์ํฌ๋ฅผ ์ ์ํ๋ค. ํต์ฌ ์์ด๋์ด๋ (1) ์ฌ์ ํ๋ จ๋ 3D ๋ชจ๋ธ์ ํ์ฉํด ๊ตฌ์กฐํ๋ '์ฌ ๋ธ๋ก'์ ์์ฑํ๊ณ , (2) '3D ๋ธ๋ก ์ธํ์ธํ
' ๊ธฐ์ ๋ก ๋งฅ๋ฝ์ ๋ง๊ฒ ์ฌ์ ํ์ฅํ๋ฉฐ, (3) 'Coarse-to-fine' ์ ๋ต์ผ๋ก ์ ์ฒด ๊ตฌ์กฐ์ ์ธ๋ถ ๋ํ
์ผ์ ๋ชจ๋ ์ก๋ ๊ฒ์ด๋ค. ๊ทธ ๊ฒฐ๊ณผ, ์ฌ์ค์ ์ด๊ณ ๊ตฌ์กฐ์ ์ผ๋ก ์ผ๊ด๋ ๋ฌดํ 3D ์ฌ ์์ฑ์ SOTA(์ต๊ณ ์ฑ๋ฅ) ์์ค์ผ๋ก ๋ฌ์ฑํ๋ค.
