๊ฐํ ํ์ต๊ณผ ์๋ก์ด ํ๋ จ ํจ๋ฌ๋ค์์ ํตํด ์ธ์ด ๋ชจ๋ธ์ ์ถ๋ก ๋ฅ๋ ฅ์ ๊ทน๋ํ
ํ๊ฐ, ๋ฐ์ดํฐ ๋ถ์ผ์น ๋ฑ ๊ทผ๋ณธ์ ํ๊ณ๋ฅผ ํด๊ฒฐํ๋ฉฐ ๋ฉํฐ๋ชจ๋ฌ ํ๊ฒฝ์ผ๋ก ํ์ฅ ๊ฐ์
Paper
์ด ๋
ผ๋ฌธ์ ๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ์ ๊ฐํ ํ์ต์ ์ ์ฉํ๋ ๊ณผ์ ์์ ๋ฐ์ํ๋ ๋ณ๋ ฌํ์ ์ด๋ ค์์ ํด๊ฒฐํ๋ ์๋ก์ด ์ ๊ทผ๋ฒ์ ์ ์ํ๋ค. ๊ธฐ์กด ๋ฐฉ์์ด ๋๊ท๋ชจ ์ปดํจํ
์์์ ์์กดํ๋ ๊ฒ๊ณผ ๋ฌ๋ฆฌ, ์ด ๋
ผ๋ฌธ์ SAPO(Swarm sAmpling Policy Optimization)๋ผ๋ ์์ ํ ๋ถ์ฐ๋๊ณ ๋น๋๊ธฐ์ ์ธ ์๊ณ ๋ฆฌ์ฆ์ ์ ์ํ๋ค. SAPO๋ ๋คํธ์ํฌ์ ๊ฐ ๋
ธ๋๊ฐ ๋
๋ฆฝ์ ์ผ๋ก ๋ชจ๋ธ์ ์ด์ํ๋ฉฐ ํ๋ จ ๊ฒฝํ(๋กค์์)์ ๋ค๋ฅธ ๋
ธ๋์ ๊ณต์ ํจ์ผ๋ก์จ, ํ๋์จ์ด ์ข
๋ฅ๋ ์ง์ฐ ์๊ฐ์ ๊ด๊ณ์์ด ์ ์ฐํ๊ฒ ์๋ํ๋ค. ์ด๋ฌํ ๊ฒฝํ ๊ณต์ ๋ฅผ ํตํด ๋ชจ๋ธ์ '์ํ ๋ชจ๋จผํธ'๋ฅผ ๋น ๋ฅด๊ฒ ํ์ฐ์ํค๋ฉฐ ํ์ต์ ๊ฐ์ํํ๋ฉฐ, ํต์ ๋ ์คํ์์ ๋์ ๋ณด์์ ์ต๋ 94%๊น์ง ํฅ์์ํค๋ ์ฑ๊ณผ๋ฅผ ๋ณด์๋ค.

Paper
์ด ๋
ผ๋ฌธ์ ๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ์ด 'ํ๊ฐ'์ ์ผ์ผํค๋ ๊ทผ๋ณธ์ ์ธ ์ด์ ๋ฅผ ํํค์น๋ค. ์ ์๋ค์ ํ๊ฐ์ด ๋จ์ํ ๋ชจ๋ธ์ ์ค๋ฅ๊ฐ ์๋๋ผ, ๋ถํ์ค์ฑ์ ์ธ์ ํ๋ ๋์ ๊ทธ๋ด๋ฏํ ์ถ์ธก์ ํ๋ ๊ฒ์ ๋ณด์ํ๋ ํ์ฌ์ ํ๋ จ ๋ฐ ํ๊ฐ ์ฒด๊ณ ๋๋ฌธ์ ๋ฐ์ํ๋ค๊ณ ์ฃผ์ฅํ๋ค. ๋ชจ๋ธ์ ๋ฒค์น๋งํฌ์์ ๋์ ์ ์๋ฅผ ์ป๊ธฐ ์ํด ๋ถํ์คํ ์ํฉ์์๋ ์ ๋ต์ฒ๋ผ ๋ณด์ด๋ ๋ต๋ณ์ ์์ฑํ๋๋ก ํ์ต๋๋ฉฐ, ์ด๋ ๋ณธ์ง์ ์ผ๋ก ์ด์ง ๋ถ๋ฅ ์ค๋ฅ์ ํด๋นํ๋ค. ๋ฐ๋ผ์ ํ๊ฐ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด์๋ ์๋ก์ด ํ๊ฐ ๋ฒค์น๋งํฌ๋ฅผ ์ถ๊ฐํ๊ธฐ๋ณด๋ค, ๋ถํ์คํ ๋ต๋ณ์ ํ๋ํฐ๋ฅผ ๋ถ์ฌํ๋ ๊ธฐ์กด ํ๊ฐ ๋ฐฉ์ ์์ฒด๋ฅผ ์์ ํด์ผ ํ๋ค๊ณ ์ ์ํ๋ค.

Paper, Project
์ด ๋
ผ๋ฌธ์ ๊ฐ๋ฐฉํ ์ฐฝ์ ์์
์์ ์ธ์ด ๋ชจ๋ธ์ ์ถ๋ก ๋ฅ๋ ฅ์ ๊ฐํํ๋ REER(REverse-Engineered Reasoning)์ด๋ผ๋ ์๋ก์ด ํจ๋ฌ๋ค์์ ์ ์ํ๋ค. ๊ธฐ์กด์ ๊ฐํ ํ์ต์ด๋ ์ง์ ์ฆ๋ฅ ๋ฐฉ์์ด ์๊ณ ์๋ ๋ช
ํํ ๋ณด์ ์ ํธ ๋ถ์ฌ์ ๋น์ฉ ๋ฌธ์ ๋ฅผ ๊ทน๋ณตํ๊ธฐ ์ํด, REER์ '์ญ๊ณตํ' ์ ๊ทผ๋ฒ์ ์ฌ์ฉํ๋ค. ์ด๋ ์ด๋ฏธ ์ ์๋ ค์ง ์ข์ ๊ฒฐ๊ณผ๋ฌผ๋ก๋ถํฐ ๊ฑฐ๊พธ๋ก ์ถ๋ก ๊ณผ์ ์ ๋ฐ๊ฒฌํ๊ณ ์ด๋ฅผ ํ์ต ๋ฐ์ดํฐ๋ก ํ์ฉํ๋ ๋ฐฉ์์ด๋ค. ์ด๋ฌํ ์ ๊ทผ๋ฒ์ ํตํด DeepWriting-20K๋ผ๋ 2๋ง ๊ฐ์ ์ถ๋ก ๊ถค์ ๋ฐ์ดํฐ์
์ ๊ตฌ์ถํ์ผ๋ฉฐ, ์ด ๋ฐ์ดํฐ๋ฅผ ํ์ตํ DeepWriter-8B ๋ชจ๋ธ์ GPT-4o๋ Claude 3.5์ ๊ฐ์ ์ต์ฒจ๋จ ๋ชจ๋ธ๊ณผ ๋น๊ฒฌ๋๋ ์ฑ๋ฅ์ ๋ฌ์ฑํ๋ค.

Paper, Project
์ด ๋
ผ๋ฌธ์ ๋๊ท๋ชจ ์ถ๋ก ๋ชจ๋ธ(LRM)์ ๋ฐ์ ์ ํ์์ ์ธ ๊ฐํ ํ์ต(RL)์ ์ต์ ๋ํฅ์ ์ด์ฒด์ ์ผ๋ก ์กฐ์ฌํ๋ค. ์ํ์ด๋ ์ฝ๋ฉ๊ณผ ๊ฐ์ ๋ณต์กํ ๋
ผ๋ฆฌ์ ๊ณผ์ ์์ RL์ด LLM์ ๋ฅ๋ ฅ์ ํ์ ์ ์ผ๋ก ํฅ์์์ผฐ์์ ๊ฐ์กฐํ๋ฉฐ, LLM์ LRM์ผ๋ก ๋ณํ์ํค๋ ํต์ฌ ๋ฐฉ๋ฒ๋ก ์ผ๋ก RL์ ์ ์ํ๋ค. ๋
ผ๋ฌธ์ RL์ ๊ธฐ์ด ๊ตฌ์ฑ ์์๋ถํฐ ์ฃผ์ ๋์ ๊ณผ์ , ํ๋ จ ์์, ๊ทธ๋ฆฌ๊ณ ์ค์ ์์ฉ ์ฌ๋ก๋ค์ ์ฌ๋ ์๊ฒ ๋ถ์ํ๋ค. ์ด ๋ถ์ผ์ ๋น ๋ฅธ ๋ฐ์ ์๋ ์์์, ๋
ผ๋ฌธ์ ํฅํ ์ฐ๊ตฌ ๋ฐฉํฅ๊ณผ ์ธ๊ณต ์ด์ง๋ฅ(ASI)์ผ๋ก ๋์๊ฐ๊ธฐ ์ํ ํ์ฅ์ฑ ๋ฌธ์ ๋ฅผ ์ฌ์กฐ๋ช
ํ๋ฉฐ ๋ฏธ๋๋ฅผ ์ํ ์ ๋ต์ ํ์ํ๋ค.

Paper, Project
์ด ๋
ผ๋ฌธ์ ๋ณต์กํ ์ถ๋ก ๋ฌธ์ ํด๊ฒฐ์ ์ํด ์ธ์ด ๋ชจ๋ธ์ ๋ณ๋ ฌ์ ์ฌ๊ณ ๋ฅ๋ ฅ์ ๋ถ์ฌํ๋ ์ต์ด์ ๊ฐํ ํ์ต ํ๋ ์์ํฌ์ธ Parallel-R1์ ์๊ฐํ๋ค. ๊ธฐ์กด์ ์ง๋ ํ์ต ๋ฐฉ์์ด ๊ต์ฌ์ ๋ต๋ณ์ ๋จ์ํ ๋ชจ๋ฐฉํ๋ ๋ฐ ๊ทธ์น๋ ํ๊ณ๋ฅผ ์ง์ ํ๋ฉฐ, Parallel-R1์ ์ ์ง์ ์ปค๋ฆฌํ๋ผ์ ํ์ฉํด ๋ชจ๋ธ์ด ์ฌ๋ฌ ์ถ๋ก ๊ฒฝ๋ก๋ฅผ ๋์์ ํ์ํ๋๋ก ํ๋ จํ๋ค. ๋จผ์ ์ง๋ ํ์ต์ผ๋ก ๋ณ๋ ฌ์ ์ฌ๊ณ ์ ๊ธฐ์ด๋ฅผ ๋ค์ง ํ, ๊ฐํ ํ์ต์ ํตํด ์ด๋ ค์ด ๋ฌธ์ ์ ๋ํ ํ์ ๋ฐ ์ผ๋ฐํ ๋ฅ๋ ฅ์ ํค์ด๋ค. ์ด ๋ฐฉ์์ ์์ฐจ์ ์ฌ๊ณ ๋ชจ๋ธ ๋๋น 8.4%์ ์ ํ๋ ํฅ์์ ๊ฐ์ ธ์์ผ๋ฉฐ, ํนํ ์ค๊ฐ ํ๋ จ ๋จ๊ณ์์ ๋ณ๋ ฌ์ ์ฌ๊ณ ๋ฅผ 'ํ์ ๋๊ตฌ'๋ก ํ์ฉํจ์ผ๋ก์จ ์ต์ข
์ฑ๋ฅ์ 42.9%๊น์ง ๋์ด์ฌ๋ฆฌ๋ ํจ๊ณผ๋ฅผ ๋ณด์๋ค.

Paper, Project
์ด ๋
ผ๋ฌธ์ ํ
์คํธ, ์ด๋ฏธ์ง, ์ค๋์ค ๋ฑ ์ฌ๋ฌ ์
๋ ฅ๊ฐ์ ํ์ฉํด ์ฌ๋ ์ค์ฌ์ ๋น๋์ค๋ฅผ ์์ฑํ๋ HuMo๋ผ๋ ํตํฉ ํ๋ ์์ํฌ๋ฅผ ์ ์ํ๋ค. ๊ธฐ์กด ๋ฐฉ์์ด ํ๋ จ ๋ฐ์ดํฐ ๋ถ์กฑ๊ณผ ์ด์ง์ ์ธ ๋ชจ๋ฌ๋ฆฌํฐ ๊ฐ์ ์กฐ์จ ๋ฌธ์ ๋ก ์ด๋ ค์์ ๊ฒช๋๋ค๋ ์ ์ ์ฃผ๋ชฉํ๋ค. HuMo๋ ๊ณ ํ์ง์ ๋ค์ค ๋ชจ๋ฌ ๋ฐ์ดํฐ์
์ ๊ตฌ์ถํ๊ณ , ๋ ๋จ๊ณ๋ก ์งํ๋๋ ํ๋ จ ํจ๋ฌ๋ค์์ ํตํด ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๋ค. ํนํ ํผ์ฌ์ฒด ๋ณด์กด์ ์ํ '์ต์ ์นจ์ต ์ด๋ฏธ์ง ์ฃผ์
' ์ ๋ต๊ณผ ์ค๋์ค-๋น์ฃผ์ผ ๋๊ธฐํ๋ฅผ ์ํ '์์ธก์ ํตํ ์ง์ค' ์ ๋ต์ ๋์
ํ์ฌ ๋ค์ค ๋ชจ๋ฌ ์
๋ ฅ ๊ฐ์ ์ ๊ธฐ์ ์ธ ์กฐํ๋ฅผ ๊ฐ๋ฅํ๊ฒ ํ๋ค. ๊ทธ ๊ฒฐ๊ณผ, HuMo๋ ๊ธฐ์กด์ ์ ๋ฌธํ๋ ๋ชจ๋ธ์ ๋ฅ๊ฐํ๋ฉฐ ๋ค์ค ๋ชจ๋ฌ ์กฐ๊ฑด๋ถ ๋น๋์ค ์์ฑ์ ์๋ก์ด ๊ธฐ์ค์ ์ ์ํ๋ค.

Paper, Project
์ด ๋
ผ๋ฌธ์ ๋ณต์กํ ์น ํ์ ์์
์ ์ํํ๋ ์ฅ๊ธฐ์ ์น ์์ด์ ํธ WebExplorer๋ฅผ ๊ฐ๋ฐํ๋ค. ๊ธฐ์กด์ ์คํ์์ค ์น ์์ด์ ํธ๋ค์ด ๋์ ์ ์ธ ๋ฐ์ดํฐ ๋ถ์กฑ์ผ๋ก ์ธํด ๋ณต์กํ ์ ๋ณด ํ์ ๋ฅ๋ ฅ์ ํ๊ณ๊ฐ ์๋ค๋ ์ ์ ํด๊ฒฐํ๊ธฐ ์ํด, ๋
ผ๋ฌธ์ ์๋ก์ด ๋ฐ์ดํฐ ์์ฑ ์ ๊ทผ๋ฒ์ ์ ์ํ๋ค. WebExplorer๋ '๋ชจ๋ธ ๊ธฐ๋ฐ ํ์'๊ณผ '์ฅ๊ธฐ-๋จ๊ธฐ ์ง์ ์งํ' ๋ฐฉ์์ ํตํด ๋ค๋จ๊ณ ์ถ๋ก ๊ณผ ๋ณต์กํ ์น ํ์์ด ํ์ํ ๊ณ ํ์ง์ ์ฟผ๋ฆฌ-์๋ต ์์ ์ฒด๊ณ์ ์ผ๋ก ์์ฑํ๋ค. ์ด ๋ฐ์ดํฐ๋ก ํ๋ จ๋ WebExplorer-8B ๋ชจ๋ธ์ 128K์ ์ปจํ
์คํธ ๊ธธ์ด๋ฅผ ์ง์ํ๋ฉฐ, ๋๊ธ ๋ชจ๋ธ ์ค ๊ฐ์ฅ ๋ฐ์ด๋ ์ฑ๋ฅ์ ๋ณด์๋ค. ํนํ 8B ๊ท๋ชจ์์๋ ๋ถ๊ตฌํ๊ณ 72B ๊ท๋ชจ ๋ชจ๋ธ์ ๋ฅ๊ฐํ๋ ๋ฑ ๋์ ํจ์จ์ฑ๊ณผ ๊ฐ๋ ฅํ ์ฑ๋ฅ์ ์
์ฆํ๋ค.

Paper, Project
์ด ๋
ผ๋ฌธ์ ๋ฉํฐ๋ชจ๋ฌ ๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ(MLLM)์ด ์๊ฐ ๊ด๋ จ ์์
์์ ์ฑ๋ฅ์ด ๋จ์ด์ง๋ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด VIRAL(VIsual Representation ALignment)์ด๋ผ๋ ๊ฐ๋จํ์ง๋ง ํจ๊ณผ์ ์ธ ์ ๊ทํ ์ ๋ต์ ์ ์ํ๋ค. ๊ธฐ์กด์ ํ
์คํธ ์ค์ฌ ํ๋ จ ๋ฐฉ์์ด ๋ฏธ์ธํ ์๊ฐ์ ์ ๋ณด๋ฅผ ๋ฌด์ํ๊ฒ ๋ง๋๋ ๊ฒฝํฅ์ด ์๋ค๋ ์ ์ ์ฃผ๋ชฉํ๋ฉฐ, VIRAL์ MLLM์ ๋ด๋ถ ์๊ฐ ํํ์ ์ฌ์ ํ๋ จ๋ ์๊ฐ ํ์ด๋ฐ์ด์
๋ชจ๋ธ(VFM)์ ํํ๊ณผ ์ผ์น์ํค๋๋ก ๋ช
์์ ์ผ๋ก ๊ฐ์ ํ๋ค. ์ด๋ฅผ ํตํด ๋ชจ๋ธ์ ์
๋ ฅ ์๊ฐ ์ ๋ณด์ ์ค์ํ ์ธ๋ถ ์ฌํญ์ ๋ณด์กดํ ๋ฟ๋ง ์๋๋ผ, VFM์ ์ถ๊ฐ์ ์ธ ์๊ฐ ์ง์๊น์ง ๋ณด์ํ๊ฒ ๋๋ค. ๊ฒฐ๊ณผ์ ์ผ๋ก VIRAL์ ๊ด๋ฒ์ํ ๋ฉํฐ๋ชจ๋ฌ ๋ฒค์น๋งํฌ์์ ๋ชจ๋ ์์
์ ๊ฑธ์ณ ์ผ๊ด๋ ์ฑ๋ฅ ํฅ์์ ๊ฐ์ ธ์๋ค.

Paper, Project
์ด ๋
ผ๋ฌธ์ ์์ฑ-๋-์์ฑ ๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ(SLLM)์ ์ง์ ๋ฐ ์ถ๋ก ๋ฅ๋ ฅ ์ ํ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๋ EchoX๋ฅผ ์ ์ํ๋ค. ๊ธฐ์กด SLLM ํ๋ จ ํจ๋ฌ๋ค์์ด ์ํฅ ์ ๋ณด์ ์๋ฏธ๋ก ์ ์ ๋ณด ์ฌ์ด์ ๊ฐ๊ทน์ ์ขํ์ง ๋ชปํด ๋ฐ์ํ๋ ํ๊ณ๋ฅผ ๊ทน๋ณตํ๊ณ ์ ํ๋ค. EchoX๋ ์๋ฏธ๋ก ์ ํํ์ ํ์ฉํ๊ณ ์์ฑ ํ๋ จ ๋ชฉํ๋ฅผ ๋์ ์ผ๋ก ์์ฑํจ์ผ๋ก์จ ์ํฅ ๋ฐ ์๋ฏธ๋ก ์ ํ์ต์ ํตํฉํ๋ ๋
ํนํ ๋ฐฉ์์ ์ฌ์ฉํ๋ค. ์ด ์ ๊ทผ๋ฒ ๋๋ถ์ EchoX๋ ๊ฐ๋ ฅํ ์ถ๋ก ๋ฅ๋ ฅ์ ์ ์งํ๋ ๋์์, ์ฝ 6์ฒ ์๊ฐ์ ํ๋ จ ๋ฐ์ดํฐ๋ง์ผ๋ก๋ ์ฌ๋ฌ ์ง์ ๊ธฐ๋ฐ ์ง์์๋ต ๋ฒค์น๋งํฌ์์ ๋ฐ์ด๋ ์ฑ๋ฅ์ ๋ฌ์ฑํ๋ค.

Paper, Project
์ด ๋
ผ๋ฌธ์ ์๊ฐ์ ํ์ ์์
์์ ๋ชจ๋ธ์ ๊น์ ๋ค๋จ๊ณ ์ถ๋ก ๋ฅ๋ ฅ์ ํ์ฅํ๋ Mini-o3 ์์คํ
์ ์๊ฐํ๋ค. ๊ธฐ์กด ์คํ์์ค ๋ฐฉ๋ฒ๋ก ์ด ๋จ์กฐ๋ก์ด ์ถ๋ก ํจํด๊ณผ ์ ํ๋ ์ํธ์์ฉ ํ์๋ก ์ธํด ์ด๋ ค์ด ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๋ ๋ฐ ๋ถ์ ํฉํ๋ค๋ ์ ์ ์ง์ ํ๋ค. Mini-o3๋ 'Visual Probe Dataset'์ด๋ผ๋ ๋์ ์ ์ธ ์๊ฐ ํ์ ๋ฐ์ดํฐ์
์ ๊ตฌ์ถํ๊ณ , ๋ค์ํ ์ถ๋ก ํจํด์ ๋ด์ ๊ถค์ ์ ์์งํ๋ค. ํนํ '์ค๋ฒ ํด ๋ง์คํน' ์ ๋ต์ ๋์
ํ์ฌ ์ต๋ ์ํธ์์ฉ ํ์๋ฅผ ์ด๊ณผํ๋ ์๋ต์ ๋ํ ๋ถ์ด์ต์ ์์ ํ๋ จ ํจ์จ์ฑ์ ๋์ธ๋ค. ์ด ๊ฒฐ๊ณผ, 6ํ ์ํธ์์ฉ์ผ๋ก ํ๋ จ๋ ๋ชจ๋ธ์์๋ ๋ถ๊ตฌํ๊ณ ์ถ๋ก ์ ์์ญ ๋จ๊ณ๋ก ์์ฐ์ค๋ฝ๊ฒ ํ์ฅ๋๋ฉฐ, ์ ํ๋๊ฐ ๊ฐ์ ๋๋ ๊ฒ์ ๋ณด์ฌ์ฃผ์๋ค.
