AI ๋ชจ๋ธ, ๋ฐ์ดํฐยท์ฐ์ฐ ์ต์ ํ๋ก ํจ์จ ๊ทน๋ํ ๋ฐ ๋ ผ๋ฆฌยท๋งฅ๋ฝ ๊ธฐ๋ฐ ์ถ๋ก ๋ฅ๋ ฅ ์ฌํ
์ง๋ฅํ ์์ฉ, ๊ณผํยท๊ณตํ ์๋ํ ์์ด์ ํธยท์ฐฝ์์ ์ฝํ ์ธ ์์ฑยท๋ฐ์ดํฐ ์ค์ฌ ์์คํ ๊ตฌ์ถ
๋๊ท๋ชจ ์ธ์ด/๋ฉํฐ๋ชจ๋ฌ ๋ชจ๋ธ ์ต์ ํ ๋ฐ ํจ์จํ ๋ถ์ผ์์๋, ๋ชจ๋ธ ์ค์ฌ์์ ๋ฒ์ด๋ ์ ๋ ฅ ๋ฐ์ดํฐ ์์ฒด๋ฅผ ์์ถํ๋ 'Data-Centric Compression' ์ผ๋ก AI ํจ์จ์ฑ์ ํจ๋ฌ๋ค์์ ์ ํํ๊ณ ์์ผ๋ฉฐ, ๋ํ ๋ชจ๋ธ์ ์ ๊ตํ ๋ฅ๋ ฅ์ ์ํ ๋ชจ๋ธ๋ก ํจ๊ณผ์ ์ผ๋ก ์ด์ ํ๋ 'Distilling LLM Agent' ๊ธฐ์ ์ด ๋ฐ์ ํ๊ณ ์๋ค. ๋ํ, ๊ทนํ ๋ฎ์ ์ ๋ฐ๋ ์ฐ์ฐ์ ํ์ฉํ๋ 'Native FP4 Training' ์ ํตํด LLM์ ํ์ต ํจ์จ์ ๊ทน๋ํํ๋ ํํธ, ํ์์ ๋ฐ๋ผ ์ง๋ฅ์ ์ผ๋ก ์ฐ์ฐ ๊ฒฝ๋ก๋ฅผ ์กฐ์ ํ์ฌ ์ถ๋ก ๋น์ฉ์ ์ ๊ฐํ๋ 'Token Routing' ๊ณผ ๊ฐ์ ํ์ ์ ์ธ ์ ๊ทผ๋ฒ๋ค์ด ์ฐ๊ตฌ๋๊ณ ์๋ค.
AI์ ์ถ๋ก ๋ฅ๋ ฅ ์ฌ์ธต ๋ถ์ ๋ฐ ๊ฐํ ๋ถ์ผ์์๋, ๊ฐํํ์ต ๊ณผ์ ์์ ๋ฐ์ํ๋ 'Entropy Mechanism' ์ ๊ท๋ช ํ์ฌ ์ธ์ด ๋ชจ๋ธ์ ๊พธ์คํ ํ์๊ณผ ์ฑ๋ฅ ํฅ์์ ์ง์ํ๊ณ , ๋ฉํฐ๋ชจ๋ฌ ๋ชจ๋ธ์ 'Logical Reasoning' ๋ฅ๋ ฅ์ ์ข ํฉ์ ์ผ๋ก ํ๊ฐํ๊ธฐ ์ํ MME-Reasoning๊ณผ ๊ฐ์ ์๋ก์ด ๋ฒค์น๋งํฌ๊ฐ ์ ์๋๊ณ ์๋ค. ๋ ๋์๊ฐ, ๊ฐํํ์ต์ ํตํด ๊ธด ๋ฌธ๋งฅ ์ ๋ณด๋ฅผ ํจ๊ณผ์ ์ผ๋ก ์ฒ๋ฆฌํ๋ 'Long-Context Reasoning' ๋ชจ๋ธ(์: QwenLong-L1)์ ๊ฐ๋ฐํ๋ฉฐ, ๋ชจ๋ธ์ด ๋ช ์์ ์ง์๋ฅผ ๋ฌด์ํ๊ณ ๊ธฐ์กด์ ์ต์ํ ํจํด์ผ๋ก ํ๊ทํ๋ ค๋ 'Instruction Overriding' ํ์์ ์ง๋จํ๊ณ ํด๊ฒฐ์ฑ ์ ๋ชจ์ํ๋ ๋ฑ ์ถ๋ก ๊ณผ์ ์ ๊น์ด ์๋ ์ดํด๋ฅผ ์ถ๊ตฌํ๊ณ ์๋ค.
AI ์์ด์ ํธ, ์์ฉ ์์คํ ๋ฐ ๋ฐ์ดํฐ ๊ธฐ๋ฐ ํ์ ๋ถ์ผ์์๋, ํน์ ๋ชฉํ์ ๋ง์ถฐ ์๋ฏธ๋ก ์ ํํ์ ํ์ตํ๋ 'Tabular Model' (์: TabSTAR)๊ณผ ๊ฐ์ด ํน์ ๋ฐ์ดํฐ ์ ํ์ ์ต์ ํ๋ ํ์ด๋ฐ์ด์ ๋ชจ๋ธ์ด ๊ฐ๋ฐ๋๊ณ ์์ผ๋ฉฐ, ์ค์ ๊ณผํ ์ฐ๊ตฌ ํ๊ฒฝ์์ ๋ฉํฐ๋ชจ๋ฌ 'Autonomous Agents' ์ ๋ณต์กํ ๋ฌธ์ ํด๊ฒฐ ๋ฅ๋ ฅ์ ํ๊ฐํ๋ ScienceBoard์ ๊ฐ์ ํ๋ซํผ์ด ๊ตฌ์ถ๋๊ณ ์๋ค. ๋ํ, ๊ณผํ ๋ ผ๋ฌธ์ผ๋ก๋ถํฐ ์๋์ผ๋ก ํ์ ํฌ์คํฐ๋ฅผ ์์ฑํ๋ 'Poster Automation' ๊ธฐ์ (์: Paper2Poster), ์ค์ GitHub ๋ฐ์ดํฐ ๊ธฐ๋ฐ์ผ๋ก 'Software Engineering Agents' ์ ์์ ์ ์๋ํํ๊ณ ํ๊ฐํ๋ SWE-rebench, ๊ทธ๋ฆฌ๊ณ ๊ณต๊ฐ ํ ์คํธ-์ด๋ฏธ์ง ๋ฐ์ดํฐ๋ฅผ ๊ณ ํ์ง ํ์ต ๋ฐ์ดํฐ์ธ 'Generative Gold' ๋ก ๋ณํํ๋ Alchemist์ ๊ฐ์ ๋ฐ์ดํฐ ์ค์ฌ์ ํ์ ์ด ๋๋๋ฌ์ง๋ค. ์ด๋ฏธ์ง ์คํ์ผํ ๋ถ์ผ์์๋ ๋ค์ํ ์คํ์ผ์ ๊ฑธ์ณ ์๊ฐ์ ์ผ๊ด์ฑ์ ์ ์งํ๋ 'OmniConsistency' ๊ธฐ์ ๋ฑ์ ํตํด ์์ฉ ๋ฒ์๋ฅผ ๋ํ๊ณ ์๋ค.
๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ(LLM) ๋ฐ ๋ฉํฐ๋ชจ๋ฌ LLM(MLLM)์ ๊ทธ๋์ ๋ชจ๋ธ์ ํ๋ผ๋ฏธํฐ ์๋ฅผ ๋๋ ค ์ฑ๋ฅ์ ๋์ฌ์๋ค. ํ์ง๋ง ํ๋์จ์ด ํ๊ณ์ ๋ค๋ค๋ฅด๋ฉด์, ์ด์ ๋ ๊ธด ํ ํฐ ์ํ์ค์ ๋ํ ์ฐ์ฐ ๋น์ฉ(ํนํ ์ ํ ์ดํ ์ ์ ์ ๊ณฑ ๋น์ฉ)์ด ์ฃผ์ ๋ณ๋ชฉ ์ง์ ์ด ๋์๋ค. ์ด๋ ์ด์ฅ๋ฌธ ํ ์คํธ, ๊ณ ํด์๋ ์ด๋ฏธ์ง, ๊ธด ๋น๋์ค ๋ฑ์ผ๋ก ์ธํด ๋์ฑ ์ฌํ๋๊ณ ์๋ค. ์ด ๋ ผ๋ฌธ์ AI ํจ์จ์ฑ ์ฐ๊ตฌ์ ์ด์ ์ด ๋ชจ๋ธ ์ค์ฌ ์์ถ์์ ๋ฐ์ดํฐ ์ค์ฌ ์์ถ, ์ฆ ํ ํฐ ์์ถ์ผ๋ก ์ด๋ํ๊ณ ์๋ค๊ณ ์ฃผ์ฅํ๋ค. ํ ํฐ ์์ถ์ ๋ชจ๋ธ ํ๋ จ ๋๋ ์ถ๋ก ์ ํ ํฐ ์๋ฅผ ์ค์ฌ AI ํจ์จ์ฑ์ ๋์ด๋ ์๋ก์ด ์ ๊ทผ ๋ฐฉ์์ด๋ฉฐ, ๊ธด ์ปจํ ์คํธ๋ก ์ธํ ์ค๋ฒํค๋๋ฅผ ํด๊ฒฐํ๋ ์ค์ํ ํจ๋ฌ๋ค์ ์ ํ์์ ๊ฐ์กฐํ๋ค. ๋ํ ํ ํฐ ์์ถ ์ฐ๊ตฌ์ ํํฉ, ์ด์ , ๋น๋ฉด ๊ณผ์ ๋ฐ ๋ฏธ๋ ๋ฐฉํฅ์ ์ ์ํ๋ค.

Paper, Project
๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ(LLM)์ ๋ณต์กํ ์ถ๋ก ์์
์ ๋ฐ์ด๋์ง๋ง ๊ณ์ฐ ๋น์ฉ์ด ๋ง์ด ๋ค์ด ์ค์ ๋ฐฐํฌ๊ฐ ์ ํ์ ์ด๋ค. ์ด๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ์ต๊ทผ ์ฐ๊ตฌ๋ค์ ๊ต์ฌ LLM์ ์ฐ์์ ์ฌ๊ณ (CoT) ์ถ์ ์ ์ฌ์ฉํ์ฌ ์ถ๋ก ๋ฅ๋ ฅ์ ์ํ ์ธ์ด ๋ชจ๋ธ(sLM)๋ก ์ฆ๋ฅํ๋ ๋ฐ ์ด์ ์ ๋ง์ถ์๋ค. ๊ทธ๋ฌ๋ ์ด ์ ๊ทผ ๋ฐฉ์์ ํฌ๊ทํ ์ฌ์ค์ ์ง์์ด๋ ์ ๋ฐํ ๊ณ์ฐ์ด ํ์ํ ์๋๋ฆฌ์ค์์ sLM์ด ์ ํ๋ ๋ฅ๋ ฅ์ผ๋ก ์ธํด ํ๊ฐ์ ์ผ์ผํค๋ ๋ฌธ์ ์ ์ง๋ฉดํ๋ค. ์ด ๋
ผ๋ฌธ์ ์ถ๋ก ๋ฅ๋ ฅ๋ฟ๋ง ์๋๋ผ LLM ๊ธฐ๋ฐ ์์ด์ ํธ์ ์ ์ฒด ์์
ํด๊ฒฐ ํ๋์ ๊ฒ์ ๋ฐ ์ฝ๋ ๋๊ตฌ๋ฅผ ๊ฐ์ถ sLM์ผ๋ก ์ด์ ํ๋ ์์ด์ ํธ ์ฆ๋ฅ(Agent Distillation) ํ๋ ์์ํฌ๋ฅผ ์ ์ํ๋ค. (1) ๊ต์ฌ๊ฐ ์์ฑํ ๊ถค์ ์ ํ์ง์ ํฅ์์ํค๊ธฐ ์ํ "์ฒซ ์๊ฐ ์ ๋์ฌ(first-thought prefix)" ํ๋กฌํํ
๋ฐฉ๋ฒ๊ณผ (2) ์ํ ์์ด์ ํธ์ ํ
์คํธ ์๊ฐ ๊ฐ๊ฑด์ฑ์ ํฅ์์ํค๊ธฐ ์ํ ์๊ธฐ ์ผ๊ด์ ํ๋ ์์ฑ(self-consistent action generation)์ ์ ์ํ๋ค. ์ฌ์ค ๋ฐ ์ํ ์์ญ์ ๊ฑธ์ณ 8๊ฐ์ง ์ถ๋ก ์์
์์ ์ด ๋ฐฉ๋ฒ์ ํ๊ฐํ ๊ฒฐ๊ณผ, 0.5B, 1.5B, 3B ํ๋ผ๋ฏธํฐ๋งํผ ์์ sLM๋ CoT ์ฆ๋ฅ๋ฅผ ์ฌ์ฉํ์ฌ ๋ฏธ์ธ ์กฐ์ ๋ ๋ค์ ๋จ๊ณ์ ๋ ํฐ 1.5B, 3B, 7B ๋ชจ๋ธ๊ณผ ๊ฒฝ์๋ ฅ ์๋ ์ฑ๋ฅ์ ๋ฌ์ฑํ ์ ์์์ ๋ณด์ฌ์ค๋ค.

Paper, Project
๋ํ ์ธ์ด ๋ชจ๋ธ(LLM)์ ๊ธ์ํ ๋ฐ์ ์ ์ ๋ก ์๋ ๊ณ์ฐ ์๊ตฌ๋ ์ฆ๊ฐ์ ํจ๊ป ์ด๋ฃจ์ด์ก์ผ๋ฉฐ, ์ต์ฒจ๋จ ๋ชจ๋ธ์ ํ์ต ๋น์ฉ์ ๋ช ๋ฌ๋ง๋ค ๋ ๋ฐฐ๋ก ์ฆ๊ฐํ๊ณ ์๋ค. ๋ชจ๋ธ์ ์ ์ ๋ฐ๋ ์ฐ์ ๋ก ์ง์ ํ์ตํ๋ฉด ๊ณ์ฐ ์ฒ๋ฆฌ๋๊ณผ ์๋์ง ํจ์จ์ฑ์ ๋ชจ๋ ํฅ์์์ผ ํด๊ฒฐ์ฑ
์ ์ ๊ณตํ ์ ์๋ค. ํนํ NVIDIA์ ์ต์ Blackwell ์ํคํ
์ฒ๋ FP4 ๋ณํ๊ณผ ๊ฐ์ ๊ทนํ ๋ฎ์ ์ ๋ฐ๋ ์ฐ์ฐ์ ์ฉ์ดํ๊ฒ ํ์ฌ ์๋นํ ํจ์จ์ฑ ํฅ์์ ์ฝ์ํ๋ค. ๊ทธ๋ฌ๋ FP4 ์ ๋ฐ๋๋ก LLM์ ํ์ตํ๊ธฐ ์ํ ํ์ฌ ์๊ณ ๋ฆฌ์ฆ์ ์๋นํ ์ ํ๋ ์ ํ์ ์ง๋ฉดํ๊ณ ์ข
์ข
ํผํฉ ์ ๋ฐ๋ ๋์ฒด์ ์์กดํ๋ค. ์ด ๋
ผ๋ฌธ์ ํ๋์จ์ด ์ง์ FP4 ํ์ต์ ์ฒด๊ณ์ ์ผ๋ก ์กฐ์ฌํ๊ณ , ๋ชจ๋ ์ฃผ์ ๊ณ์ฐ(์: ์ ํ ๊ณ์ธต)์ด ์ ์ ๋ฐ๋๋ก ์ํ๋๋ ์ ํํ ์๋ํฌ์๋ FP4 ํ์ต์ ๊ฐ๋ฅํ๊ฒ ํ๋ ์๋ก์ด ์ ๊ทผ ๋ฐฉ์์ธ Quartet์ ์๊ฐํ๋ค. Llama ์ ํ ๋ชจ๋ธ์ ๋ํ ๊ด๋ฒ์ํ ํ๊ฐ๋ฅผ ํตํด ๋ค์ํ ๋นํธ ํญ์ ๊ฑธ์ณ ์ฑ๋ฅ ์ ์ถฉ์์ ์ ๋ํํ๋ ์๋ก์ด ์ ์ ๋ฐ๋ ์ค์ผ์ผ๋ง ๋ฒ์น์ ๋ฐํ๋ด๊ณ , ์ ํ๋ ๋ ๊ณ์ฐ ์ธก๋ฉด์์ "๊ฑฐ์ ์ต์ "์ธ ์ ์ ๋ฐ๋ ํ์ต ๊ธฐ์ ์ธ Quartet์ ์๋ณํ๋ค. NVIDIA Blackwell GPU์ ๋ง์ถคํ๋ ์ต์ ํ๋ CUDA ์ปค๋์ ์ฌ์ฉํ์ฌ Quartet์ ๊ตฌํํ๊ณ , FP4 ์ ๋ฐ๋์ ๋ํ ์ต์ฒจ๋จ ์ ํ๋๋ฅผ ๋ฌ์ฑํ์ฌ ์์ญ์ต ๊ท๋ชจ ๋ชจ๋ธ์ ์ฑ๊ณต์ ์ผ๋ก ํ์ตํ ์ ์์์ ๋ณด์ฌ์ค๋ค. ์ด ๋ฐฉ๋ฒ์ ์์ FP4 ๊ธฐ๋ฐ ํ์ต์ด ํ์ค ์ ๋ฐ๋ ๋ฐ FP8 ํ์ต์ ๋ํ ๊ฒฝ์๋ ฅ ์๋ ๋์์์ ์
์ฆํ๋ค.

Paper, Project
๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ(LLM)์ ์๋นํ ์ถ๋ก ์ค๋ฒํค๋๋ฅผ ๋๊ฐ๋ก ์ธ์์ ์ธ ์ถ๋ก ๋ฅ๋ ฅ์ ๋ฌ์ฑํ์ฌ ์๋นํ ๋ฐฐํฌ ๋ฌธ์ ๋ฅผ ์ผ๊ธฐํ๋ค. ์ฆ๋ฅ๋ ์ํ ์ธ์ด ๋ชจ๋ธ(SLM)์ ํจ์จ์ฑ์ ํฌ๊ฒ ํฅ์์ํค์ง๋ง, LLM์ ์ถ๋ก ๊ฒฝ๋ก๋ฅผ ๋ฐ๋ฅด์ง ๋ชปํด ์ฑ๋ฅ์ด ์ ํ๋๋ค. ๋คํํ๋, ์ด ๋
ผ๋ฌธ์ LLM๊ณผ SLM ๊ฐ์ ์ถ๋ก ๊ฒฝ๋ก๋ฅผ ์ค์ ๋ก ๋ถ๊ธฐ์ํค๋ ํ ํฐ์ ๊ทน์์์ ๋ถ๊ณผํ๋ค๋ ์ฌ์ค์ ๋ฐํ๋๋ค. ๋๋ถ๋ถ์ ์์ฑ๋ ํ ํฐ์ ๋์ผํ๊ฑฐ๋ ์ฝ์ด ๋๋ ํํ์ ์ฌ์ํ ์ฐจ์ด์ ๊ฐ์ ์ค๋ฆฝ์ ์ธ ์ฐจ์ด๋ฅผ ๋ณด์ธ๋ค. ์ด๋ฌํ ํต์ฐฐ์ ํ์ฉํ์ฌ, Roads to Rome (R2R)์ด๋ผ๋ ์ ๊ฒฝ๋ง ํ ํฐ ๋ผ์ฐํ
๋ฐฉ๋ฒ์ ์๊ฐํ๋ค. R2R์ ์ด๋ฌํ ์ค์ํ๊ณ ๊ฒฝ๋ก๊ฐ ๋ถ๊ธฐ๋๋ ํ ํฐ์ ๋ํด์๋ง ์ ํ์ ์ผ๋ก LLM์ ์ฌ์ฉํ๊ณ , ๋๋ถ๋ถ์ ํ ํฐ ์์ฑ์ SLM์ ๋งก๊ธด๋ค. ๋ํ ๋ถ๊ธฐ ํ ํฐ์ ์๋ณํ๊ณ ๊ฐ๋ฒผ์ด ๋ผ์ฐํฐ๋ฅผ ํ๋ จ์ํค๊ธฐ ์ํด ํ ํฐ ์์ค ๋ผ์ฐํ
๋ ์ด๋ธ์ ์์ฑํ๋ ์๋ ๋ฐ์ดํฐ ์์ฑ ํ์ดํ๋ผ์ธ๋ ๊ฐ๋ฐํ๋ค. R2R์ DeepSeek ์ ํ๊ตฐ์ R1-1.5B ๋ฐ R1-32B ๋ชจ๋ธ ๊ฒฐํฉ์ ์ ์ฉํ๊ณ , ์ด๋ ค์ด ์ํ, ์ฝ๋ฉ ๋ฐ QA ๋ฒค์น๋งํฌ์์ ํ๊ฐํ๋ค. ํ๊ท ํ์ฑํ ํ๋ผ๋ฏธํฐ ํฌ๊ธฐ๊ฐ 5.6B์ธ R2R์ R1-7B์ ํ๊ท ์ ํ๋๋ฅผ 1.6๋ฐฐ ๋ฅ๊ฐํ๋ฉฐ R1-14B ๋ชจ๋ธ๋ณด๋ค๋ ์ฐ์ํ ์ฑ๋ฅ์ ๋ณด์๋ค. R1-32B์ ๋นํด ์ ์ฌํ ์ฑ๋ฅ์ผ๋ก 2.8๋ฐฐ์ ์ค์ ์๊ฐ ์๋ ํฅ์์ ์ ๊ณตํ์ฌ ํ
์คํธ ์๊ฐ ํ์ฅ ํจ์จ์ฑ์ ํ๋ ํ ํ๋ก ํฐ์ด๋ฅผ ๋ฐ์ ์ํจ๋ค.

Paper, Project
๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ(LLM)์ ์ฌ์ฉํ ์ถ๋ก ์ ๊ฐํํ์ต(RL)์ ์ ์ฉํ ๋ ์ฃผ์ ์ฅ์ ๋ฌผ์ ์ ์ฑ
์ํธ๋กํผ์ ๋ถ๊ดด์ด๋ค. ์ํธ๋กํผ ๊ฐ์
์์ด ๊ฐํํ์ต์ ์คํํ๋ฉด ์ ์ฑ
์ํธ๋กํผ๊ฐ ํ๋ จ ์ด๊ธฐ์ ๊ธ๊ฒฉํ ๊ฐ์ํ์ฌ ํ์ ๋ฅ๋ ฅ์ด ์ ํ๋๊ณ ์ ์ฑ
์ฑ๋ฅ์ด ์ ์ฒด๋๋ ํ์์ด ์ผ๊ด๋๊ฒ ๊ด์ฐฐ๋๋ค. ์ด ๋
ผ๋ฌธ์ ์ํธ๋กํผ(H)์ ๋ค์ด์คํธ๋ฆผ ์ฑ๋ฅ(R) ์ฌ์ด์ R=โaโ
e^H+b ๋ผ๋ ๊ฒฝํ์ ๊ด๊ณ์์ ์ ๋ฆฝํ๋ค. ์ด๋ ์ ์ฑ
์ฑ๋ฅ์ด ์ ์ฑ
์ํธ๋กํผ๋ฅผ ์๋ชจํ์ฌ ์ป์ด์ง๋ฉฐ, ์ํธ๋กํผ ๊ณ ๊ฐ๋ก ์ธํด ๋ณ๋ชฉ ํ์์ด ๋ฐ์ํจ์ ์์ฌํ๋ค. ์ฐ๊ตฌ์ง์ ์ํธ๋กํผ ์ญํ์ ์ด๋ก ์ , ๊ฒฝํ์ ์ผ๋ก ์กฐ์ฌํ์ฌ ์ ์ฑ
์ํธ๋กํผ ๋ณํ๊ฐ ํ๋ ํ๋ฅ ๊ณผ ๋ก์ง ๋ณํ ๊ฐ์ ๊ณต๋ถ์ฐ์ ์ํด ์ฃผ๋๋จ์ ๋ฐํ๋๋ค. ์ด๋ฌํ ์ดํด๋ฅผ ๋ฐํ์ผ๋ก, ๊ณต๋ถ์ฐ์ด ๋์ ํ ํฐ์ ์
๋ฐ์ดํธ๋ฅผ ์ ํํ๋ Clip-Cov์ KL-Cov๋ผ๋ ๋ ๊ฐ์ง ๊ฐ๋จํ๋ฉด์๋ ํจ๊ณผ์ ์ธ ๊ธฐ๋ฒ์ ์ ์ํ์ฌ ์ํธ๋กํผ ๋ถ๊ดด๋ฅผ ๋ง๊ณ ๋ ๋์ ์ฑ๋ฅ์ ๋ฌ์ฑํ๋๋ก ๋๋๋ค.

Paper, Project
๋
ผ๋ฆฌ์ ์ถ๋ก ์ ์ธ๊ฐ ์ง๋ฅ์ ๊ธฐ๋ณธ์ด๋ฉฐ ๋ฉํฐ๋ชจ๋ฌ ๋ํ ์ธ์ด ๋ชจ๋ธ(MLLM)์ ํ์ ๊ธฐ๋ฅ์ด๋ค. ๋ฉํฐ๋ชจ๋ฌ ์ถ๋ก ์ด ํฌ๊ฒ ๋ฐ์ ํ์์๋ ๋ถ๊ตฌํ๊ณ , ๊ธฐ์กด ๋ฒค์น๋งํฌ๋ ๋
ผ๋ฆฌ์ ์ถ๋ก ์ ํ์ ๋ํ ๋ช
ํํ ๋ถ๋ฅ ๋ถ์กฑ๊ณผ ์ถ๋ก ์ ๋ํ ๋ถ๋ถ๋ช
ํ ์ดํด๋ก ์ธํด ์ถ๋ก ๋ฅ๋ ฅ์ ์ข
ํฉ์ ์ผ๋ก ํ๊ฐํ์ง ๋ชปํ๋ค. ์ด๋ฌํ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด, ์ด ๋
ผ๋ฌธ์ MME-Reasoning์ด๋ผ๋ MLLM์ ์ถ๋ก ๋ฅ๋ ฅ ํ๊ฐ๋ฅผ ์ํ ํฌ๊ด์ ์ธ ๋ฒค์น๋งํฌ๋ฅผ ์๊ฐํ๋ค. ์ด ๋ฒค์น๋งํฌ๋ ๊ท๋ฉ์ , ์ฐ์ญ์ , ๊ท์ถ์ ์ถ๋ก ์ ์ธ ๊ฐ์ง ์ ํ์ ๋ชจ๋ ํฌํจํ๋ค. ๊ฐ ์ง๋ฌธ์ด ์ง๊ฐ ๋ฅ๋ ฅ์ด๋ ์ง์์ ํญ์ด ์๋ ์ถ๋ก ๋ฅ๋ ฅ์ ํจ๊ณผ์ ์ผ๋ก ํ๊ฐํ๋๋ก ๋ฐ์ดํฐ๋ฅผ ์ ์คํ๊ฒ ์ ๋ณํ์ผ๋ฉฐ, ๋ค์ํ ์ง๋ฌธ ํ๊ฐ๋ฅผ ํฌ๊ดํ๋๋ก ํ๊ฐ ํ๋กํ ์ฝ์ ํ์ฅํ๋ค. ํ๊ฐ ๊ฒฐ๊ณผ, ์ต์ฒจ๋จ MLLM์กฐ์ฐจ๋ ์ข
ํฉ์ ์ธ ๋
ผ๋ฆฌ์ ์ถ๋ก ๋ฅ๋ ฅ์์ ์๋นํ ํ๊ณ๋ฅผ ๋ณด์์ผ๋ฉฐ, ์ถ๋ก ์ ํ์ ๋ฐ๋ผ ์ฑ๋ฅ ๋ถ๊ท ํ์ด ๋๋๋ฌ์ก๋ค. ๋ํ, "์ฌ๊ณ ๋ชจ๋"๋ ๊ท์น ๊ธฐ๋ฐ RL๊ณผ ๊ฐ์ด ์ถ๋ก ๋ฅ๋ ฅ์ ํฅ์์ํจ๋ค๊ณ ์ผ๋ฐ์ ์ผ๋ก ์๋ ค์ง ์ ๊ทผ ๋ฐฉ์์ ๋ํ ์ฌ์ธต ๋ถ์๋ ์ํํ๋ค.

Paper, Project
์ต๊ทผ ๋ํ ์ถ๋ก ๋ชจ๋ธ(LRM)์ ๊ฐํํ์ต(RL)์ ํตํด ๊ฐ๋ ฅํ ์ถ๋ก ๋ฅ๋ ฅ์ ๋ณด์ฌ์ฃผ์์ง๋ง, ์ด๋ ์ฃผ๋ก ์งง์ ์ปจํ
์คํธ์ ์ถ๋ก ์์
์์ ๊ด์ฐฐ๋์๋ค. ๋ฐ๋ฉด, RL์ ํตํด LRM์ด ๊ธด ์ปจํ
์คํธ ์
๋ ฅ์ ํจ๊ณผ์ ์ผ๋ก ์ฒ๋ฆฌํ๊ณ ์ถ๋ก ํ๋๋ก ํ์ฅํ๋ ๊ฒ์ ์ฌ์ ํ ์ค์ํ ๋ฏธํด๊ฒฐ ๊ณผ์ ์ด๋ค. ์ด ๋
ผ๋ฌธ์ ๋จผ์ ์ฅ๋ฌธ ์ปจํ
์คํธ ์ถ๋ก RL์ ํจ๋ฌ๋ค์์ ๊ณต์ํํ๊ณ , ๋น์ต์ ํ๋ จ ํจ์จ์ฑ ๋ฐ ๋ถ์์ ํ ์ต์ ํ ๊ณผ์ ์ด๋ผ๋ ์ฃผ์ ๊ณผ์ ๋ฅผ ์๋ณํ๋ค. ์ด๋ฌํ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด, QwenLong-L1์ด๋ผ๋ ํ๋ ์์ํฌ๋ฅผ ์ ์ํ์ฌ ์ ์ง์ ์ธ ์ปจํ
์คํธ ํ์ฅ์ ํตํด ์งง์ ์ปจํ
์คํธ LRM์ ์ฅ๋ฌธ ์ปจํ
์คํธ ์๋๋ฆฌ์ค์ ์ ์ฉํ๋ค. ๊ตฌ์ฒด์ ์ผ๋ก, ๊ฐ๋ ฅํ ์ด๊ธฐ ์ ์ฑ
์ ๊ตฌ์ถํ๊ธฐ ์ํ ์ค๋น ์ง๋ ๋ฏธ์ธ ์กฐ์ (SFT) ๋จ๊ณ๋ฅผ ์ฌ์ฉํ๊ณ , ์ ์ฑ
์งํ๋ฅผ ์์ ํํ๊ธฐ ์ํ ์ปค๋ฆฌํ๋ผ ๊ธฐ๋ฐ ๋จ๊ณ์ RL ๊ธฐ๋ฒ, ๊ทธ๋ฆฌ๊ณ ์ ์ฑ
ํ์์ ์ฅ๋ คํ๊ธฐ ์ํ ๋์ด๋ ์ธ์ ํ๊ณ ์ ์ํ๋ง ์ ๋ต์ผ๋ก ๊ฐํํ๋ค. 7๊ฐ์ ์ฅ๋ฌธ ๋ฌธ์ ์ง์์๋ต ๋ฒค์น๋งํฌ ์คํ์์ QwenLong-L1-32B๋ OpenAI-o3-mini ๋ฐ Qwen3-235B-A22B์ ๊ฐ์ ๋ํ์ ์ธ LRM์ ๋ฅ๊ฐํ๊ณ Claude-3.7-Sonnet-Thinking๊ณผ ๋๋ฑํ ์ฑ๋ฅ์ ๋ฌ์ฑํ์ฌ ์ต์ฒจ๋จ LRM ์ค ์ต๊ณ ์ ์ฑ๋ฅ์ ๋ณด์ฌ์ค๋ค.

Paper, Project
๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ์ ๊ธธ๊ณ ๋ณต์กํ ์ถ๋ก ์์
์์ ๋๋ผ์ด ๋ฅ์ํจ์ ๋ณด์ฌ์ฃผ์์ง๋ง, ์ต์ํ ์ถ๋ก ํจํด์ ๋ฌธ์ ๊ฐ ๋ ์ ๋๋ก ์์กดํ๋ ๊ฒฝํฅ์ ์์ฃผ ๋ณด์ด๋๋ฐ, ์ด๋ฅผ ์ถ๋ก ๊ฒฝ์ง์ฑ(reasoning rigidity)์ด๋ผ๊ณ ๋ช
๋ช
ํ๋ค. ์ฌ์ฉ์์ ๋ช
์์ ์ธ ์ง์์๋ ๋ถ๊ตฌํ๊ณ ์ด๋ฌํ ๋ชจ๋ธ์ ๋ช
ํํ๊ฒ ๋ช
์๋ ์กฐ๊ฑด์ ๋ฌด์ํ๊ณ ์ต๊ด์ ์ธ ์ถ๋ก ๊ฒฝ๋ก๋ก ๊ธฐ๋ณธ ์ค์ ๋์ด ์๋ชป๋ ๊ฒฐ๋ก ์ ๋ด๋ฆฐ๋ค. ์ด๋ฌํ ํ๋์ ํนํ ์ํ ๋ฐ ๋
ผ๋ฆฌ ํผ์ฆ๊ณผ ๊ฐ์ด ์ง์ ๋ ์ ์ฝ ์กฐ๊ฑด์ ๋ํ ์ ํํ ์ค์๊ฐ ์ค์ํ ์์ญ์์ ์ฌ๊ฐํ ๋ฌธ์ ๋ฅผ ์ผ๊ธฐํ๋ค. ์ด์ ์ฐ๊ตฌ์์ ๊ฑฐ์ ํ๊ตฌ๋์ง ์์ ํ๋์ธ ์ถ๋ก ๊ฒฝ์ง์ฑ์ ์ฒด๊ณ์ ์ผ๋ก ์กฐ์ฌํ๊ธฐ ์ํด, ์ ๋ฌธ๊ฐ๊ฐ ์ ๋ณํ ์ง๋จ ์ธํธ๋ฅผ ์๊ฐํ๋ค. ์ด ๋ฐ์ดํฐ์
์๋ ๊ธฐ์กด ์ํ ๋ฒค์น๋งํฌ์ธ AIME ๋ฐ MATH500์ ํน๋ณํ ์์ ๋ ๋ณํ๊ณผ ์ต์ํ ์ถ๋ก ์ ๋ต์์ ๋ฒ์ด๋๋๋ก ์๋์ ์ผ๋ก ์ฌ์ค๊ณ๋ ์ ์๋ ค์ง ํผ์ฆ์ด ํฌํจ๋๋ค. ์ด ๋ฐ์ดํฐ์
์ ์ฌ์ฉํ์ฌ ๋ชจ๋ธ์ด ๋ด์ฌ๋ ์ถ๋ก ์ผ๋ก ๊ธฐ๋ณธ ์ค์ ๋ ๋ ๋ฐ์ํ๋ ๋ฐ๋ณต์ ์ธ ์ค์ผ ํจํด์ ์๋ณํ๋ค. ๊ตฌ์ฒด์ ์ผ๋ก, ์ด ์ค์ผ์ (1) ํด์ ๊ณผ๋ถํ(Interpretation Overload), (2) ์
๋ ฅ ๋ถ์ (Input Distrust), (3) ๋ถ๋ถ์ ์ง์ ์ฃผ์(Partial Instruction Attention)์ ์ธ ๊ฐ์ง ๋
ํนํ ๋ชจ๋๋ก ๋ถ๋ฅํ๋ฉฐ, ๊ฐ ๋ชจ๋๋ ๋ชจ๋ธ์ด ์ ๊ณต๋ ์ง์๋ฅผ ๋ฌด์ํ๊ฑฐ๋ ์๊ณกํ๋๋ก ์ ๋ฐํ๋ค. ์ธ์ด ๋ชจ๋ธ์ ์ถ๋ก ๊ฒฝ์ง์ฑ์ ์ํํ๊ธฐ ์ํ ํฅํ ์ฐ๊ตฌ๋ฅผ ์ด์งํ๊ธฐ ์ํด ์ง๋จ ์ธํธ๋ฅผ ๊ณต๊ฐํ๋ค.

Paper, Project
๋ฅ๋ฌ๋์ ์ฌ๋ฌ ๋ถ์ผ์์ ์ฑ๊ณตํ์ง๋ง, ํ
์ด๋ธ ํ์ ๋ฐ์ดํฐ ํ์ต์์๋ ์ฌ์ ํ ๊ทธ๋๋์ธํธ ๋ถ์คํ
๊ฒฐ์ ํธ๋ฆฌ(GBDT)์ ๋นํด ์ฑ๋ฅ์ด ๋ฎ์๋ค. ์ต๊ทผ ํ
์คํธ ๋ฐ์ดํฐ๊ฐ ํฌํจ๋ ๊ฒฝ์ฐ, ์ค์ ์ง์์ ํ์ฉํ๊ณ ๋ค์ํ ๋ฐ์ดํฐ์
์ ์ผ๋ฐํํ ์ ์๋ 'ํ
์ด๋ธ ํ์ ํ์ด๋ฐ์ด์
๋ชจ๋ธ'์ ๊ฐ๋ฅ์ฑ์ด ์ด๋ฆฌ๊ณ ์๋ค. ์ด ๋
ผ๋ฌธ์ TabSTAR๋ผ๋ ์๋ก์ด ํ
์ด๋ธ ํ์ ํ์ด๋ฐ์ด์
๋ชจ๋ธ์ ์ ์ํ๋ค. TabSTAR๋ ํ
์คํธ ํน์ง์ด ์๋ ํ
์ด๋ธ ๋ฐ์ดํฐ์ ์ ์ด ํ์ต์ ๊ฐ๋ฅํ๊ฒ ํ๋ฉฐ, ๋ฐ์ดํฐ์
๋ณ ํ๋ผ๋ฏธํฐ ์์ด ์ฌ์ ํ๋ จ๋ ํ
์คํธ ์ธ์ฝ๋๋ฅผ ์ฌ์ฉํ๋ค. ํนํ, ์
๋ ฅ์ผ๋ก '๋ชฉํ ํ ํฐ'์ ๋ฐ์ ๋ชจ๋ธ์ด ์์
๋ณ ์๋ฒ ๋ฉ์ ํ์ตํ๋๋ก ํ๋ค. TabSTAR๋ ํ
์คํธ ํน์ง์ ๊ฐ์ง ๋ถ๋ฅ ์์
์์ ์ค๊ฐ ๋ฐ ๋๊ท๋ชจ ๋ฐ์ดํฐ์
๋ชจ๋ ์ต๊ณ ์์ค์ ์ฑ๋ฅ์ ๋ณด์์ผ๋ฉฐ, ๋ฐ์ดํฐ์
์์ ๋ฐ๋ฅธ ํ์ฅ ๊ฐ๋ฅ์ฑ๋ ํ์ธ๋์ด ์ถ๊ฐ ์ฑ๋ฅ ํฅ์์ ๊ธธ์ ์ ์ํ๋ค.

Paper, Project
๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ(LLM) ๊ธฐ๋ฐ ์์ด์ ํธ๋ค์ด ๊ณผํ์ ๋ฐ๊ฒฌ์ ๋๋ ๋๊ตฌ๋ก ๋ฐ์ ํ๊ณ ์๋ค. ํนํ ์ด์์ฒด์ ์ ์ํธ์์ฉํ๋ฉฐ ์ฐ๊ตฌ์์ ์์
์ ์๋ํํ๋ ์ปดํจํฐ ์ฌ์ฉ ์์ด์ ํธ์ ์ ์ฌ๋ ฅ์ด ํฌ๋ค. ์ด ๋
ผ๋ฌธ์ ์ด๋ฌํ ์์ด์ ํธ์ ๋ฅ๋ ฅ์ ํ๊ฐํ๊ธฐ ์ํด ScienceBoard๋ฅผ ์ ์ํ๋ค. ScienceBoard๋ ๋ ๊ฐ์ง ์ฃผ์ ๊ธฐ์ฌ๋ฅผ ํ๋ค: (1) ์์ด์ ํธ๊ฐ ๋ณต์กํ ์ฐ๊ตฌ ์์
๊ณผ ์คํ์ ๊ฐ์ํํ๊ธฐ ์ํด ๋ค์ํ ์ธํฐํ์ด์ค๋ฅผ ํตํด ์์จ์ ์ผ๋ก ์ํธ์์ฉํ ์ ์๋, ์ ๋ฌธ ์ํํธ์จ์ด๊ฐ ํตํฉ๋ ํ์ค์ ์ด๊ณ ์๊ฐ์ ์ผ๋ก ํ๋ถํ ๋ค๋ถ์ผ ํ๊ฒฝ์ ์ ๊ณตํ๋ค. (2) ์ํํ, ์ฒ๋ฌธํ, ์ง๋ฆฌ์ ๋ณดํ ๋ฑ ๊ณผํ์ ๋ฐ๊ฒฌ ์ํฌํ๋ก์ฐ๋ฅผ ํฌ๊ดํ๋, ์ธ๊ฐ์ด ๊ฒ์ฆํ 169๊ฐ์ ๊ณ ํ์ง ์ค์ ์์
์ผ๋ก ๊ตฌ์ฑ๋ ๋์ ์ ์ธ ๋ฒค์น๋งํฌ๋ฅผ ์ ๊ณตํ๋ค. GPT-4o, Claude 3.7๊ณผ ๊ฐ์ ์ต์ฒจ๋จ ๋ชจ๋ธ์ ์ฌ์ฉํ ์์ด์ ํธ ํ๊ฐ ๊ฒฐ๊ณผ, ๋ณต์กํ ์ํฌํ๋ก์ฐ์์ ๊ณผํ์๋ฅผ ์์ ์ ์ผ๋ก ์ง์ํ๋ ๋ฐ๋ ์์ง ๋ฏธํกํ๋ฉฐ ์ ๋ฐ์ ์ธ ์ฑ๊ณต๋ฅ ์ 15%์ ๊ทธ์ณค๋ค. ์ด๋ฅผ ํตํด ํ์ฌ ์์ด์ ํธ์ ํ๊ณ์ ๋ ํจ๊ณผ์ ์ธ ์ค๊ณ ์์น์ ๋ํ ํต์ฐฐ์ ์ ๊ณตํ๋ค.

Paper, Project
ํ์ ํฌ์คํฐ ์ ์์ ๊ธด ๋ด์ฉ์ ๋ฌธ์๋ฅผ ์๊ฐ์ ์ผ๋ก ์ผ๊ด์ฑ ์๋ ํ ํ์ด์ง๋ก ์์ถํด์ผ ํ๋ ์ค์ํ ์์
์ด๋ค. ์ด ๋
ผ๋ฌธ์ ํฌ์คํฐ ์์ฑ์ ์ํ ์ต์ด์ ๋ฒค์น๋งํฌ ๋ฐ ํ๊ฐ ์งํ ์ ํ๊ตฐ์ ์๊ฐํ๋ค. ์ด๋ ์ต๊ทผ ํํ ๋
ผ๋ฌธ๊ณผ ์ ์๊ฐ ๋์์ธํ ํฌ์คํฐ๋ฅผ ์์ผ๋ก ๊ตฌ์ฑํ๋ฉฐ, (1)์๊ฐ์ ํ์ง, (2)ํ
์คํธ ์ผ๊ด์ฑ, (3)VLM(์๊ฐ ์ธ์ด ๋ชจ๋ธ) ์ฌ์ฌ์์์ด ํ๊ฐํ๋ 6๊ฐ์ง ์ธ๋ถ ๋ฏธํ ๋ฐ ์ ๋ณด ๊ธฐ์ค, (4)์์ฑ๋ ํด์ฆ์ VLM์ด ๋ตํ์ฌ ํฌ์คํฐ๊ฐ ๋
ผ๋ฌธ ํต์ฌ ๋ด์ฉ์ ์ ๋ฌํ๋ ๋ฅ๋ ฅ์ ์ธก์ ํ๋ PaperQuiz๋ก ๊ฒฐ๊ณผ๋ฌผ์ ํ๊ฐํ๋ค. ๋ํ PosterAgent๋ผ๋ ํํฅ์, ์๊ฐ์ ํผ๋๋ฐฑ ๋ฃจํ๋ฅผ ๊ฐ์ถ ๋ค์ค ์์ด์ ํธ ํ์ดํ๋ผ์ธ์ ์ ์ํ๋ค. PosterAgent๋ (a)ํ์๊ฐ ๋
ผ๋ฌธ์ ๊ตฌ์กฐํ๋ ์์ฐ ๋ผ์ด๋ธ๋ฌ๋ฆฌ๋ก ์ถ์ถํ๊ณ , (b)ํ๋๋๊ฐ ํ
์คํธ-์๊ฐ ์์ ์ด์ง ํธ๋ฆฌ ๋ ์ด์์์ผ๋ก ์ ๋ ฌํ๋ฉฐ, (c)ํ์ธํฐ-์ฝ๋ฉํฐ ๋ฃจํ๊ฐ ๋ ๋๋ง ์ฝ๋๋ฅผ ์คํํ๊ณ VLM ํผ๋๋ฐฑ์ ์ฌ์ฉํ์ฌ ๊ฐ ํจ๋์ ๊ฐ์ ํ๋ค. ํ๊ฐ ๊ฒฐ๊ณผ, GPT-4o ๊ฒฐ๊ณผ๋ฌผ์ ์๊ฐ์ ์ผ๋ก๋ ๋งค๋ ฅ์ ์ด๋ ํ
์คํธ ๋
ธ์ด์ฆ์ ๋ฎ์ PaperQuiz ์ ์๋ฅผ ๋ณด์์ผ๋ฉฐ, ์ธ๊ฐ ๋์์ธ ํฌ์คํฐ๋ ์๊ฐ์ ์๋ฏธ ์ ๋ฌ์ ํฌ๊ฒ ์์กดํ๋ฏ๋ก ๋
์ ์ฐธ์ฌ๊ฐ ์ฃผ์ ๋ฏธ์ ๋ณ๋ชฉ ์ง์ ์์ด ๋ฐํ์ก๋ค. Qwen-2.5 ์๋ฆฌ์ฆ ๊ธฐ๋ฐ์ ์์ ์คํ์์ค ๋ณํ ๋ชจ๋ธ์ ํ ํฐ ์ฌ์ฉ๋์ 87% ์ค์ด๋ฉด์๋ ๊ฑฐ์ ๋ชจ๋ ์งํ์์ ๊ธฐ์กด 4o ๊ธฐ๋ฐ ๋ค์ค ์์ด์ ํธ ์์คํ
์ ๋ฅ๊ฐํ๋ฉฐ, 22ํ์ด์ง ๋
ผ๋ฌธ์ ํธ์ง ๊ฐ๋ฅํ .pptx ํฌ์คํฐ๋ก ๋จ๋ $0.005์ ๋ณํํ๋ค.

Paper, Project
LLM ๊ธฐ๋ฐ ์์ด์ ํธ๋ ์ํํธ์จ์ด ๊ณตํ(SWE) ์์
์์ ์ ๋งํ ๋ฅ๋ ฅ์ ๋ณด์ฌ์ฃผ๊ณ ์์ง๋ง, ์ด ๋ถ์ผ์ ๋ฐ์ ์๋ ๋ ๊ฐ์ง ์ค์ํ ๊ณผ์ ๊ฐ ์๋ค. ์ฒซ์งธ, ๊ณ ํ์ง ํ๋ จ ๋ฐ์ดํฐ, ํนํ ์์ด์ ํธ๊ฐ ๊ฐ๋ฐ ํ๊ฒฝ๊ณผ ์ํธ์์ฉํ๊ณ ์ฝ๋๋ฅผ ์คํํ๋ฉฐ ํ๋ ๊ฒฐ๊ณผ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํ๋์ ์กฐ์ ํด์ผ ํ๋ ์ค์ SWE ์๋๋ฆฌ์ค๋ฅผ ๋ฐ์ํ๋ ๋ฐ์ดํฐ๊ฐ ๋ถ์กฑํ๋ค. ๋์งธ, ์๋ก์ด ๋ํํ SWE ์์
์ ๋ถ์กฑ์ ์ ์ ๋ฒค์น๋งํฌ๊ฐ ์ค์ผ ๋ฌธ์ ๋ก ์ธํด ๋น ๋ฅด๊ฒ ๊ตฌ์์ด ๋๋ฉด์ ๋น ๋ฅด๊ฒ ๊ฐ์ ๋๋ ๋ชจ๋ธ์ ํ๊ฐ์ ์ํฅ์ ๋ฏธ์น๋ค. ์ด๋ฌํ ํ๊ณ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด, ์ด ๋
ผ๋ฌธ์ ๋ค์ํ GitHub ์ ์ฅ์์์ ์ค์ ๋ํํ SWE ์์
์ ์ง์์ ์ผ๋ก ์ถ์ถํ๋ ์๋กญ๊ณ ์๋ํ๋์์ผ๋ฉฐ ํ์ฅ ๊ฐ๋ฅํ ํ์ดํ๋ผ์ธ์ ์๊ฐํ๋ค. ์ด ํ์ดํ๋ผ์ธ์ ์ฌ์ฉํ์ฌ ๋๊ท๋ชจ SWE ์์ด์ ํธ์ ๊ฐํ ํ์ต์ ์ ํฉํ 21,000๊ฐ ์ด์์ ๋ํํ Python ๊ธฐ๋ฐ SWE ์์
์ผ๋ก ๊ตฌ์ฑ๋ ๊ณต๊ฐ ๋ฐ์ดํฐ์
์ธ SWE-rebench๋ฅผ ๊ตฌ์ถํ๋ค. ๋ํ, SWE-rebench ๋ฐฉ๋ฒ๋ก ์ ์ฌ์ฉํ์ฌ ์์ง๋ ์๋ก์ด ์์
์ ์ง์์ ์ธ ๊ณต๊ธ์ ํตํด ์์ด์ ํธ ๊ธฐ๋ฐ ์ํํธ์จ์ด ๊ณตํ์ ์ํ ์ค์ผ ์๋ ๋ฒค์น๋งํฌ๋ฅผ ๊ตฌ์ถํ๋ค. ์ด ๋ฒค์น๋งํฌ์์ ๋ค์ํ LLM์ ๊ฒฐ๊ณผ๋ฅผ SWE-bench Verified์ ๊ฒฐ๊ณผ์ ๋น๊ตํ์ฌ ์ผ๋ถ ์ธ์ด ๋ชจ๋ธ์ ์ฑ๋ฅ์ด ์ค์ผ ๋ฌธ์ ๋ก ์ธํด ๋ถํ๋ ค์ก์ ์ ์์์ ๋ณด์ฌ์ค๋ค.

Paper, Project
์ฌ์ ํ๋ จ์ ํ
์คํธ-์ด๋ฏธ์ง(T2I) ๋ชจ๋ธ์ ๊ด๋ฒ์ํ ์ธ๊ณ ์ง์์ ์ ๊ณตํ์ง๋ง, ์ด๊ฒ๋ง์ผ๋ก๋ ๋์ ๋ฏธ์ ํ์ง๊ณผ ์ ๋ ฌ์ ๋ฌ์ฑํ๊ธฐ์ ์ถฉ๋ถํ์ง ์์ ๊ฒฝ์ฐ๊ฐ ๋ง๋ค. ๋ฐ๋ผ์ ์ง๋ ๋ฏธ์ธ ์กฐ์ (SFT)์ ์ถ๊ฐ ๊ฐ์ ์ ๋งค์ฐ ์ค์ํ๋ค. ๊ทธ๋ฌ๋ ๊ทธ ํจ๊ณผ๋ ๋ฏธ์ธ ์กฐ์ ๋ฐ์ดํฐ์
์ ํ์ง์ ํฌ๊ฒ ์ข์ฐ๋๋ค. ๊ธฐ์กด ๊ณต๊ฐ SFT ๋ฐ์ดํฐ์
์ ์ข
์ข
์ข์ ์์ญ(์: ์ ๋๋ฉ์ด์
๋๋ ํน์ ์ํธ ์คํ์ผ)์ ๋์์ผ๋ก ํ๋ฉฐ, ๊ณ ํ์ง์ ๋ฒ์ฉ SFT ๋ฐ์ดํฐ์
์์ฑ์ ์ฌ์ ํ ์ค์ํ ๊ณผ์ ์ด๋ค. ํ์ฌ ํ๋ ์ด์
๋ฐฉ๋ฒ์ ๋น์ฉ์ด ๋ง์ด ๋ค๊ณ ์ง์ ์ผ๋ก ์ํฅ๋ ฅ ์๋ ์ํ์ ์๋ณํ๋ ๋ฐ ์ด๋ ค์์ ๊ฒช๋๋ค. ์ด ๋
ผ๋ฌธ์ ์ฌ์ ํ๋ จ๋ ์์ฑ ๋ชจ๋ธ์ ์ํฅ๋ ฅ ์๋ ํ๋ จ ์ํ ์ถ์ ๊ธฐ๋ก ํ์ฉํ์ฌ ๋ฒ์ฉ SFT ๋ฐ์ดํฐ์
์ ์์ฑํ๋ ์๋ก์ด ๋ฐฉ๋ฒ๋ก ์ ์๊ฐํ๋ค. ์ด ๋ฐฉ๋ฒ๋ก ์ ์ ์ฉํ์ฌ ์์ง๋ง(3,350๊ฐ ์ํ) ๋งค์ฐ ํจ๊ณผ์ ์ธ SFT ๋ฐ์ดํฐ์
์ธ Alchemist๋ฅผ ๊ตฌ์ถํ๊ณ ๊ณต๊ฐํ๋ค. ์คํ ๊ฒฐ๊ณผ, Alchemist๋ ๋ค์์ฑ๊ณผ ์คํ์ผ์ ๋ณด์กดํ๋ฉด์ 5๊ฐ์ ๊ณต๊ฐ T2I ๋ชจ๋ธ์ ์์ฑ ํ์ง์ ํฌ๊ฒ ํฅ์์ํค๋ ๊ฒ์ผ๋ก ๋ํ๋ฌ๋ค. ๋ํ ๋ฏธ์ธ ์กฐ์ ๋ ๋ชจ๋ธ์ ๊ฐ์ค์น๋ ๊ณต๊ฐํ๋ค.

Paper, Project
ํ์ฐ ๋ชจ๋ธ์ ์ด๋ฏธ์ง ์คํ์ผํ๋ฅผ ํฌ๊ฒ ๋ฐ์ ์์ผฐ์ง๋ง, ๋ ๊ฐ์ง ํต์ฌ ๊ณผ์ ๊ฐ ๋จ์ ์๋ค: (1) ๋ณต์กํ ์ฅ๋ฉด, ํนํ ์ ์ฒด์ฑ, ๊ตฌ์ฑ ๋ฐ ๋ฏธ์ธํ ์ธ๋ถ ์ฌํญ์์ ์ผ๊ด๋ ์คํ์ผํ ์ ์ง, (2) ์คํ์ผ LoRA๋ฅผ ์ฌ์ฉํ๋ ์ด๋ฏธ์ง ๋ ์ด๋ฏธ์ง ํ์ดํ๋ผ์ธ์์ ์คํ์ผ ์ ํ ๋ฐฉ์ง. GPT-4o์ ๋ฐ์ด๋ ์คํ์ผํ ์ผ๊ด์ฑ์ ์คํ์์ค ๋ฐฉ๋ฒ๊ณผ ๋
์ ๋ชจ๋ธ ๊ฐ์ ์ฑ๋ฅ ๊ฒฉ์ฐจ๋ฅผ ๊ฐ์กฐํ๋ค. ์ด๋ฌํ ๊ฒฉ์ฐจ๋ฅผ ํด์ํ๊ธฐ ์ํด, ์ด ๋
ผ๋ฌธ์ ๋๊ท๋ชจ ํ์ฐ ํธ๋์คํฌ๋จธ(DiT)๋ฅผ ํ์ฉํ๋ ๋ณดํธ์ ์ธ ์ผ๊ด์ฑ ํ๋ฌ๊ทธ์ธ์ธ OmniConsistency๋ฅผ ์ ์ํ๋ค. OmniConsistency๋ ๋ค์์ ๊ธฐ์ฌํ๋ค: (1) ๊ฐ๋ ฅํ ์ผ๋ฐํ๋ฅผ ์ํด ์ ๋ ฌ๋ ์ด๋ฏธ์ง ์์ ๋ํด ํ๋ จ๋ ์ปจํ
์คํธ ๋ด ์ผ๊ด์ฑ ํ์ต ํ๋ ์์ํฌ, (2) ์คํ์ผ ์ ํ๋ฅผ ์ํํ๊ธฐ ์ํด ์คํ์ผ ํ์ต๊ณผ ์ผ๊ด์ฑ ๋ณด์กด์ ๋ถ๋ฆฌํ๋ 2๋จ๊ณ ์ ์ง์ ํ์ต ์ ๋ต, (3) Flux ํ๋ ์์ํฌ ํ์์ ์์์ ์คํ์ผ LoRA์ ํธํ๋๋ ์์ ํ ํ๋ฌ๊ทธ ์ค ํ๋ ์ด ์ค๊ณ. ๊ด๋ฒ์ํ ์คํ์ ํตํด OmniConsistency๋ ์๊ฐ์ ์ผ๊ด์ฑ๊ณผ ๋ฏธ์ ํ์ง์ ํฌ๊ฒ ํฅ์์์ผ ์์ฉ ์ต์ฒจ๋จ ๋ชจ๋ธ์ธ GPT-4o์ ์ ์ฌํ ์ฑ๋ฅ์ ๋ฌ์ฑํจ์ ๋ณด์ฌ์ค๋ค.
