2025๋ 5์ฃผ์ฐจ์ ๊ณต๊ฐ๋ ์ฃผ๋ชฉํ ๋งํ AI ๋ถ์ผ์ ๋ ผ๋ฌธ๋ค์ ์๊ฐํฉ๋๋ค.
์ด ๋ ผ๋ฌธ์ ๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ(LLM)์ ์ฑ๋ฅ์ ํ๊ฐํ๋ ์๋ก์ด ๋ฒค์น๋งํฌ 'Humanity's Last Exam (HLE)'๋ฅผ ์๊ฐํฉ๋๋ค.
ํ์ฌ MMLU์ ๊ฐ์ ๊ธฐ์กด ๋ฒค์น๋งํฌ๋ค์ LLM์ด 90% ์ด์์ ์ ํ๋๋ฅผ ๋ณด์ด๋ฉด์ ๋ ์ด์ ์๋ฏธ ์๋ ํ๊ฐ ๋๊ตฌ๋ก ๊ธฐ๋ฅํ๊ธฐ ์ด๋ ค์์ก์ต๋๋ค. ์ด์ ๋ํ ๋์์ผ๋ก ๊ฐ๋ฐ๋ HLE๋ ์ธ๋ฅ ์ง์์ ์ต์ ์ ์ ์๋ ๋ฌธ์ ๋ค๋ก ๊ตฌ์ฑ๋ ์ข ํฉ์ ์ธ ํ๊ฐ ๋๊ตฌ์ ๋๋ค.
HLE๋ ์ํ, ์ธ๋ฌธํ, ์์ฐ๊ณผํ ๋ฑ ๋ค์ํ ๋ถ์ผ์ ๊ฑธ์ณ 3,000๊ฐ์ ๋ฌธ์ ๋ฅผ ํฌํจํ๊ณ ์์ต๋๋ค. ์ ์ธ๊ณ์ ๊ฐ ๋ถ์ผ ์ ๋ฌธ๊ฐ๋ค์ด ๊ฐ๋ฐ์ ์ฐธ์ฌํ์ผ๋ฉฐ, ๊ฐ๊ด์๊ณผ ์ฃผ๊ด์ ๋ฌธํญ์ผ๋ก ๊ตฌ์ฑ๋์ด ์๋ ์ฑ์ ์ด ๊ฐ๋ฅํฉ๋๋ค. ๊ฐ ๋ฌธ์ ๋ ๋ช ํํ ๋ต์ด ์๊ณ ์ฝ๊ฒ ๊ฒ์ฆํ ์ ์์ง๋ง, ์ธํฐ๋ท ๊ฒ์์ผ๋ก๋ ๋น ๋ฅด๊ฒ ๋ต์ ์ฐพ์ ์ ์๋๋ก ์ค๊ณ๋์์ต๋๋ค.
์ฐ๊ตฌ ๊ฒฐ๊ณผ, ์ต์ LLM๋ค๋ HLE์์ ๋ฎ์ ์ ํ๋๋ฅผ ๋ณด์์ต๋๋ค. ์ด๋ ํ์ฌ LLM ๊ธฐ์ ๊ณผ ์ ๋ฌธ๊ฐ ์์ค์ ์ธ๊ฐ ์ง์ ์ฌ์ด์ ์์ง ์๋นํ ๊ฒฉ์ฐจ๊ฐ ์์์ ๋ณด์ฌ์ค๋๋ค.
์ด ๋ ผ๋ฌธ์ ๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ(LLM)์ ๋นํ ๋ฅ๋ ฅ์ ํ๊ฐํ๊ธฐ ์ํ ์๋ก์ด ๋ฒค์น๋งํฌ๋ฅผ ์๊ฐํฉ๋๋ค.
Critic์ LLM์ด ์์ ์ ์ฑ๋ฅ์ ๊ฐ์ ํ๊ณ ๋ค๋ฅธ ๋ชจ๋ธ์๊ฒ ๊ฑด์ค์ ์ธ ํผ๋๋ฐฑ์ ์ ๊ณตํ๋ ๋ฐ ๋งค์ฐ ์ค์ํฉ๋๋ค. ํ์ง๋ง Critic์ด๋ผ๋ ์์ ์ ์ด๋ฆฐ ํน์ฑ ๋๋ฌธ์, LLM์ Critic ๋ฅ๋ ฅ์ ํ๊ฐํ๋ ๊ฒ์ ์ฝ์ง ์์์ต๋๋ค.
์ด ์ฐ๊ตฌ์์ ์ ์ํ๋ ์๋ก์ด ๋ฒค์น๋งํฌ๋ ๊ธฐ์กด์ 'Open-loop' ๋ฐฉ์๊ณผ ๋ฌ๋ฆฌ 'Closed-loop' ๋ฐฉ์์ ์ฑํํ์ต๋๋ค. ์ฆ, Critic์ ํตํด ์์ฑ๋ ์์ ๋ด์ฉ์ ํ์ง์ ์ง์ ํ๊ฐํฉ๋๋ค. ๋ํ ์๊ธฐ ๋นํ, ์ํธ ๋นํ, ๋ฐ๋ณต์ ๋นํ๊ณผ ๊ฐ์ ์์๋ค์ ํฌํจํ์ฌ ๊ณ ๊ธ ์ถ๋ก ๋ชจ๋ธ๊ณผ ์ผ๋ฐ์ ์ธ ๋ชจ๋ธ์ ๋ฅ๋ ฅ ์ฐจ์ด๋ฅผ ๋ช ํํ ๊ตฌ๋ถํ ์ ์๊ฒ ํ์ต๋๋ค.
์ฐ๊ตฌ์ง์ 8๊ฐ์ ๋์ ์ ์ธ ์ถ๋ก ๊ณผ์ ๋ฅผ ํตํด ์ด ๋ฒค์น๋งํฌ๋ฅผ ๊ตฌํํ๋๋ฐ, ์ด ์ค ํฅ๋ฏธ๋ก์ด ์ ์ ์ผ๋ฐ์ ์ธ ์ฌ๊ณ ๊ณผ์ ์์ฑ์์๋ ๋น์ทํ ์ฑ๋ฅ์ ๋ณด์ด๋ ๊ธฐ์กด LLM๋ค์ด ๋ชจ๋ ๋นํ ์๋๋ฆฌ์ค์์ advanced reasoning ๊ธฐ๋ฐ์ o1-mini ๋ชจ๋ธ๋ณด๋ค ํ์ ํ ๋ฎ์ ์ฑ๋ฅ์ ๋ณด์๋ค๋ ๊ฒ์ ๋๋ค. ๋์ฑ์ด ์๊ธฐ ๋นํ๊ณผ ๋ฐ๋ณต์ ๋นํ ์ํฉ์์๋ ๊ธฐ์กด LLM๋ค์ ์ฑ๋ฅ์ด ๊ธฐ๋ณธ ๋ฅ๋ ฅ๋ณด๋ค๋ ๋จ์ด์ง๋ ๊ฒฝ์ฐ๊ฐ ์์์ต๋๋ค.
์ด ๋ฒค์น๋งํฌ๋ ์์ผ๋ก LLM์ ๋นํ ๋ฅ๋ ฅ ๋ฐ์ ์ ์ด๋๋ ์ค์ํ ๋๊ตฌ๊ฐ ๋ ๊ฒ์ผ๋ก ๊ธฐ๋๋ฉ๋๋ค.
์ด ๋ ผ๋ฌธ์ Atla Selene Mini๋ผ๋ ์๋ก์ด ์ํ ์ธ์ด ๋ชจ๋ธ ํ๊ฐ๊ธฐ(SLMJ)๋ฅผ ์๊ฐํฉ๋๋ค.
Selene Mini๋ 8B ๊ท๋ชจ์ ๋ชจ๋ธ๋ก, ์ ๋ ์ ์ ๋งค๊ธฐ๊ธฐ(absolute benchmarks), ๋ถ๋ฅ(classification benchmarks), ์๋ ๋น๊ต(pairwise benchmarks) ๋ฑ์ ํฌํจํ 11๊ฐ์ ๋ค์ํ ํ๊ฐ ์์ ์์ ๊ธฐ์กด์ ์ํ ํ๊ฐ ๋ชจ๋ธ๋ค๊ณผ GPT-4o-mini๋ฅผ ๋ฅ๊ฐํ๋ ์ฑ๋ฅ์ ๋ณด์ฌ์ค๋๋ค. ํนํ RewardBench๋ผ๋ ํ๊ฐ ์งํ์์ GPT-4o์ ๊ฐ์ ๊ฐ๋ ฅํ ๋ชจ๋ธ๋ค๋ณด๋ค ๋ ๋์ ์ ์๋ฅผ ๊ธฐ๋กํ์ต๋๋ค.
์ฐ๊ตฌ์ง์ ์ด๋ฐ ์ฑ๊ณผ๋ฅผ ๋ฌ์ฑํ๊ธฐ ์ํด ์ธ ๊ฐ์ง ํต์ฌ ์ ๋ต์ ์ฌ์ฉํ์ต๋๋ค. ๋จผ์ , ๊ณต๊ฐ ๋ฐ์ดํฐ์ ์ ์ธ๊ณต์ ์ผ๋ก ์์ฑํ ๋นํ์ผ๋ก ๋ณด๊ฐํ๊ณ ์๊ฒฉํ ํ์ง ๊ด๋ฆฌ๋ฅผ ํตํด ์ ์ ํ์ต๋๋ค. ๋์งธ, ์ง์ ์ ํธ๋ ์ต์ ํ(Direct Preference Optimization)์ ์ง๋ ๋ฏธ์ธ์กฐ์ (Supervised Fine-tuning)์ ๊ฒฐํฉํ ํน๋ณํ ํ์ต ๋ฐฉ์์ ์ ์ฉํ์ต๋๋ค. ๋ง์ง๋ง์ผ๋ก, ๋ค์ํ ํ๋กฌํํธ ํ์์๋ ์์ ์ ์ผ๋ก ์๋ํ๋๋ก ์ค๊ณํ์ต๋๋ค.
์ค์ Selene Mini๋ ๊ธ์ต๊ณผ ์๋ฃ ๋ถ์ผ์ ์ ๋ฌธ๊ฐ ํ๊ฐ์ ๋์ ์ผ์น๋๋ฅผ ๋ณด์์ผ๋ฉฐ, Judge Arena๋ผ๋ ์ปค๋ฎค๋ํฐ ๊ธฐ๋ฐ ํ๊ฐ ํ๋ซํผ์์๋ ์ต๊ณ ์์๋ฅผ ๊ธฐ๋กํ์ต๋๋ค. ํ์ฌ ์ด ๋ชจ๋ธ๋ค์ HuggingFace์ Ollama ํ๋ซํผ์์ ์ฌ์ฉํ ์ ์์ต๋๋ค.

์ด ๋ ผ๋ฌธ์ 'CoRAG'๋ผ๋ ์๋ก์ด ์ ๋ณด ๊ฒ์ ๋ฐ ๋ต๋ณ ์์ฑ ๋ชจ๋ธ์ ์๊ฐํฉ๋๋ค.
๊ธฐ์กด์ RAG(Retrieval Augmented Generation) ๋ชจ๋ธ๋ค์ ๋ต๋ณ์ ์์ฑํ๊ธฐ ์ ์ ๋จ ํ ๋ฒ์ ์ ๋ณด ๊ฒ์๋ง์ ์ํํฉ๋๋ค. ์ด๋ ๋ณต์กํ ์ง๋ฌธ์ ๋ํด ํจ๊ณผ์ ์ผ๋ก ๋์ํ๊ธฐ ์ด๋ ต๋ค๋ ํ๊ณ๊ฐ ์์์ต๋๋ค.
์ด์ ๋ฐํด CoRAG๋ '๋จ๊ณ์ ๊ฒ์ ์ฒด์ธ' ๋ฐฉ์์ ๋์ ํ์ต๋๋ค. ์ง๋ฌธ์ ๋ํ ๋ต์ ์ฐพ๋ ๊ณผ์ ์์ ์ด์ ๊ฒ์ ๊ฒฐ๊ณผ๋ฅผ ๋ฐํ์ผ๋ก ์๋ก์ด ๊ฒ์ ์ฟผ๋ฆฌ๋ฅผ ๋ง๋ค์ด๋ด๋ฉฐ, ์ด๋ฅผ ํตํด ๋ ์ ํํ ์ ๋ณด๋ฅผ ๋จ๊ณ์ ์ผ๋ก ์์งํ ์ ์์ต๋๋ค. CoRAG๋ฅผ ํ์ต์ํค๊ธฐ ์ํด ์ฐ๊ตฌ์ง์ 'rejection sampling' ๊ธฐ๋ฒ์ ํ์ฉํ์ต๋๋ค. ์ด ๋ฐฉ๋ฒ์ผ๋ก ์ค๊ฐ ๊ฒ์ ๋จ๊ณ๋ค์ ์๋์ผ๋ก ์์ฑํ์ฌ, ์ต์ข ๋ต๋ณ๋ง ์ ๊ณตํ๋ ๊ธฐ์กด ๋ฐ์ดํฐ์ ์ ๋ณด๊ฐํ์ต๋๋ค.
์คํ ๊ฒฐ๊ณผ, CoRAG๋ ํนํ ์ฌ๋ฌ ๋จ๊ณ์ ์ถ๋ก ์ด ํ์ํ ์ง๋ฌธ์์ ๊ธฐ์กด ๋ชจ๋ธ๋ค๋ณด๋ค 10์ ์ด์ ๋์ ์ฑ๋ฅ์ ๋ณด์์ต๋๋ค. KILT ๋ฒค์น๋งํฌ์์๋ ๋ค์ํ ์ง์ ๊ธฐ๋ฐ ํ์คํฌ์์ ์ต๊ณ ์ฑ๋ฅ์ ๋ฌ์ฑํ์ต๋๋ค.

์ด ๋ ผ๋ฌธ์ 'Baichuan-Omni-1.5'๋ผ๋ ์๋ก์ด 'omni-modal large model'์ ์๊ฐํฉ๋๋ค. ์ด ๋ชจ๋ธ์ ๋ค์ํ ํํ์ ์ ๋ณด(ํ ์คํธ, ์ด๋ฏธ์ง, ์ค๋์ค ๋ฑ)๋ฅผ ์ดํดํ ๋ฟ๋ง ์๋๋ผ, ์์ฑ๋ ์ง์ ์์ฑํ ์ ์์ต๋๋ค.
์ฐ๊ตฌ์ง์ ๋ชจ๋ ํํ์ ์ ๋ณด๋ฅผ ์์ฐ์ค๋ฝ๊ณ ๋์ ํ์ง๋ก ์ฒ๋ฆฌํ๊ธฐ ์ํด ์ธ ๊ฐ์ง ํต์ฌ ์์์ ์ง์คํ์ต๋๋ค. ์ฒซ์งธ, ์ฝ 500B ๊ท๋ชจ์ ๊ณ ํ์ง ๋ฉํฐ๋ชจ๋ฌ ๋ฐ์ดํฐ(ํ ์คํธ, ์ค๋์ค, ์ด๋ฏธ์ง)๋ฅผ ํ๋ณดํ๊ธฐ ์ํ ํฌ๊ด์ ์ธ ๋ฐ์ดํฐ ์ ์ ๋ฐ ํฉ์ฑ ํ์ดํ๋ผ์ธ์ ๊ตฌ์ถํ์ต๋๋ค. ๋์งธ, 'Baichuan-Audio-Tokenizer'๋ผ๋ ํน๋ณํ ์ค๋์ค ํ ํฌ๋์ด์ ๋ฅผ ๊ฐ๋ฐํ์ต๋๋ค. ์ด๋ ์์ฑ์์ ์๋ฏธ์ ์ ๋ณด์ ์ํฅ์ ์ ๋ณด๋ฅผ ๋ชจ๋ ํฌ์ฐฉํ์ฌ, ๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ๊ณผ์ ์ํํ ํตํฉ์ ๊ฐ๋ฅํ๊ฒ ํฉ๋๋ค. ์ ์งธ, ๋ค๋จ๊ณ ํ์ต ์ ๋ต์ ์ค๊ณํ์ต๋๋ค. ์ด๋ ์ฌ๋ฌ ํํ์ ์ ๋ณด ๊ฐ ์ ๋ ฌ๊ณผ ๋ค์ค ์์ ๋ฏธ์ธ ์กฐ์ ์ ๋จ๊ณ์ ์ผ๋ก ํตํฉํ์ฌ, ๋ชจ๋ ๋ชจ๋ฌ๋ฆฌํฐ ๊ฐ์ ํจ๊ณผ์ ์ธ ์๋์ง๋ฅผ ๋ณด์ฅํฉ๋๋ค.
์คํ ๊ฒฐ๊ณผ, Baichuan-Omni-1.5๋ GPT4o-mini์ MiniCPM-o 2.6์ ๊ฐ์ ์ต์ ๋ชจ๋ธ๋ค์ ๋ฅ๊ฐํ๋ ์ข ํฉ์ ์ธ ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ์์ต๋๋ค. ํนํ ๋ค์ํ ๋ฉํฐ๋ชจ๋ฌ ์๋ฃ ๋ฒค์น๋งํฌ์์ Qwen2-VL-72B์ ๊ฐ์ ์ ๋์ ์ธ ๋ชจ๋ธ๋ค๊ณผ ๋น์ทํ ์์ค์ ์ฑ๋ฅ์ ๋ฌ์ฑํ์ต๋๋ค.
์ด ๋ ผ๋ฌธ์ ์ปจํ ์คํธ ๊ธธ์ด๋ฅผ 100๋ง ํ ํฐ๊น์ง ํ์ฅํ 'Qwen2.5-1M' ์๋ฆฌ์ฆ ๋ชจ๋ธ์ ์๊ฐํฉ๋๋ค.
๊ธฐ์กด 128K ๋ฒ์ ๊ณผ ๋น๊ตํด, Qwen2.5-1M์ ๊ธด ์ปจํ ์คํธ ์ฌ์ ํ์ต๊ณผ ํ์ ํ์ต์ ํตํด ๊ธด ๋งฅ๋ฝ์ ์ฒ๋ฆฌํ๋ ๋ฅ๋ ฅ์ ํฌ๊ฒ ํฅ์์์ผฐ์ต๋๋ค. ์ฐ๊ตฌ์ง์ ๊ธด ๋ฐ์ดํฐ ํฉ์ฑ, ์ ์ง์ ์ฌ์ ํ์ต, ๋ค๋จ๊ณ ์ง๋ ํ์ต ๋ฑ์ ํต์ฌ ๊ธฐ์ ์ ํ์ฉํ์ฌ ํ์ต ๋น์ฉ์ ์ค์ด๋ฉด์ ๊ธด ์ปจํ ์คํธ ์ฒ๋ฆฌ ์ฑ๋ฅ์ ํฅ์์์ผฐ์ต๋๋ค.
๋ ๋ง์ ์ฌ์ฉ์๋ค์ด ๊ธด ์ปจํ ์คํธ ๋ชจ๋ธ์ ํ์ฉํ ์ ์๋๋ก ์ถ๋ก ํ๋ ์์ํฌ๋ ๊ณต๊ฐํ์ต๋๋ค. ์ด ํ๋ ์์ํฌ๋ ์ถ๊ฐ ํ์ต ์์ด๋ ๋ชจ๋ธ์ ์ปจํ ์คํธ ๊ธธ์ด๋ฅผ ์ต์ 4๋ฐฐ ์ด์ ํ์ฅํ ์ ์๋ ๊ธธ์ด ์ธ์ฝ๋ฒ์ ํฌํจํฉ๋๋ค. ๋ํ ์ถ๋ก ๋น์ฉ์ ์ค์ด๊ธฐ ์ํด 'sparse attention method'๊ณผ 'chunked prefill optimization'๋ฅผ ๊ตฌํํ์ต๋๋ค.
์ถ๋ก ์์ง์์๋ ์ปค๋ ์ต์ ํ, ํ์ดํ๋ผ์ธ ๋ณ๋ ฌํ, ์ค์ผ์ค๋ง ์ต์ ํ ๋ฑ์ ํตํด ์ ๋ฐ์ ์ธ ์ถ๋ก ์ฑ๋ฅ์ ํฌ๊ฒ ํฅ์์์ผฐ์ต๋๋ค. ์ด๋ฅผ ํตํด 100๋ง ํ ํฐ์ ์ปจํ ์คํธ๋ฅผ ์ฒ๋ฆฌํ ๋ 3~7๋ฐฐ ๋น ๋ฅธ prefill ์๋๋ฅผ ๋ฌ์ฑํ์ต๋๋ค.
Qwen2.5-1M ์๋ฆฌ์ฆ๋ ํ์ฌ ์คํ์์ค ๋ชจ๋ธ์ธ Qwen2.5-7B-Instruct-1M, Qwen2.5-14B-Instruct-1M๊ณผ API ์ ๊ทผ์ด ๊ฐ๋ฅํ Qwen2.5-Turbo๋ฅผ ํฌํจํฉ๋๋ค. ํ๊ฐ ๊ฒฐ๊ณผ, ์ด ๋ชจ๋ธ๋ค์ ์งง์ ์ปจํ ์คํธ์์์ ์ฑ๋ฅ์ ์ ์งํ๋ฉด์ ๊ธด ์ปจํ ์คํธ ์์ ์์ ํฐ ํฅ์์ ๋ณด์์ต๋๋ค. ํนํ Qwen2.5-14B-Instruct-1M ๋ชจ๋ธ์ ๊ธด ์ปจํ ์คํธ ์์ ์์ GPT-4o-mini๋ฅผ ํฌ๊ฒ ์์ฐ๊ณ , 8๋ฐฐ ๋ ๊ธด ์ปจํ ์คํธ๋ฅผ ์ง์ํฉ๋๋ค.
์ด ๋ ผ๋ฌธ์ ๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ(LLM)์ ์์ ์ฑ์ ๋ณด์ฅํ๊ธฐ ์ํ ์๋ก์ด ๋ณดํธ ์ฅ์น 'GuardReasoner'๋ฅผ ์๊ฐํฉ๋๋ค.
LLM์ด ์์ ์ ์ค์ํ ์ ํ๋ฆฌ์ผ์ด์ ์ ์ ์ ๋ ๋ง์ด ์ฌ์ฉ๋จ์ ๋ฐ๋ผ, ๋ณดํธ ์ฅ์น๋ฅผ ํตํ ์์ ์ฑ ํ๋ณด๊ฐ ํต์ฌ ๊ณผ์ ๋ก ๋๋๋๊ณ ์์ต๋๋ค. GuardReasoner๋ ๋ณดํธ ๋ชจ๋ธ์ด ์ถ๋ก ํ๋ ๋ฐฉ๋ฒ์ ํ์ตํ๋๋ก ์ ๋ํ๋ ๋ฐฉ์์ผ๋ก ์ด ๋ฌธ์ ์ ์ ๊ทผํฉ๋๋ค.
์ฐ๊ตฌ์ง์ ๋จผ์ 12.7๋ง ๊ฐ์ ์ํ๊ณผ 46๋ง ๊ฐ์ ์์ธํ ์ถ๋ก ๋จ๊ณ๋ฅผ ํฌํจํ๋ 'GuardReasonerTrain' ๋ฐ์ดํฐ์ ์ ๋ง๋ค์์ต๋๋ค. ์ดํ ์ถ๋ก SFT(supervised fine-tuning)๋ฅผ ๋์ ํ์ฌ ๋ณดํธ ๋ชจ๋ธ์ ์ถ๋ก ๋ฅ๋ ฅ์ ํฅ์์์ผฐ๊ณ , ์ด๋ ค์ด ์ํ์ ๋ํ DPO(direct preference optimization)๋ฅผ ํตํด ์ถ๋ก ๋ฅ๋ ฅ์ ๋์ฑ ๊ฐํํ์ต๋๋ค.
์คํ ๊ฒฐ๊ณผ, GuardReasoner๋ ์ฑ๋ฅ, ์ค๋ช ๊ฐ๋ฅ์ฑ, ์ผ๋ฐํ ๋ฅ๋ ฅ ๋ชจ๋ ๋ฉด์์ ์ฐ์ํ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ฌ์ฃผ์์ต๋๋ค. 3๊ฐ์ง ๋ณดํธ ์ฅ์น ์์ ์ 13๊ฐ ๋ฒค์น๋งํฌ์์ ์งํ๋ ๊ด๋ฒ์ํ ์คํ์์, GuardReasoner 8B๋ GPT-4o+CoT๋ณด๋ค 5.74%, LLaMA Guard 3 8B๋ณด๋ค 20.84% ๋์ F1 ์ ์๋ฅผ ๋ฌ์ฑํ์ต๋๋ค.
ํด๋น ์ฐ๊ตฌ๊ฒฐ๊ณผ๋ ๋ค์ํ ๊ท๋ชจ(1B, 3B, 8B)์ GuardReasoner ๋ชจ๋ธ, ํ์ต ๋ฐ์ดํฐ์ ์ฝ๋๋ฅผ ํตํด์ ํ์ธํด๋ณผ ์ ์์ต๋๋ค.

์ด ๋ ผ๋ฌธ์ ๊ธฐ์ด ๋ชจ๋ธ์ ๋ ๊ฐ์ง ์ฃผ์ ํ์ ํ์ต ๊ธฐ๋ฒ์ธ ์ง๋ ๋ฏธ์ธ ์กฐ์ (SFT)๊ณผ ๊ฐํํ์ต(RL)์ ์ผ๋ฐํ ๋ฅ๋ ฅ ์ฐจ์ด๋ฅผ ์ฐ๊ตฌํ์ต๋๋ค.
์ฐ๊ตฌ์ง์ 'GeneralPoints'๋ผ๋ ์ฐ์ ์ถ๋ก ์นด๋ ๊ฒ์๊ณผ 'V-IRL'์ด๋ผ๋ ์ค์ ๋ด๋น๊ฒ์ด์ ํ๊ฒฝ์ ํ์ฉํ์ฌ, SFT์ RL๋ก ํ์ต๋ ๋ชจ๋ธ๋ค์ด ํ ์คํธ์ ์๊ฐ์ ์์ญ์์ ์ฒ์ ๋ณด๋ ๋ณํ์ ์ผ๋ง๋ ์ ๋์ํ๋์ง ํ๊ฐํ์ต๋๋ค.
์ฐ๊ตฌ ๊ฒฐ๊ณผ, ํนํ ๊ฒฐ๊ณผ ๊ธฐ๋ฐ ๋ณด์์ ์ฌ์ฉํ RL์ ๊ท์น ๊ธฐ๋ฐ ํ ์คํธ์ ์๊ฐ์ ๋ณํ ๋ชจ๋์์ ์ฐ์ํ ์ผ๋ฐํ ๋ฅ๋ ฅ์ ๋ณด์ฌ์ฃผ์์ต๋๋ค. ๋ฐ๋ฉด SFT๋ ํ์ต ๋ฐ์ดํฐ๋ฅผ ๋จ์ ์๊ธฐํ๋ ๊ฒฝํฅ์ด ์์ด, ํ์ตํ์ง ์์ ์๋ก์ด ์ํฉ์์๋ ์ด๋ ค์์ ๊ฒช์์ต๋๋ค. ๋ ๊น์ ๋ถ์ ๊ฒฐ๊ณผ, RL์ ๋ชจ๋ธ์ ๊ธฐ๋ณธ์ ์ธ ์๊ฐ ์ธ์ ๋ฅ๋ ฅ๋ ํฅ์์ํค๋ ๊ฒ์ผ๋ก ๋ํ๋ฌ์ต๋๋ค.
ํ์ง๋ง RL์ ์ฐ์ํ ์ผ๋ฐํ ๋ฅ๋ ฅ์๋ ๋ถ๊ตฌํ๊ณ , SFT๋ ์ฌ์ ํ ์ค์ํ ์ญํ ์ ํฉ๋๋ค. SFT๋ ๋ชจ๋ธ์ ์ถ๋ ฅ ํ์์ ์์ ํ์์ผ ํ์ RL ํ์ต์ด ๋ ๋์ ์ฑ๋ฅ์ ๋ฌ์ฑํ ์ ์๋๋ก ๋์ต๋๋ค.
์ด ์ฐ๊ตฌ๋ ๋ณต์กํ๊ณ ๋ค์ํ ํํ์ ์ ๋ณด๋ฅผ ๋ค๋ฃจ๋ ์์ ์์ RL์ด ์ผ๋ฐํ ๊ฐ๋ฅํ ์ง์์ ์ต๋ํ๋ ๋ฐ ํจ๊ณผ์ ์์ ๋ณด์ฌ์ค๋๋ค.
์ด ๋ ผ๋ฌธ์ ๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ(LLM)์ ํ์ต ํจ์จ์ฑ์ ๋์ด๊ธฐ ์ํ ์๋ก์ด ๋ฐฉ๋ฒ์ ์ ์ํฉ๋๋ค. ํ์ฌ LLM์ ํ์ต์ํค๋ ๋ฐ์๋ ์์ฒญ๋ ์ปดํจํ ์์์ด ํ์ํ๋ฐ, ์ด๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ์ฐ๊ตฌ์ง์ 4๋นํธ ๋ถ๋์์์ (FP4) ๊ธฐ๋ฐ์ ํ์ต ํ๋ ์์ํฌ๋ฅผ ๊ฐ๋ฐํ์ต๋๋ค.
๊ธฐ์กด์๋ 8๋นํธ ๋ถ๋์์์ (FP8)๊น์ง๋ ์ฑ๊ณต์ ์ผ๋ก ์ฌ์ฉ๋์์ง๋ง, 4๋นํธ๋ก ๋ ์ค์ด๋ ๊ฒ์ ์ ๋ฐ๋ ์์ค ๋๋ฌธ์ ๋งค์ฐ ์ด๋ ค์ด ๊ณผ์ ์์ต๋๋ค. ์ฐ๊ตฌ์ง์ ์ด ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ๋ ๊ฐ์ง ํ์ ์ ์ธ ๊ธฐ์ ์ ๋์ ํ์ต๋๋ค. ์ฒซ์งธ๋ ๊ฐ์ค์น๋ฅผ ์ ํํ๊ฒ ์ ๋ฐ์ดํธํ ์ ์๋ 'differentiable quantization estimator'์ด๊ณ , ๋์งธ๋ ํ์ฑํ ๊ฐ์ด ๋ฌด๋์ง๋ ๊ฒ์ ๋ฐฉ์งํ๋ 'outlier clamping and compensation strategy'์ ๋๋ค.
์ฐ๊ตฌ ๊ฒฐ๊ณผ, ์ด ์๋ก์ด FP4 ํ๋ ์์ํฌ๋ ๊ธฐ์กด์ 16๋นํธ(BF16)๋ 8๋นํธ(FP8) ๋ฐฉ์๊ณผ ๋น์ทํ ์ ํ๋๋ฅผ ๋ฌ์ฑํ์ผ๋ฉฐ, 130์ต ๊ฐ์ ๋งค๊ฐ๋ณ์๋ฅผ ๊ฐ์ง ๋ํ ๋ชจ๋ธ๋ 1์ฒ์ต ๊ฐ์ ํ ํฐ์ผ๋ก ์์ ์ ์ผ๋ก ํ์ตํ ์ ์์์ต๋๋ค. ์ด๋ ์์ผ๋ก 4๋นํธ ์ฐ์ฐ์ ์ง์ํ๋ ์๋ก์ด ํ๋์จ์ด๊ฐ ๋ฑ์ฅํ ๋, ๋งค์ฐ ํจ์จ์ ์ธ AI ๋ชจ๋ธ ํ์ต์ด ๊ฐ๋ฅํด์ง ๊ฒ์์ ์์ฌํฉ๋๋ค.
์ด ๋ ผ๋ฌธ์ ์ธ์ด ๋ชจ๋ธ์ ํ์ต ๋ฐฉ์์ ๋ํ ์๋ก์ด ์ ๊ทผ๋ฒ์ ์ ์ํฉ๋๋ค. ๊ธฐ์กด์ ์ง๋ ๋ฏธ์ธ์กฐ์ (SFT) ๋ฐฉ์ ๋์ , ๋นํ ๊ธฐ๋ฐ ๋ฏธ์ธ์กฐ์ (CFT)์ด๋ผ๋ ์๋ก์ด ๋ฐฉ๋ฒ์ ์ ์ํ๊ณ ์์ต๋๋ค.
์ ํต์ ์ธ SFT ๋ฐฉ์์ ๋ชจ๋ธ์ด '์ ๋ต'์ ๋จ์ํ ๋ชจ๋ฐฉํ๋๋ก ํ๋ จํ๋ ๋ฐ๋ฉด, CFT๋ '๋ถ์ ํํ ๋ต๋ณ'์ ๋นํํ๊ณ ๋ถ์ํ๋ ๋ฐฉ์์ผ๋ก ํ์ต์ ์งํํฉ๋๋ค. ์ด๋ ๋ง์น ์ธ๊ฐ์ด ๋นํ์ ์ฌ๊ณ ๋ฅผ ํตํด ํ์ตํ๋ ๊ณผ์ ์ ๋ชจ๋ฐฉํ ๊ฒ์ ๋๋ค.
์ฐ๊ตฌํ์ ์ด ๋ฐฉ๋ฒ์ ํจ๊ณผ๋ฅผ ๊ฒ์ฆํ๊ธฐ ์ํด WebInstruct์์ 5๋ง ๊ฐ์ ์ํ์ ์ถ์ถํ๊ณ , GPT-4๋ฅผ ํ์ฉํด ๋นํ ๋ฐ์ดํฐ์ ์ ๊ตฌ์ถํ์ต๋๋ค. ์คํ ๊ฒฐ๊ณผ๋ ๋งค์ฐ ์ธ์์ ์ด์์ต๋๋ค. CFT๋ฅผ ์ ์ฉํ ๋ชจ๋ธ๋ค์ Qwen2.5, Qwen2.5-Math, DeepSeek-Math ๋ฑ ๋ค์ํ ๊ธฐ๋ณธ ๋ชจ๋ธ์์ ๊ธฐ์กด SFT ๋ฐฉ์๋ณด๋ค 4-10% ๋ ๋์ ์ฑ๋ฅ์ ๋ณด์์ต๋๋ค.
์ด ์ฐ๊ตฌ์ ์ฃผ๋ชฉํ ๋งํ ๊ฒฐ๊ณผ๋ ํจ์จ์ฑ์ ๋๋ค. Qwen2.5-Math-CFT ๋ชจ๋ธ์ ๋จ 8๋์ H100 GPU๋ก 1์๊ฐ๋ง ํ๋ จํ์์๋, 200๋ง ๊ฐ์ ์ํ๋ก ํ๋ จ๋ Qwen2.5-Math-Instruct์ ๋น์ทํ๊ฑฐ๋ ๋ ๋์ ์ฑ๋ฅ์ ๋ฌ์ฑํ์ต๋๋ค. ๋ํ 140๋ฐฐ ๋ ๋ง์ ์ปดํจํ ์์์ ์ฌ์ฉํ SimpleRL๊ณผ๋ ๋๋ฑํ ์ฑ๋ฅ์ ๋ณด์์ต๋๋ค.
์ถ๊ฐ ์คํ์ ํตํด CFT๋ ๋ถ์ ํํ ์๋ต์ ์ถ์ฒ๋ ๋นํ์ ์ ๊ณตํ๋ ๊ต์ฌ ๋ชจ๋ธ์ ์ข ๋ฅ์ ํฌ๊ฒ ์ํฅ์ ๋ฐ์ง ์๋๋ค๋ ๊ฒ๋ ํ์ธ๋์์ต๋๋ค. ์ด๋ฌํ ๊ฒฐ๊ณผ๋ค์ CFT๊ฐ ์ธ์ด ๋ชจ๋ธ์ ์ถ๋ก ๋ฅ๋ ฅ์ ํฅ์์ํค๋ ๋ ํจ๊ณผ์ ์ธ ๋ฐฉ๋ฒ์ด ๋ ์ ์์์ ๋ณด์ฌ์ค๋๋ค.