[2025/W05] ๐Ÿค— Weekly AI Research

Skyยท2025๋…„ 2์›” 1์ผ

Weekly AI Research Digest

๋ชฉ๋ก ๋ณด๊ธฐ
5/89

2025๋…„ 5์ฃผ์ฐจ์— ๊ณต๊ฐœ๋œ ์ฃผ๋ชฉํ• ๋งŒํ•œ AI ๋ถ„์•ผ์˜ ๋…ผ๋ฌธ๋“ค์„ ์†Œ๊ฐœํ•ฉ๋‹ˆ๋‹ค.

ํ‰๊ฐ€/๋ฒค์น˜๋งˆํฌ ๊ด€๋ จ ๋ถ„์•ผ

Humanity's Last Exam

Paper, Project

์ด ๋…ผ๋ฌธ์€ ๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ(LLM)์˜ ์„ฑ๋Šฅ์„ ํ‰๊ฐ€ํ•˜๋Š” ์ƒˆ๋กœ์šด ๋ฒค์น˜๋งˆํฌ 'Humanity's Last Exam (HLE)'๋ฅผ ์†Œ๊ฐœํ•ฉ๋‹ˆ๋‹ค.

ํ˜„์žฌ MMLU์™€ ๊ฐ™์€ ๊ธฐ์กด ๋ฒค์น˜๋งˆํฌ๋“ค์€ LLM์ด 90% ์ด์ƒ์˜ ์ •ํ™•๋„๋ฅผ ๋ณด์ด๋ฉด์„œ ๋” ์ด์ƒ ์˜๋ฏธ ์žˆ๋Š” ํ‰๊ฐ€ ๋„๊ตฌ๋กœ ๊ธฐ๋Šฅํ•˜๊ธฐ ์–ด๋ ค์›Œ์กŒ์Šต๋‹ˆ๋‹ค. ์ด์— ๋Œ€ํ•œ ๋Œ€์•ˆ์œผ๋กœ ๊ฐœ๋ฐœ๋œ HLE๋Š” ์ธ๋ฅ˜ ์ง€์‹์˜ ์ตœ์ „์„ ์— ์žˆ๋Š” ๋ฌธ์ œ๋“ค๋กœ ๊ตฌ์„ฑ๋œ ์ข…ํ•ฉ์ ์ธ ํ‰๊ฐ€ ๋„๊ตฌ์ž…๋‹ˆ๋‹ค.

HLE๋Š” ์ˆ˜ํ•™, ์ธ๋ฌธํ•™, ์ž์—ฐ๊ณผํ•™ ๋“ฑ ๋‹ค์–‘ํ•œ ๋ถ„์•ผ์— ๊ฑธ์ณ 3,000๊ฐœ์˜ ๋ฌธ์ œ๋ฅผ ํฌํ•จํ•˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. ์ „ ์„ธ๊ณ„์˜ ๊ฐ ๋ถ„์•ผ ์ „๋ฌธ๊ฐ€๋“ค์ด ๊ฐœ๋ฐœ์— ์ฐธ์—ฌํ–ˆ์œผ๋ฉฐ, ๊ฐ๊ด€์‹๊ณผ ์ฃผ๊ด€์‹ ๋ฌธํ•ญ์œผ๋กœ ๊ตฌ์„ฑ๋˜์–ด ์ž๋™ ์ฑ„์ ์ด ๊ฐ€๋Šฅํ•ฉ๋‹ˆ๋‹ค. ๊ฐ ๋ฌธ์ œ๋Š” ๋ช…ํ™•ํ•œ ๋‹ต์ด ์žˆ๊ณ  ์‰ฝ๊ฒŒ ๊ฒ€์ฆํ•  ์ˆ˜ ์žˆ์ง€๋งŒ, ์ธํ„ฐ๋„ท ๊ฒ€์ƒ‰์œผ๋กœ๋Š” ๋น ๋ฅด๊ฒŒ ๋‹ต์„ ์ฐพ์„ ์ˆ˜ ์—†๋„๋ก ์„ค๊ณ„๋˜์—ˆ์Šต๋‹ˆ๋‹ค.

์—ฐ๊ตฌ ๊ฒฐ๊ณผ, ์ตœ์‹  LLM๋“ค๋„ HLE์—์„œ ๋‚ฎ์€ ์ •ํ™•๋„๋ฅผ ๋ณด์˜€์Šต๋‹ˆ๋‹ค. ์ด๋Š” ํ˜„์žฌ LLM ๊ธฐ์ˆ ๊ณผ ์ „๋ฌธ๊ฐ€ ์ˆ˜์ค€์˜ ์ธ๊ฐ„ ์ง€์‹ ์‚ฌ์ด์— ์•„์ง ์ƒ๋‹นํ•œ ๊ฒฉ์ฐจ๊ฐ€ ์žˆ์Œ์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.

RealCritic: Towards Effectiveness-Driven Evaluation of Language Model Critiques

Paper, Project

์ด ๋…ผ๋ฌธ์€ ๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ(LLM)์˜ ๋น„ํ‰ ๋Šฅ๋ ฅ์„ ํ‰๊ฐ€ํ•˜๊ธฐ ์œ„ํ•œ ์ƒˆ๋กœ์šด ๋ฒค์น˜๋งˆํฌ๋ฅผ ์†Œ๊ฐœํ•ฉ๋‹ˆ๋‹ค.

Critic์€ LLM์ด ์ž์‹ ์˜ ์„ฑ๋Šฅ์„ ๊ฐœ์„ ํ•˜๊ณ  ๋‹ค๋ฅธ ๋ชจ๋ธ์—๊ฒŒ ๊ฑด์„ค์ ์ธ ํ”ผ๋“œ๋ฐฑ์„ ์ œ๊ณตํ•˜๋Š” ๋ฐ ๋งค์šฐ ์ค‘์š”ํ•ฉ๋‹ˆ๋‹ค. ํ•˜์ง€๋งŒ Critic์ด๋ผ๋Š” ์ž‘์—…์˜ ์—ด๋ฆฐ ํŠน์„ฑ ๋•Œ๋ฌธ์—, LLM์˜ Critic ๋Šฅ๋ ฅ์„ ํ‰๊ฐ€ํ•˜๋Š” ๊ฒƒ์€ ์‰ฝ์ง€ ์•Š์•˜์Šต๋‹ˆ๋‹ค.

์ด ์—ฐ๊ตฌ์—์„œ ์ œ์•ˆํ•˜๋Š” ์ƒˆ๋กœ์šด ๋ฒค์น˜๋งˆํฌ๋Š” ๊ธฐ์กด์˜ 'Open-loop' ๋ฐฉ์‹๊ณผ ๋‹ฌ๋ฆฌ 'Closed-loop' ๋ฐฉ์‹์„ ์ฑ„ํƒํ–ˆ์Šต๋‹ˆ๋‹ค. ์ฆ‰, Critic์„ ํ†ตํ•ด ์ƒ์„ฑ๋œ ์ˆ˜์ • ๋‚ด์šฉ์˜ ํ’ˆ์งˆ์„ ์ง์ ‘ ํ‰๊ฐ€ํ•ฉ๋‹ˆ๋‹ค. ๋˜ํ•œ ์ž๊ธฐ ๋น„ํ‰, ์ƒํ˜ธ ๋น„ํ‰, ๋ฐ˜๋ณต์  ๋น„ํ‰๊ณผ ๊ฐ™์€ ์š”์†Œ๋“ค์„ ํฌํ•จํ•˜์—ฌ ๊ณ ๊ธ‰ ์ถ”๋ก  ๋ชจ๋ธ๊ณผ ์ผ๋ฐ˜์ ์ธ ๋ชจ๋ธ์˜ ๋Šฅ๋ ฅ ์ฐจ์ด๋ฅผ ๋ช…ํ™•ํžˆ ๊ตฌ๋ถ„ํ•  ์ˆ˜ ์žˆ๊ฒŒ ํ–ˆ์Šต๋‹ˆ๋‹ค.

์—ฐ๊ตฌ์ง„์€ 8๊ฐœ์˜ ๋„์ „์ ์ธ ์ถ”๋ก  ๊ณผ์ œ๋ฅผ ํ†ตํ•ด ์ด ๋ฒค์น˜๋งˆํฌ๋ฅผ ๊ตฌํ˜„ํ–ˆ๋Š”๋ฐ, ์ด ์ค‘ ํฅ๋ฏธ๋กœ์šด ์ ์€ ์ผ๋ฐ˜์ ์ธ ์‚ฌ๊ณ  ๊ณผ์ • ์ƒ์„ฑ์—์„œ๋Š” ๋น„์Šทํ•œ ์„ฑ๋Šฅ์„ ๋ณด์ด๋˜ ๊ธฐ์กด LLM๋“ค์ด ๋ชจ๋“  ๋น„ํ‰ ์‹œ๋‚˜๋ฆฌ์˜ค์—์„œ advanced reasoning ๊ธฐ๋ฐ˜์˜ o1-mini ๋ชจ๋ธ๋ณด๋‹ค ํ˜„์ €ํžˆ ๋‚ฎ์€ ์„ฑ๋Šฅ์„ ๋ณด์˜€๋‹ค๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. ๋”์šฑ์ด ์ž๊ธฐ ๋น„ํ‰๊ณผ ๋ฐ˜๋ณต์  ๋น„ํ‰ ์ƒํ™ฉ์—์„œ๋Š” ๊ธฐ์กด LLM๋“ค์˜ ์„ฑ๋Šฅ์ด ๊ธฐ๋ณธ ๋Šฅ๋ ฅ๋ณด๋‹ค๋„ ๋–จ์–ด์ง€๋Š” ๊ฒฝ์šฐ๊ฐ€ ์žˆ์—ˆ์Šต๋‹ˆ๋‹ค.

์ด ๋ฒค์น˜๋งˆํฌ๋Š” ์•ž์œผ๋กœ LLM์˜ ๋น„ํ‰ ๋Šฅ๋ ฅ ๋ฐœ์ „์„ ์ด๋„๋Š” ์ค‘์š”ํ•œ ๋„๊ตฌ๊ฐ€ ๋  ๊ฒƒ์œผ๋กœ ๊ธฐ๋Œ€๋ฉ๋‹ˆ๋‹ค.

Atla Selene Mini: A General Purpose Evaluation Model

Paper, Project

์ด ๋…ผ๋ฌธ์€ Atla Selene Mini๋ผ๋Š” ์ƒˆ๋กœ์šด ์†Œํ˜• ์–ธ์–ด ๋ชจ๋ธ ํ‰๊ฐ€๊ธฐ(SLMJ)๋ฅผ ์†Œ๊ฐœํ•ฉ๋‹ˆ๋‹ค.

Selene Mini๋Š” 8B ๊ทœ๋ชจ์˜ ๋ชจ๋ธ๋กœ, ์ ˆ๋Œ€ ์ ์ˆ˜ ๋งค๊ธฐ๊ธฐ(absolute benchmarks), ๋ถ„๋ฅ˜(classification benchmarks), ์Œ๋Œ€ ๋น„๊ต(pairwise benchmarks) ๋“ฑ์„ ํฌํ•จํ•œ 11๊ฐœ์˜ ๋‹ค์–‘ํ•œ ํ‰๊ฐ€ ์ž‘์—…์—์„œ ๊ธฐ์กด์˜ ์†Œํ˜• ํ‰๊ฐ€ ๋ชจ๋ธ๋“ค๊ณผ GPT-4o-mini๋ฅผ ๋Šฅ๊ฐ€ํ•˜๋Š” ์„ฑ๋Šฅ์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค. ํŠนํžˆ RewardBench๋ผ๋Š” ํ‰๊ฐ€ ์ง€ํ‘œ์—์„œ GPT-4o์™€ ๊ฐ™์€ ๊ฐ•๋ ฅํ•œ ๋ชจ๋ธ๋“ค๋ณด๋‹ค ๋” ๋†’์€ ์ ์ˆ˜๋ฅผ ๊ธฐ๋กํ–ˆ์Šต๋‹ˆ๋‹ค.

์—ฐ๊ตฌ์ง„์€ ์ด๋Ÿฐ ์„ฑ๊ณผ๋ฅผ ๋‹ฌ์„ฑํ•˜๊ธฐ ์œ„ํ•ด ์„ธ ๊ฐ€์ง€ ํ•ต์‹ฌ ์ „๋žต์„ ์‚ฌ์šฉํ–ˆ์Šต๋‹ˆ๋‹ค. ๋จผ์ €, ๊ณต๊ฐœ ๋ฐ์ดํ„ฐ์…‹์„ ์ธ๊ณต์ ์œผ๋กœ ์ƒ์„ฑํ•œ ๋น„ํ‰์œผ๋กœ ๋ณด๊ฐ•ํ•˜๊ณ  ์—„๊ฒฉํ•œ ํ’ˆ์งˆ ๊ด€๋ฆฌ๋ฅผ ํ†ตํ•ด ์ •์ œํ–ˆ์Šต๋‹ˆ๋‹ค. ๋‘˜์งธ, ์ง์ ‘ ์„ ํ˜ธ๋„ ์ตœ์ ํ™”(Direct Preference Optimization)์™€ ์ง€๋„ ๋ฏธ์„ธ์กฐ์ •(Supervised Fine-tuning)์„ ๊ฒฐํ•ฉํ•œ ํŠน๋ณ„ํ•œ ํ•™์Šต ๋ฐฉ์‹์„ ์ ์šฉํ–ˆ์Šต๋‹ˆ๋‹ค. ๋งˆ์ง€๋ง‰์œผ๋กœ, ๋‹ค์–‘ํ•œ ํ”„๋กฌํ”„ํŠธ ํ˜•์‹์—๋„ ์•ˆ์ •์ ์œผ๋กœ ์ž‘๋™ํ•˜๋„๋ก ์„ค๊ณ„ํ–ˆ์Šต๋‹ˆ๋‹ค.

์‹ค์ œ Selene Mini๋Š” ๊ธˆ์œต๊ณผ ์˜๋ฃŒ ๋ถ„์•ผ์˜ ์ „๋ฌธ๊ฐ€ ํ‰๊ฐ€์™€ ๋†’์€ ์ผ์น˜๋„๋ฅผ ๋ณด์˜€์œผ๋ฉฐ, Judge Arena๋ผ๋Š” ์ปค๋ฎค๋‹ˆํ‹ฐ ๊ธฐ๋ฐ˜ ํ‰๊ฐ€ ํ”Œ๋žซํผ์—์„œ๋„ ์ตœ๊ณ  ์ˆœ์œ„๋ฅผ ๊ธฐ๋กํ–ˆ์Šต๋‹ˆ๋‹ค. ํ˜„์žฌ ์ด ๋ชจ๋ธ๋“ค์€ HuggingFace์™€ Ollama ํ”Œ๋žซํผ์—์„œ ์‚ฌ์šฉํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

๋ชจ๋ธ ์•„ํ‚คํ…์ฒ˜/๊ธฐ๋Šฅ ๊ฐœ์„  ๋ถ„์•ผ

Chain-of-Retrieval Augmented Generation

Paper, Project

์ด ๋…ผ๋ฌธ์€ 'CoRAG'๋ผ๋Š” ์ƒˆ๋กœ์šด ์ •๋ณด ๊ฒ€์ƒ‰ ๋ฐ ๋‹ต๋ณ€ ์ƒ์„ฑ ๋ชจ๋ธ์„ ์†Œ๊ฐœํ•ฉ๋‹ˆ๋‹ค.

๊ธฐ์กด์˜ RAG(Retrieval Augmented Generation) ๋ชจ๋ธ๋“ค์€ ๋‹ต๋ณ€์„ ์ƒ์„ฑํ•˜๊ธฐ ์ „์— ๋‹จ ํ•œ ๋ฒˆ์˜ ์ •๋ณด ๊ฒ€์ƒ‰๋งŒ์„ ์ˆ˜ํ–‰ํ•ฉ๋‹ˆ๋‹ค. ์ด๋Š” ๋ณต์žกํ•œ ์งˆ๋ฌธ์— ๋Œ€ํ•ด ํšจ๊ณผ์ ์œผ๋กœ ๋Œ€์‘ํ•˜๊ธฐ ์–ด๋ ต๋‹ค๋Š” ํ•œ๊ณ„๊ฐ€ ์žˆ์—ˆ์Šต๋‹ˆ๋‹ค.

์ด์— ๋ฐ˜ํ•ด CoRAG๋Š” '๋‹จ๊ณ„์  ๊ฒ€์ƒ‰ ์ฒด์ธ' ๋ฐฉ์‹์„ ๋„์ž…ํ–ˆ์Šต๋‹ˆ๋‹ค. ์งˆ๋ฌธ์— ๋Œ€ํ•œ ๋‹ต์„ ์ฐพ๋Š” ๊ณผ์ •์—์„œ ์ด์ „ ๊ฒ€์ƒ‰ ๊ฒฐ๊ณผ๋ฅผ ๋ฐ”ํƒ•์œผ๋กœ ์ƒˆ๋กœ์šด ๊ฒ€์ƒ‰ ์ฟผ๋ฆฌ๋ฅผ ๋งŒ๋“ค์–ด๋‚ด๋ฉฐ, ์ด๋ฅผ ํ†ตํ•ด ๋” ์ •ํ™•ํ•œ ์ •๋ณด๋ฅผ ๋‹จ๊ณ„์ ์œผ๋กœ ์ˆ˜์ง‘ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. CoRAG๋ฅผ ํ•™์Šต์‹œํ‚ค๊ธฐ ์œ„ํ•ด ์—ฐ๊ตฌ์ง„์€ 'rejection sampling' ๊ธฐ๋ฒ•์„ ํ™œ์šฉํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด ๋ฐฉ๋ฒ•์œผ๋กœ ์ค‘๊ฐ„ ๊ฒ€์ƒ‰ ๋‹จ๊ณ„๋“ค์„ ์ž๋™์œผ๋กœ ์ƒ์„ฑํ•˜์—ฌ, ์ตœ์ข… ๋‹ต๋ณ€๋งŒ ์ œ๊ณตํ•˜๋Š” ๊ธฐ์กด ๋ฐ์ดํ„ฐ์…‹์„ ๋ณด๊ฐ•ํ–ˆ์Šต๋‹ˆ๋‹ค.

์‹คํ—˜ ๊ฒฐ๊ณผ, CoRAG๋Š” ํŠนํžˆ ์—ฌ๋Ÿฌ ๋‹จ๊ณ„์˜ ์ถ”๋ก ์ด ํ•„์š”ํ•œ ์งˆ๋ฌธ์—์„œ ๊ธฐ์กด ๋ชจ๋ธ๋“ค๋ณด๋‹ค 10์  ์ด์ƒ ๋†’์€ ์„ฑ๋Šฅ์„ ๋ณด์˜€์Šต๋‹ˆ๋‹ค. KILT ๋ฒค์น˜๋งˆํฌ์—์„œ๋Š” ๋‹ค์–‘ํ•œ ์ง€์‹ ๊ธฐ๋ฐ˜ ํƒœ์Šคํฌ์—์„œ ์ตœ๊ณ  ์„ฑ๋Šฅ์„ ๋‹ฌ์„ฑํ–ˆ์Šต๋‹ˆ๋‹ค.

Baichuan-Omni-1.5 Technical Report

Paper, Project

์ด ๋…ผ๋ฌธ์€ 'Baichuan-Omni-1.5'๋ผ๋Š” ์ƒˆ๋กœ์šด 'omni-modal large model'์„ ์†Œ๊ฐœํ•ฉ๋‹ˆ๋‹ค. ์ด ๋ชจ๋ธ์€ ๋‹ค์–‘ํ•œ ํ˜•ํƒœ์˜ ์ •๋ณด(ํ…์ŠคํŠธ, ์ด๋ฏธ์ง€, ์˜ค๋””์˜ค ๋“ฑ)๋ฅผ ์ดํ•ดํ•  ๋ฟ๋งŒ ์•„๋‹ˆ๋ผ, ์Œ์„ฑ๋„ ์ง์ ‘ ์ƒ์„ฑํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

์—ฐ๊ตฌ์ง„์€ ๋ชจ๋“  ํ˜•ํƒœ์˜ ์ •๋ณด๋ฅผ ์ž์—ฐ์Šค๋Ÿฝ๊ณ  ๋†’์€ ํ’ˆ์งˆ๋กœ ์ฒ˜๋ฆฌํ•˜๊ธฐ ์œ„ํ•ด ์„ธ ๊ฐ€์ง€ ํ•ต์‹ฌ ์š”์†Œ์— ์ง‘์ค‘ํ–ˆ์Šต๋‹ˆ๋‹ค. ์ฒซ์งธ, ์•ฝ 500B ๊ทœ๋ชจ์˜ ๊ณ ํ’ˆ์งˆ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๋ฐ์ดํ„ฐ(ํ…์ŠคํŠธ, ์˜ค๋””์˜ค, ์ด๋ฏธ์ง€)๋ฅผ ํ™•๋ณดํ•˜๊ธฐ ์œ„ํ•œ ํฌ๊ด„์ ์ธ ๋ฐ์ดํ„ฐ ์ •์ œ ๋ฐ ํ•ฉ์„ฑ ํŒŒ์ดํ”„๋ผ์ธ์„ ๊ตฌ์ถ•ํ–ˆ์Šต๋‹ˆ๋‹ค. ๋‘˜์งธ, 'Baichuan-Audio-Tokenizer'๋ผ๋Š” ํŠน๋ณ„ํ•œ ์˜ค๋””์˜ค ํ† ํฌ๋‚˜์ด์ €๋ฅผ ๊ฐœ๋ฐœํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” ์Œ์„ฑ์—์„œ ์˜๋ฏธ์  ์ •๋ณด์™€ ์Œํ–ฅ์  ์ •๋ณด๋ฅผ ๋ชจ๋‘ ํฌ์ฐฉํ•˜์—ฌ, ๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ๊ณผ์˜ ์›ํ™œํ•œ ํ†ตํ•ฉ์„ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•ฉ๋‹ˆ๋‹ค. ์…‹์งธ, ๋‹ค๋‹จ๊ณ„ ํ•™์Šต ์ „๋žต์„ ์„ค๊ณ„ํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” ์—ฌ๋Ÿฌ ํ˜•ํƒœ์˜ ์ •๋ณด ๊ฐ„ ์ •๋ ฌ๊ณผ ๋‹ค์ค‘ ์ž‘์—… ๋ฏธ์„ธ ์กฐ์ •์„ ๋‹จ๊ณ„์ ์œผ๋กœ ํ†ตํ•ฉํ•˜์—ฌ, ๋ชจ๋“  ๋ชจ๋‹ฌ๋ฆฌํ‹ฐ ๊ฐ„์˜ ํšจ๊ณผ์ ์ธ ์‹œ๋„ˆ์ง€๋ฅผ ๋ณด์žฅํ•ฉ๋‹ˆ๋‹ค.

์‹คํ—˜ ๊ฒฐ๊ณผ, Baichuan-Omni-1.5๋Š” GPT4o-mini์™€ MiniCPM-o 2.6์™€ ๊ฐ™์€ ์ตœ์‹  ๋ชจ๋ธ๋“ค์„ ๋Šฅ๊ฐ€ํ•˜๋Š” ์ข…ํ•ฉ์ ์ธ ์„ฑ๋Šฅ์„ ๋ณด์—ฌ์ฃผ์—ˆ์Šต๋‹ˆ๋‹ค. ํŠนํžˆ ๋‹ค์–‘ํ•œ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์˜๋ฃŒ ๋ฒค์น˜๋งˆํฌ์—์„œ Qwen2-VL-72B์™€ ๊ฐ™์€ ์„ ๋„์ ์ธ ๋ชจ๋ธ๋“ค๊ณผ ๋น„์Šทํ•œ ์ˆ˜์ค€์˜ ์„ฑ๋Šฅ์„ ๋‹ฌ์„ฑํ–ˆ์Šต๋‹ˆ๋‹ค.

Qwen2.5-1M Technical Report

Paper

์ด ๋…ผ๋ฌธ์€ ์ปจํ…์ŠคํŠธ ๊ธธ์ด๋ฅผ 100๋งŒ ํ† ํฐ๊นŒ์ง€ ํ™•์žฅํ•œ 'Qwen2.5-1M' ์‹œ๋ฆฌ์ฆˆ ๋ชจ๋ธ์„ ์†Œ๊ฐœํ•ฉ๋‹ˆ๋‹ค.

๊ธฐ์กด 128K ๋ฒ„์ „๊ณผ ๋น„๊ตํ•ด, Qwen2.5-1M์€ ๊ธด ์ปจํ…์ŠคํŠธ ์‚ฌ์ „ ํ•™์Šต๊ณผ ํ›„์† ํ•™์Šต์„ ํ†ตํ•ด ๊ธด ๋งฅ๋ฝ์„ ์ฒ˜๋ฆฌํ•˜๋Š” ๋Šฅ๋ ฅ์„ ํฌ๊ฒŒ ํ–ฅ์ƒ์‹œ์ผฐ์Šต๋‹ˆ๋‹ค. ์—ฐ๊ตฌ์ง„์€ ๊ธด ๋ฐ์ดํ„ฐ ํ•ฉ์„ฑ, ์ ์ง„์  ์‚ฌ์ „ ํ•™์Šต, ๋‹ค๋‹จ๊ณ„ ์ง€๋„ ํ•™์Šต ๋“ฑ์˜ ํ•ต์‹ฌ ๊ธฐ์ˆ ์„ ํ™œ์šฉํ•˜์—ฌ ํ•™์Šต ๋น„์šฉ์€ ์ค„์ด๋ฉด์„œ ๊ธด ์ปจํ…์ŠคํŠธ ์ฒ˜๋ฆฌ ์„ฑ๋Šฅ์€ ํ–ฅ์ƒ์‹œ์ผฐ์Šต๋‹ˆ๋‹ค.

๋” ๋งŽ์€ ์‚ฌ์šฉ์ž๋“ค์ด ๊ธด ์ปจํ…์ŠคํŠธ ๋ชจ๋ธ์„ ํ™œ์šฉํ•  ์ˆ˜ ์žˆ๋„๋ก ์ถ”๋ก  ํ”„๋ ˆ์ž„์›Œํฌ๋„ ๊ณต๊ฐœํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด ํ”„๋ ˆ์ž„์›Œํฌ๋Š” ์ถ”๊ฐ€ ํ•™์Šต ์—†์ด๋„ ๋ชจ๋ธ์˜ ์ปจํ…์ŠคํŠธ ๊ธธ์ด๋ฅผ ์ตœ์†Œ 4๋ฐฐ ์ด์ƒ ํ™•์žฅํ•  ์ˆ˜ ์žˆ๋Š” ๊ธธ์ด ์™ธ์‚ฝ๋ฒ•์„ ํฌํ•จํ•ฉ๋‹ˆ๋‹ค. ๋˜ํ•œ ์ถ”๋ก  ๋น„์šฉ์„ ์ค„์ด๊ธฐ ์œ„ํ•ด 'sparse attention method'๊ณผ 'chunked prefill optimization'๋ฅผ ๊ตฌํ˜„ํ–ˆ์Šต๋‹ˆ๋‹ค.

์ถ”๋ก  ์—”์ง„์—์„œ๋Š” ์ปค๋„ ์ตœ์ ํ™”, ํŒŒ์ดํ”„๋ผ์ธ ๋ณ‘๋ ฌํ™”, ์Šค์ผ€์ค„๋ง ์ตœ์ ํ™” ๋“ฑ์„ ํ†ตํ•ด ์ „๋ฐ˜์ ์ธ ์ถ”๋ก  ์„ฑ๋Šฅ์„ ํฌ๊ฒŒ ํ–ฅ์ƒ์‹œ์ผฐ์Šต๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด 100๋งŒ ํ† ํฐ์˜ ์ปจํ…์ŠคํŠธ๋ฅผ ์ฒ˜๋ฆฌํ•  ๋•Œ 3~7๋ฐฐ ๋น ๋ฅธ prefill ์†๋„๋ฅผ ๋‹ฌ์„ฑํ–ˆ์Šต๋‹ˆ๋‹ค.

Qwen2.5-1M ์‹œ๋ฆฌ์ฆˆ๋Š” ํ˜„์žฌ ์˜คํ”ˆ์†Œ์Šค ๋ชจ๋ธ์ธ Qwen2.5-7B-Instruct-1M, Qwen2.5-14B-Instruct-1M๊ณผ API ์ ‘๊ทผ์ด ๊ฐ€๋Šฅํ•œ Qwen2.5-Turbo๋ฅผ ํฌํ•จํ•ฉ๋‹ˆ๋‹ค. ํ‰๊ฐ€ ๊ฒฐ๊ณผ, ์ด ๋ชจ๋ธ๋“ค์€ ์งง์€ ์ปจํ…์ŠคํŠธ์—์„œ์˜ ์„ฑ๋Šฅ์€ ์œ ์ง€ํ•˜๋ฉด์„œ ๊ธด ์ปจํ…์ŠคํŠธ ์ž‘์—…์—์„œ ํฐ ํ–ฅ์ƒ์„ ๋ณด์˜€์Šต๋‹ˆ๋‹ค. ํŠนํžˆ Qwen2.5-14B-Instruct-1M ๋ชจ๋ธ์€ ๊ธด ์ปจํ…์ŠคํŠธ ์ž‘์—…์—์„œ GPT-4o-mini๋ฅผ ํฌ๊ฒŒ ์•ž์„ฐ๊ณ , 8๋ฐฐ ๋” ๊ธด ์ปจํ…์ŠคํŠธ๋ฅผ ์ง€์›ํ•ฉ๋‹ˆ๋‹ค.

์•ˆ์ „์„ฑ/๋ณด์•ˆ ๋ถ„์•ผ

GuardReasoner: Towards Reasoning-based LLM Safeguards

Paper, Project

์ด ๋…ผ๋ฌธ์€ ๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ(LLM)์˜ ์•ˆ์ „์„ฑ์„ ๋ณด์žฅํ•˜๊ธฐ ์œ„ํ•œ ์ƒˆ๋กœ์šด ๋ณดํ˜ธ ์žฅ์น˜ 'GuardReasoner'๋ฅผ ์†Œ๊ฐœํ•ฉ๋‹ˆ๋‹ค.

LLM์ด ์•ˆ์ „์— ์ค‘์š”ํ•œ ์• ํ”Œ๋ฆฌ์ผ€์ด์…˜์— ์ ์  ๋” ๋งŽ์ด ์‚ฌ์šฉ๋จ์— ๋”ฐ๋ผ, ๋ณดํ˜ธ ์žฅ์น˜๋ฅผ ํ†ตํ•œ ์•ˆ์ „์„ฑ ํ™•๋ณด๊ฐ€ ํ•ต์‹ฌ ๊ณผ์ œ๋กœ ๋Œ€๋‘๋˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. GuardReasoner๋Š” ๋ณดํ˜ธ ๋ชจ๋ธ์ด ์ถ”๋ก ํ•˜๋Š” ๋ฐฉ๋ฒ•์„ ํ•™์Šตํ•˜๋„๋ก ์œ ๋„ํ•˜๋Š” ๋ฐฉ์‹์œผ๋กœ ์ด ๋ฌธ์ œ์— ์ ‘๊ทผํ•ฉ๋‹ˆ๋‹ค.

์—ฐ๊ตฌ์ง„์€ ๋จผ์ € 12.7๋งŒ ๊ฐœ์˜ ์ƒ˜ํ”Œ๊ณผ 46๋งŒ ๊ฐœ์˜ ์ƒ์„ธํ•œ ์ถ”๋ก  ๋‹จ๊ณ„๋ฅผ ํฌํ•จํ•˜๋Š” 'GuardReasonerTrain' ๋ฐ์ดํ„ฐ์…‹์„ ๋งŒ๋“ค์—ˆ์Šต๋‹ˆ๋‹ค. ์ดํ›„ ์ถ”๋ก  SFT(supervised fine-tuning)๋ฅผ ๋„์ž…ํ•˜์—ฌ ๋ณดํ˜ธ ๋ชจ๋ธ์˜ ์ถ”๋ก  ๋Šฅ๋ ฅ์„ ํ–ฅ์ƒ์‹œ์ผฐ๊ณ , ์–ด๋ ค์šด ์ƒ˜ํ”Œ์— ๋Œ€ํ•œ DPO(direct preference optimization)๋ฅผ ํ†ตํ•ด ์ถ”๋ก  ๋Šฅ๋ ฅ์„ ๋”์šฑ ๊ฐ•ํ™”ํ–ˆ์Šต๋‹ˆ๋‹ค.

์‹คํ—˜ ๊ฒฐ๊ณผ, GuardReasoner๋Š” ์„ฑ๋Šฅ, ์„ค๋ช… ๊ฐ€๋Šฅ์„ฑ, ์ผ๋ฐ˜ํ™” ๋Šฅ๋ ฅ ๋ชจ๋“  ๋ฉด์—์„œ ์šฐ์ˆ˜ํ•œ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์—ฌ์ฃผ์—ˆ์Šต๋‹ˆ๋‹ค. 3๊ฐ€์ง€ ๋ณดํ˜ธ ์žฅ์น˜ ์ž‘์—…์˜ 13๊ฐœ ๋ฒค์น˜๋งˆํฌ์—์„œ ์ง„ํ–‰๋œ ๊ด‘๋ฒ”์œ„ํ•œ ์‹คํ—˜์—์„œ, GuardReasoner 8B๋Š” GPT-4o+CoT๋ณด๋‹ค 5.74%, LLaMA Guard 3 8B๋ณด๋‹ค 20.84% ๋†’์€ F1 ์ ์ˆ˜๋ฅผ ๋‹ฌ์„ฑํ–ˆ์Šต๋‹ˆ๋‹ค.

ํ•ด๋‹น ์—ฐ๊ตฌ๊ฒฐ๊ณผ๋Š” ๋‹ค์–‘ํ•œ ๊ทœ๋ชจ(1B, 3B, 8B)์˜ GuardReasoner ๋ชจ๋ธ, ํ•™์Šต ๋ฐ์ดํ„ฐ์™€ ์ฝ”๋“œ๋ฅผ ํ†ตํ•ด์„œ ํ™•์ธํ•ด๋ณผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

ํ•™์Šต/์ตœ์ ํ™” ๋ฐฉ๋ฒ•๋ก  ๋ถ„์•ผ

SFT Memorizes, RL Generalizes: A Comparative Study of Foundation Model Post-training

Paper, Project

์ด ๋…ผ๋ฌธ์€ ๊ธฐ์ดˆ ๋ชจ๋ธ์˜ ๋‘ ๊ฐ€์ง€ ์ฃผ์š” ํ›„์† ํ•™์Šต ๊ธฐ๋ฒ•์ธ ์ง€๋„ ๋ฏธ์„ธ ์กฐ์ •(SFT)๊ณผ ๊ฐ•ํ™”ํ•™์Šต(RL)์˜ ์ผ๋ฐ˜ํ™” ๋Šฅ๋ ฅ ์ฐจ์ด๋ฅผ ์—ฐ๊ตฌํ–ˆ์Šต๋‹ˆ๋‹ค.

์—ฐ๊ตฌ์ง„์€ 'GeneralPoints'๋ผ๋Š” ์‚ฐ์ˆ  ์ถ”๋ก  ์นด๋“œ ๊ฒŒ์ž„๊ณผ 'V-IRL'์ด๋ผ๋Š” ์‹ค์ œ ๋‚ด๋น„๊ฒŒ์ด์…˜ ํ™˜๊ฒฝ์„ ํ™œ์šฉํ•˜์—ฌ, SFT์™€ RL๋กœ ํ•™์Šต๋œ ๋ชจ๋ธ๋“ค์ด ํ…์ŠคํŠธ์™€ ์‹œ๊ฐ์  ์˜์—ญ์—์„œ ์ฒ˜์Œ ๋ณด๋Š” ๋ณ€ํ˜•์— ์–ผ๋งˆ๋‚˜ ์ž˜ ๋Œ€์‘ํ•˜๋Š”์ง€ ํ‰๊ฐ€ํ–ˆ์Šต๋‹ˆ๋‹ค.

์—ฐ๊ตฌ ๊ฒฐ๊ณผ, ํŠนํžˆ ๊ฒฐ๊ณผ ๊ธฐ๋ฐ˜ ๋ณด์ƒ์„ ์‚ฌ์šฉํ•œ RL์€ ๊ทœ์น™ ๊ธฐ๋ฐ˜ ํ…์ŠคํŠธ์™€ ์‹œ๊ฐ์  ๋ณ€ํ˜• ๋ชจ๋‘์—์„œ ์šฐ์ˆ˜ํ•œ ์ผ๋ฐ˜ํ™” ๋Šฅ๋ ฅ์„ ๋ณด์—ฌ์ฃผ์—ˆ์Šต๋‹ˆ๋‹ค. ๋ฐ˜๋ฉด SFT๋Š” ํ•™์Šต ๋ฐ์ดํ„ฐ๋ฅผ ๋‹จ์ˆœ ์•”๊ธฐํ•˜๋Š” ๊ฒฝํ–ฅ์ด ์žˆ์–ด, ํ•™์Šตํ•˜์ง€ ์•Š์€ ์ƒˆ๋กœ์šด ์ƒํ™ฉ์—์„œ๋Š” ์–ด๋ ค์›€์„ ๊ฒช์—ˆ์Šต๋‹ˆ๋‹ค. ๋” ๊นŠ์€ ๋ถ„์„ ๊ฒฐ๊ณผ, RL์€ ๋ชจ๋ธ์˜ ๊ธฐ๋ณธ์ ์ธ ์‹œ๊ฐ ์ธ์‹ ๋Šฅ๋ ฅ๋„ ํ–ฅ์ƒ์‹œํ‚ค๋Š” ๊ฒƒ์œผ๋กœ ๋‚˜ํƒ€๋‚ฌ์Šต๋‹ˆ๋‹ค.

ํ•˜์ง€๋งŒ RL์˜ ์šฐ์ˆ˜ํ•œ ์ผ๋ฐ˜ํ™” ๋Šฅ๋ ฅ์—๋„ ๋ถˆ๊ตฌํ•˜๊ณ , SFT๋Š” ์—ฌ์ „ํžˆ ์ค‘์š”ํ•œ ์—ญํ• ์„ ํ•ฉ๋‹ˆ๋‹ค. SFT๋Š” ๋ชจ๋ธ์˜ ์ถœ๋ ฅ ํ˜•์‹์„ ์•ˆ์ •ํ™”์‹œ์ผœ ํ›„์† RL ํ•™์Šต์ด ๋” ๋‚˜์€ ์„ฑ๋Šฅ์„ ๋‹ฌ์„ฑํ•  ์ˆ˜ ์žˆ๋„๋ก ๋•์Šต๋‹ˆ๋‹ค.

์ด ์—ฐ๊ตฌ๋Š” ๋ณต์žกํ•˜๊ณ  ๋‹ค์–‘ํ•œ ํ˜•ํƒœ์˜ ์ •๋ณด๋ฅผ ๋‹ค๋ฃจ๋Š” ์ž‘์—…์—์„œ RL์ด ์ผ๋ฐ˜ํ™” ๊ฐ€๋Šฅํ•œ ์ง€์‹์„ ์Šต๋“ํ•˜๋Š” ๋ฐ ํšจ๊ณผ์ ์ž„์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.

Optimizing Large Language Model Training Using FP4 Quantization

Paper

์ด ๋…ผ๋ฌธ์€ ๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ(LLM)์˜ ํ•™์Šต ํšจ์œจ์„ฑ์„ ๋†’์ด๊ธฐ ์œ„ํ•œ ์ƒˆ๋กœ์šด ๋ฐฉ๋ฒ•์„ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค. ํ˜„์žฌ LLM์„ ํ•™์Šต์‹œํ‚ค๋Š” ๋ฐ์—๋Š” ์—„์ฒญ๋‚œ ์ปดํ“จํŒ… ์ž์›์ด ํ•„์š”ํ•œ๋ฐ, ์ด๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด ์—ฐ๊ตฌ์ง„์€ 4๋น„ํŠธ ๋ถ€๋™์†Œ์ˆ˜์ (FP4) ๊ธฐ๋ฐ˜์˜ ํ•™์Šต ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ๊ฐœ๋ฐœํ–ˆ์Šต๋‹ˆ๋‹ค.

๊ธฐ์กด์—๋Š” 8๋น„ํŠธ ๋ถ€๋™์†Œ์ˆ˜์ (FP8)๊นŒ์ง€๋Š” ์„ฑ๊ณต์ ์œผ๋กœ ์‚ฌ์šฉ๋˜์—ˆ์ง€๋งŒ, 4๋น„ํŠธ๋กœ ๋” ์ค„์ด๋Š” ๊ฒƒ์€ ์ •๋ฐ€๋„ ์†์‹ค ๋•Œ๋ฌธ์— ๋งค์šฐ ์–ด๋ ค์šด ๊ณผ์ œ์˜€์Šต๋‹ˆ๋‹ค. ์—ฐ๊ตฌ์ง„์€ ์ด ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด ๋‘ ๊ฐ€์ง€ ํ˜์‹ ์ ์ธ ๊ธฐ์ˆ ์„ ๋„์ž…ํ–ˆ์Šต๋‹ˆ๋‹ค. ์ฒซ์งธ๋Š” ๊ฐ€์ค‘์น˜๋ฅผ ์ •ํ™•ํ•˜๊ฒŒ ์—…๋ฐ์ดํŠธํ•  ์ˆ˜ ์žˆ๋Š” 'differentiable quantization estimator'์ด๊ณ , ๋‘˜์งธ๋Š” ํ™œ์„ฑํ™” ๊ฐ’์ด ๋ฌด๋„ˆ์ง€๋Š” ๊ฒƒ์„ ๋ฐฉ์ง€ํ•˜๋Š” 'outlier clamping and compensation strategy'์ž…๋‹ˆ๋‹ค.

์—ฐ๊ตฌ ๊ฒฐ๊ณผ, ์ด ์ƒˆ๋กœ์šด FP4 ํ”„๋ ˆ์ž„์›Œํฌ๋Š” ๊ธฐ์กด์˜ 16๋น„ํŠธ(BF16)๋‚˜ 8๋น„ํŠธ(FP8) ๋ฐฉ์‹๊ณผ ๋น„์Šทํ•œ ์ •ํ™•๋„๋ฅผ ๋‹ฌ์„ฑํ–ˆ์œผ๋ฉฐ, 130์–ต ๊ฐœ์˜ ๋งค๊ฐœ๋ณ€์ˆ˜๋ฅผ ๊ฐ€์ง„ ๋Œ€ํ˜• ๋ชจ๋ธ๋„ 1์ฒœ์–ต ๊ฐœ์˜ ํ† ํฐ์œผ๋กœ ์•ˆ์ •์ ์œผ๋กœ ํ•™์Šตํ•  ์ˆ˜ ์žˆ์—ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” ์•ž์œผ๋กœ 4๋น„ํŠธ ์—ฐ์‚ฐ์„ ์ง€์›ํ•˜๋Š” ์ƒˆ๋กœ์šด ํ•˜๋“œ์›จ์–ด๊ฐ€ ๋“ฑ์žฅํ•  ๋•Œ, ๋งค์šฐ ํšจ์œจ์ ์ธ AI ๋ชจ๋ธ ํ•™์Šต์ด ๊ฐ€๋Šฅํ•ด์งˆ ๊ฒƒ์ž„์„ ์‹œ์‚ฌํ•ฉ๋‹ˆ๋‹ค.

Critique Fine-Tuning: Learning to Critique is More Effective than Learning to Imitate

Paper, Project

์ด ๋…ผ๋ฌธ์€ ์–ธ์–ด ๋ชจ๋ธ์˜ ํ•™์Šต ๋ฐฉ์‹์— ๋Œ€ํ•œ ์ƒˆ๋กœ์šด ์ ‘๊ทผ๋ฒ•์„ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค. ๊ธฐ์กด์˜ ์ง€๋„ ๋ฏธ์„ธ์กฐ์ •(SFT) ๋ฐฉ์‹ ๋Œ€์‹ , ๋น„ํ‰ ๊ธฐ๋ฐ˜ ๋ฏธ์„ธ์กฐ์ •(CFT)์ด๋ผ๋Š” ์ƒˆ๋กœ์šด ๋ฐฉ๋ฒ•์„ ์ œ์•ˆํ•˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค.

์ „ํ†ต์ ์ธ SFT ๋ฐฉ์‹์€ ๋ชจ๋ธ์ด '์ •๋‹ต'์„ ๋‹จ์ˆœํžˆ ๋ชจ๋ฐฉํ•˜๋„๋ก ํ›ˆ๋ จํ•˜๋Š” ๋ฐ˜๋ฉด, CFT๋Š” '๋ถ€์ •ํ™•ํ•œ ๋‹ต๋ณ€'์„ ๋น„ํ‰ํ•˜๊ณ  ๋ถ„์„ํ•˜๋Š” ๋ฐฉ์‹์œผ๋กœ ํ•™์Šต์„ ์ง„ํ–‰ํ•ฉ๋‹ˆ๋‹ค. ์ด๋Š” ๋งˆ์น˜ ์ธ๊ฐ„์ด ๋น„ํŒ์  ์‚ฌ๊ณ ๋ฅผ ํ†ตํ•ด ํ•™์Šตํ•˜๋Š” ๊ณผ์ •์„ ๋ชจ๋ฐฉํ•œ ๊ฒƒ์ž…๋‹ˆ๋‹ค.

์—ฐ๊ตฌํŒ€์€ ์ด ๋ฐฉ๋ฒ•์˜ ํšจ๊ณผ๋ฅผ ๊ฒ€์ฆํ•˜๊ธฐ ์œ„ํ•ด WebInstruct์—์„œ 5๋งŒ ๊ฐœ์˜ ์ƒ˜ํ”Œ์„ ์ถ”์ถœํ•˜๊ณ , GPT-4๋ฅผ ํ™œ์šฉํ•ด ๋น„ํ‰ ๋ฐ์ดํ„ฐ์…‹์„ ๊ตฌ์ถ•ํ–ˆ์Šต๋‹ˆ๋‹ค. ์‹คํ—˜ ๊ฒฐ๊ณผ๋Š” ๋งค์šฐ ์ธ์ƒ์ ์ด์—ˆ์Šต๋‹ˆ๋‹ค. CFT๋ฅผ ์ ์šฉํ•œ ๋ชจ๋ธ๋“ค์€ Qwen2.5, Qwen2.5-Math, DeepSeek-Math ๋“ฑ ๋‹ค์–‘ํ•œ ๊ธฐ๋ณธ ๋ชจ๋ธ์—์„œ ๊ธฐ์กด SFT ๋ฐฉ์‹๋ณด๋‹ค 4-10% ๋” ๋‚˜์€ ์„ฑ๋Šฅ์„ ๋ณด์˜€์Šต๋‹ˆ๋‹ค.

์ด ์—ฐ๊ตฌ์˜ ์ฃผ๋ชฉํ•  ๋งŒํ•œ ๊ฒฐ๊ณผ๋Š” ํšจ์œจ์„ฑ์ž…๋‹ˆ๋‹ค. Qwen2.5-Math-CFT ๋ชจ๋ธ์€ ๋‹จ 8๋Œ€์˜ H100 GPU๋กœ 1์‹œ๊ฐ„๋งŒ ํ›ˆ๋ จํ–ˆ์Œ์—๋„, 200๋งŒ ๊ฐœ์˜ ์ƒ˜ํ”Œ๋กœ ํ›ˆ๋ จ๋œ Qwen2.5-Math-Instruct์™€ ๋น„์Šทํ•˜๊ฑฐ๋‚˜ ๋” ๋‚˜์€ ์„ฑ๋Šฅ์„ ๋‹ฌ์„ฑํ–ˆ์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ 140๋ฐฐ ๋” ๋งŽ์€ ์ปดํ“จํŒ… ์ž์›์„ ์‚ฌ์šฉํ•œ SimpleRL๊ณผ๋„ ๋Œ€๋“ฑํ•œ ์„ฑ๋Šฅ์„ ๋ณด์˜€์Šต๋‹ˆ๋‹ค.

์ถ”๊ฐ€ ์‹คํ—˜์„ ํ†ตํ•ด CFT๋Š” ๋ถ€์ •ํ™•ํ•œ ์‘๋‹ต์˜ ์ถœ์ฒ˜๋‚˜ ๋น„ํ‰์„ ์ œ๊ณตํ•˜๋Š” ๊ต์‚ฌ ๋ชจ๋ธ์˜ ์ข…๋ฅ˜์— ํฌ๊ฒŒ ์˜ํ–ฅ์„ ๋ฐ›์ง€ ์•Š๋Š”๋‹ค๋Š” ๊ฒƒ๋„ ํ™•์ธ๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ๊ฒฐ๊ณผ๋“ค์€ CFT๊ฐ€ ์–ธ์–ด ๋ชจ๋ธ์˜ ์ถ”๋ก  ๋Šฅ๋ ฅ์„ ํ–ฅ์ƒ์‹œํ‚ค๋Š” ๋” ํšจ๊ณผ์ ์ธ ๋ฐฉ๋ฒ•์ด ๋  ์ˆ˜ ์žˆ์Œ์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.

profile
XR๊ณผ AI์— ๊ด€์‹ฌ์ด ๋งŽ์€ Sky ์ž…๋‹ˆ๋‹ค.

0๊ฐœ์˜ ๋Œ“๊ธ€