
TL;DR 1. Motivation 수학적 추론은 LLM에서 가장 어려운 영역 중 하나 (multi-step reasoning, symbolic structure 등) GPT-4, Gemini 같은 상용 모델은 강력하지만 open-source 모델은 큰 성능 격차 존

23년 Neurips에 publish된 논문 Direct Preference Optimization (a.k.a DPO)DPO는 RLHF의 핵심 objective를 그대로 유지하면서도 복잡했던 reward model 학습, PPO rollout loop 제거, 단순 B

기존 요약 모델은 supervised learning으로 학습하고 있었다. 하지만 이렇게 되면 실제로 학습하는 것과 우리가 원하는 것에 간극이 존재한다. 실제로 학습하는 것: maxizing likelihood of human-written text 우리가 원하는

Qwen3는 pretraining 단계에서부터 reasoning 친화적인 데이터를 설계하고, post-training에서 Long-CoT Cold Start → Reasoning RL → Thinking Mode Fusion → General RL의 단계적 학습을 통해