한줄 요약: SFT 없이 순수 RL만으로 자기검증, 반성, 긴 사고 과정이 자발적으로 출현하며, o1 수준 추론을 오픈 웨이트로 달성했다.
| 항목 | 내용 |
|---|---|
| 저자 | Daya Guo, Dejian Yang 외 |
| 소속 | DeepSeek-AI |
| 발표 | 2025.01 |
| 링크 | arxiv.org/abs/2501.12948 |
| 키워드 | Reasoning, Reinforcement Learning, Chain-of-Thought, Open-weight |
OpenAI o1은 추론 시점에 "더 오래 생각"하는 방식으로 수학/코딩에서 breakthrough 성능을 보여줬지만, 학습 방법론은 비공개다. 기존의 추론 모델 학습 정석은 "고품질 CoT 데이터로 SFT → RLHF"인데, 이 고품질 CoT 데이터를 대규모로 구축하는 것 자체가 병목이다.
핵심 연구 질문: SFT 없이, 규칙 기반 보상만으로 RL을 하면 추론 능력이 자발적으로 출현할 수 있는가?
기존 접근: 사전학습 → CoT SFT → RLHF → 추론 모델
R1-Zero: 사전학습 → RL (rule-based reward만) → 추론 모델
보상 함수가 핵심적으로 단순하다:
<think>...</think> 태그 안에 사고 과정을 작성했는지RL 알고리즘: GRPO (Group Relative Policy Optimization) — PPO의 변형으로 critic model 없이 그룹 내 상대 비교로 보상 정규화
R1-Zero의 불안정성(언어 혼합, 가독성 저하)을 해결하기 위해 다단계 파이프라인 구성:
Stage 1: Cold-start SFT
수천 개의 긴 CoT 예시로 초기 정렬 (가독성 확보)
Stage 2: 추론 중심 RL
수학/코딩/과학/논리 태스크에서 RL
→ 추론 능력 강화
Stage 3: Rejection Sampling + SFT
Stage 2 모델로 대량 솔루션 생성 → 정답만 필터링
+ 일반 태스크(글쓰기, 요약 등) 데이터 추가
→ SFT로 범용성 회복
Stage 4: 전체 RL
추론 + 일반 태스크 모두에서 최종 RL
→ Helpfulness + Harmlessness + 추론 능력 균형
R1의 추론 데이터를 소형 모델에 증류:
R1-Zero의 RL 학습 과정에서 명시적으로 가르치지 않은 행동들이 자발적으로 출현:
| 행동 | 예시 | 출현 시점 |
|---|---|---|
| 자기 검증 | "잠깐, 이 계산을 다시 확인해보자..." | RL 초기 |
| 반성 | "위의 접근은 틀렸다. 다른 방법을 시도하자" | RL 중기 |
| 탐색 | 여러 접근법을 시도하고 비교 | RL 중기 |
| Aha moment | 갑자기 추론 품질이 점프 | RL 중후기 |
| 긴 사고 | 응답 길이가 수천 토큰으로 증가 | RL 전 과정 |
| 벤치마크 | DeepSeek-R1 | OpenAI o1-1217 | Claude 3.5 Sonnet | GPT-4o |
|---|---|---|---|---|
| AIME 2024 (수학) | 79.8% | 79.2% | 16.0% | 9.3% |
| MATH-500 | 97.3% | 96.4% | 78.3% | 74.6% |
| Codeforces | 2,029 Elo | 2,061 Elo | 717 Elo | 759 Elo |
| GPQA Diamond | 71.5% | 75.7% | 65.0% | 49.9% |
| MMLU | 90.8% | 91.8% | 88.3% | 87.5% |
| LiveCodeBench | 65.9% | 63.4% (pass@1) | - | - |
| 모델 | AIME 2024 | MATH-500 | LiveCodeBench |
|---|---|---|---|
| QwQ-32B-Preview | 50.0% | 90.6% | 41.9% |
| o1-mini | 63.6% | 90.0% | 53.8% |
| R1-Distill-Qwen-32B | 72.6% | 94.3% | 57.2% |
| R1-Distill-Qwen-7B | 55.5% | 92.8% | 37.6% |
→ 7B 증류 모델이 o1-mini에 근접, 32B 증류 모델은 다수 벤치마크에서 o1-mini 초과
이 논문에서 가장 충격적인 부분은 R1-Zero다. "답이 맞으면 +1"이라는 primitive한 보상만으로 자기검증, 반성, 탐색이 자발적으로 출현한다는 것은, LLM 사전학습에서 이미 이런 능력의 "씨앗"이 존재한다는 것을 시사한다. RL은 새로운 능력을 가르친 것이 아니라, 잠재된 능력을 활성화한 것에 가깝다.
그러나 R1-Zero의 불안정성(언어 혼합, 가독성 저하) 때문에 결국 Cold-start SFT가 필요했다는 점은, "순수 RL만으로 충분하다"는 주장이 과장임을 보여준다. 최종 R1은 4단계 파이프라인을 거치며, 이는 기존 RLHF 파이프라인보다 오히려 복잡하다.
포트폴리오 관점에서 이 논문이 중요한 이유: inference-time compute scaling이 현재 LLM 연구의 가장 뜨거운 트렌드이며, 이 흐름을 이해하지 않고는 최신 AI 연구를 논할 수 없다.
관련 논문: Let's Verify Step by Step (PRM), Tree of Thoughts, OpenAI o1 System Card