[논문 리뷰] DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

smj·2026년 3월 31일

review

목록 보기
1/30

한줄 요약: SFT 없이 순수 RL만으로 자기검증, 반성, 긴 사고 과정이 자발적으로 출현하며, o1 수준 추론을 오픈 웨이트로 달성했다.

항목내용
저자Daya Guo, Dejian Yang 외
소속DeepSeek-AI
발표2025.01
링크arxiv.org/abs/2501.12948
키워드Reasoning, Reinforcement Learning, Chain-of-Thought, Open-weight

1. 문제 정의

OpenAI o1은 추론 시점에 "더 오래 생각"하는 방식으로 수학/코딩에서 breakthrough 성능을 보여줬지만, 학습 방법론은 비공개다. 기존의 추론 모델 학습 정석은 "고품질 CoT 데이터로 SFT → RLHF"인데, 이 고품질 CoT 데이터를 대규모로 구축하는 것 자체가 병목이다.

핵심 연구 질문: SFT 없이, 규칙 기반 보상만으로 RL을 하면 추론 능력이 자발적으로 출현할 수 있는가?


2. 제안 방법

2.1 DeepSeek-R1-Zero (순수 RL)

기존 접근:    사전학습 → CoT SFT → RLHF → 추론 모델
R1-Zero:     사전학습 → RL (rule-based reward만) → 추론 모델

보상 함수가 핵심적으로 단순하다:

  • 정확성 보상: 최종 답이 정답이면 +1, 아니면 -1 (수학: 숫자 매칭, 코드: 테스트 통과)
  • 형식 보상: <think>...</think> 태그 안에 사고 과정을 작성했는지
  • "어떻게 생각하라"는 지시는 일체 없음

RL 알고리즘: GRPO (Group Relative Policy Optimization) — PPO의 변형으로 critic model 없이 그룹 내 상대 비교로 보상 정규화

2.2 DeepSeek-R1 (최종 모델)

R1-Zero의 불안정성(언어 혼합, 가독성 저하)을 해결하기 위해 다단계 파이프라인 구성:

Stage 1: Cold-start SFT
  수천 개의 긴 CoT 예시로 초기 정렬 (가독성 확보)

Stage 2: 추론 중심 RL
  수학/코딩/과학/논리 태스크에서 RL
  → 추론 능력 강화

Stage 3: Rejection Sampling + SFT
  Stage 2 모델로 대량 솔루션 생성 → 정답만 필터링
  + 일반 태스크(글쓰기, 요약 등) 데이터 추가
  → SFT로 범용성 회복

Stage 4: 전체 RL
  추론 + 일반 태스크 모두에서 최종 RL
  → Helpfulness + Harmlessness + 추론 능력 균형

2.3 증류 (Distillation)

R1의 추론 데이터를 소형 모델에 증류:

  • Qwen-2.5 (1.5B, 7B, 14B, 32B) 및 Llama-3 (8B, 70B) 기반
  • R1이 생성한 ~800K CoT 솔루션으로 SFT

3. 핵심 발견: 창발적 행동

R1-Zero의 RL 학습 과정에서 명시적으로 가르치지 않은 행동들이 자발적으로 출현:

행동예시출현 시점
자기 검증"잠깐, 이 계산을 다시 확인해보자..."RL 초기
반성"위의 접근은 틀렸다. 다른 방법을 시도하자"RL 중기
탐색여러 접근법을 시도하고 비교RL 중기
Aha moment갑자기 추론 품질이 점프RL 중후기
긴 사고응답 길이가 수천 토큰으로 증가RL 전 과정

4. 실험 결과

4.1 주요 벤치마크

벤치마크DeepSeek-R1OpenAI o1-1217Claude 3.5 SonnetGPT-4o
AIME 2024 (수학)79.8%79.2%16.0%9.3%
MATH-50097.3%96.4%78.3%74.6%
Codeforces2,029 Elo2,061 Elo717 Elo759 Elo
GPQA Diamond71.5%75.7%65.0%49.9%
MMLU90.8%91.8%88.3%87.5%
LiveCodeBench65.9%63.4% (pass@1)--

4.2 증류 모델 성과

모델AIME 2024MATH-500LiveCodeBench
QwQ-32B-Preview50.0%90.6%41.9%
o1-mini63.6%90.0%53.8%
R1-Distill-Qwen-32B72.6%94.3%57.2%
R1-Distill-Qwen-7B55.5%92.8%37.6%

7B 증류 모델이 o1-mini에 근접, 32B 증류 모델은 다수 벤치마크에서 o1-mini 초과


5. 한계점

  • R1-Zero의 가독성 문제: 언어가 뒤섞이고(영어 중간에 중국어 삽입), 형식 불안정 → 결국 Cold-start SFT 필요
  • 긴 응답: 사고 과정이 수천~수만 토큰 → 추론 비용 증가, 사용자 경험 저하
  • 범용성 한계: 수학/코딩 외 영역(창작, 요약, 일반 대화)에서의 개선은 제한적
  • 재현성 문제: 학습에 수천 GPU-hours, DeepSeek-V3 기반 모델 필요 → 대형 연구소만 재현 가능
  • 보상 해킹 가능성: 형식 보상만으로 학습 시, 올바른 추론 없이 형식만 갖추는 행동 관찰
  • Aha moment의 일반성: 항상 재현 가능한지, 특정 조건에서만 발생하는지 불확실
  • 안전성: 긴 사고 과정 안에서 유해한 추론이 이루어질 가능성 — 기존 안전성 기법으로 모니터링 어려움

6. 의의와 영향

  • 프론티어 추론 모델의 민주화: o1과 대등한 추론 능력을 오픈 웨이트로 공개
  • "RL만으로 추론이 창발한다": 이론적 이해는 부족하지만, 실증적 증거를 최초로 제시
  • 증류 모델의 실용성: 소형 모델(7B)도 증류로 강력한 추론 능력 확보 가능
  • 후속 연구 촉발: Kimi k1.5, QwQ, Llama-3.1 등 경쟁 추론 모델 출현
  • 연구 방향 제시: "더 많은 데이터" 대신 "더 나은 보상 설계"가 핵심 레버

7. 💬 리뷰어 코멘트

이 논문에서 가장 충격적인 부분은 R1-Zero다. "답이 맞으면 +1"이라는 primitive한 보상만으로 자기검증, 반성, 탐색이 자발적으로 출현한다는 것은, LLM 사전학습에서 이미 이런 능력의 "씨앗"이 존재한다는 것을 시사한다. RL은 새로운 능력을 가르친 것이 아니라, 잠재된 능력을 활성화한 것에 가깝다.

그러나 R1-Zero의 불안정성(언어 혼합, 가독성 저하) 때문에 결국 Cold-start SFT가 필요했다는 점은, "순수 RL만으로 충분하다"는 주장이 과장임을 보여준다. 최종 R1은 4단계 파이프라인을 거치며, 이는 기존 RLHF 파이프라인보다 오히려 복잡하다.

포트폴리오 관점에서 이 논문이 중요한 이유: inference-time compute scaling이 현재 LLM 연구의 가장 뜨거운 트렌드이며, 이 흐름을 이해하지 않고는 최신 AI 연구를 논할 수 없다.


관련 논문: Let's Verify Step by Step (PRM), Tree of Thoughts, OpenAI o1 System Card

0개의 댓글