논문링크 : DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning
주요 요약:
cold-start data는 초기에 모델이 갈피를 잘 잡을 수 있게 도와주는 데이터다.
: DeepSeek이 얼마나 대단하길래 그렇게 언급하는지 궁금했습니다.
Chain-of-Thought는 문제 해결이나 추론을 수행할 때, 단계별로 사고 과정을 명확하게 나타내는 방법입니다. 이 접근 방식은 복잡한 문제를 해결하기 위해 여러 단계의 논리를 연결하여, 각 단계에서의 생각을 체계적으로 표현합니다.inference-time scaling은 모델이 실제로 데이터를 처리하고 예측하는(inference-time) 동안 성능을 개선하기 위한 기법입니다.test-time scaling은 모델이 테스트 데이터에 대해 성능을 조정하거나 개선하기 위한 방법입니다.
- cold-start data로 fine-tuning
- RL
- RL에서 얻은 체크포인트로 rejection sampling을 통해 새로운 SFT(supervised fine-tuning) 데이터를 만든다.
- 이를, 기존 DeepSeek-V3의 supervised data와 결합하여 모델을 추가로 학습한다.
쉽게 말해, GRPO는 정책을 update방식으로 작동한다.Equation 1
Equation 2
와 는 하이퍼파라미터이고, 는 reward들로 계산한 advantage이다.Equation 3
A는 보상들을 정규분포화 시켰다.
rule-based reward system을 적용해서 DeepSeek-R1-Zero를 학습했다.
rule-based reward system의 다음 2가지로 이루어져 있다.
- Accuracy rewards
Accuracy rewards은 문제에 맞는 형식에 맞게 response가 정확한지를 평가한다.
- Format rewards
Format rewards은 사이의 thinking 과정을 넣는 형식을 모델에 강요하는 역할을 한다.
추가적으로, neural reward model은 reward 해킹과 재학습의 어려움으로 적용하지 않았다.




행동들의 예시로는, 이전 과정을 다시 확인하거나 다시 평가하는 것과 문제를 풀기 위한 대안적인 접근을 시도한다는 것이 있다.
- 소량의 고품질 데이터(cold start data)를 포함시킴으로써 reasoning performance(추론 능력)이 향상되거나 수렴이 가속화될 수 있는가?
- 깨끗하고 일관된 CoT(Chains of Thought)를 만들어 내고 강한 일반화 능력을 나타내는, 사용자 친화적 모델을 어떻게 학습할 수 있는가?
base model로부터 early unstable cold start RL 학습단계를 막은 DeepSeek-R1-Zero와 달리, DeepSeek-R1은 RL 초반에 fine-tuning을 위해 소량의 long CoT data을 모으고 구축했다.
이 데이터를 다음과 같은 방식으로 모았다.
- example로 long CoT와 함께 few-shot prompting을 사용했다.
- reflection과 verification와 함께 정교한 답을 만들기 위해 직접적으로 모델을 prompting했다.
- readable format에서 DeepSeek-R1-Zero 결과들을 모았다.
- human annotator로부터 후처리해서 결과를 개선했다.
DeepSeek-R1-Zero와 달리, DeepSeek-R1을 위한 cold-start data를 만들 때, 각 응답 마지막에 summary를 포함하고 가독성이 떨어지는 응답은 거르는 readable pattern을 만들었다.
'|special_token| <reasoning_process> |special_token|
'와 같은 output format을 정의했다.여기서, reasoning_process는 질문에 대한 CoT이고, summary는 추론 결과를 요약한 것이다.
Rejection sampling은 원하는 분포에서 샘플을 생성하기 어려운 경우, 대체 분포에서 샘플을 생성하고 이 중 특정 기준을 만족하는 샘플만 선택하는 방식이다.
이 문장은 reasoning data의 중요성에 대해 언급하기 위한 문장이라고 합니다. 이 문장에 왜 들어왔는지는 정확하게 인지하지는 못했습니다.최대 generation length을 32,768 토큰으로 정했다.
long-output reasoning models을 평가하기 위해 greedy decoding을 사용하면 높은 repetition rates과 상당한 variability을 얻을 수 있다.
기본적으로 pass@k evaluation을 사용하고 non-zero temperature를 사용해서 pass@1 결과를 낼 것이다.
pass@1 =
는 번째 응답의 정확성을 말한다.
64 samples를 사용한 consensus 결과에 대해서는 cons@64를 결과를 낼 것이다.



- 더 좋은 모델을 distilling할수록 더 좋은 결과를 얻을 수 있고, large-scale RL에 의존하는 small model은 상당한 computational power가 필요하고 distillation만큼의 성능을 얻지는 못한다.
- distillation 전략은 경제적이고 효율적이지만, 높은 지능을 얻기 위해서는 더 좋은 base model과 large-scale RL이 필요하다.
- 일반적인 추론(general reasoning)에서 세부 단계를 명확하게 정의하기가 어렵다.
- 현재 진행 중인 단계의 정확성을 판단하는 것이 어렵다.
- PRM 기반의 모델이 공개되면, reward hacking에 취약하고, reward model을 retraining하는 과정에서 추가 resource가 필요하고, 이는 전체 훈련 파이프라인을 복잡하게 만드는 문제가 있다.
Process Reward Model은 특정 프로세스나 행동의 결과로 얻어지는 보상을 모델링하는 방법입니다. 이 모델은 에이전트가 환경과 상호작용하면서 받는 보상을 예측하고 최적의 행동을 선택하는 데 도움을 줍니다.
- 체스와 달리, token generation의 search space가 상당히 크다. 이를 한계를 제한하여 표현할 수 있지만, 이는 local optima로 갈 수 있다.
- value model은 search 과정에서의 각 step을 이끌기 때문에, generation quality에 영향을 미친다. 하지만, 세부적인(fine-grained) value model를 훈련하는 것은 본질적으로 어렵다.
Monte Carlo Tree Search (MCTS)는 결정적이지 않은 게임이나 복잡한 의사결정 문제에서 최적의 행동을 찾기 위해 사용하는 알고리즘입니다
value model은 특정 상태에서 예상되는 보상을 평가하여 어떤 경로가 더 유망한지를 판단하게 합니다. 이로 인해, 검색 과정에서 어떤 노드를 탐색할지를 선택하는 데 도움을 주며, 최적의 결정을 내리기 위한 방향성을 제공합니다.
8. Comment
: 이슈화된 것에 비해서 전반적으로 RL의 장점과 cold-start data와 같은 세부 조정으로 인한 성능 향상하는 부분이라 아쉬웠습니다.(물론, DeepSeek-R1의 장점은 비용대비 성능이라고 합니다.) 그래도, RL의 장점에 대해서 다시 한번 생각하게 되었고, 관심이 가게 되었습니다.
더 자세한 내용은 논문 원본을 참고하시기 바랍니다.
개인의 주관이 반영된 해석이라 논문의 의도와 다를 수 있습니다.
오류가 있다면 댓글로 알려주시면 감사하겠습니다!