taejongkim.log
로그인
taejongkim.log
로그인
DeepSeek-R1 논문 리뷰
TaeJong Kim
·
2025년 2월 5일
팔로우
0
DEEPSEEK
LLM
0
paper review&implementation
목록 보기
7/7
Summary
DeepSeek-R1-Zero
사전학습된 언어모델 DeepSeek-V3-Base를 Supervised Fine-Tuning 없이 강화 학습을 바로 적용한 모델
강화학습으로 강력한 추론 능력을 얻었지만 가독성이 떨어지고 언어들이 섞이는 문제가 발생
DeepSeek-R1
위 문제를 해결하기 위해 Cold-Start 데이터(소량의 고품질 데이터)를 먼저 적용한 후, 강화 학습을 진행한 모델
다양한 논리적 추론 작업에서 OpenAI-o1-1217과 유사한 성능 달성
Distillation방식으로 소규모 모델 생성
Cold Start
강화학습 전에 모델을 안정화 하기 위한 방법
수집 방법
Few-shot prompting을 이용하여 긴 CoT 예제를 생성 → 여러 방법을 사용하여 예제를 생성, 정확히 모
모델을 직접 활용하여 상세한 답변을 생성(자기 검증 및 반성 포함)
DeepSeek-R1-Zero의 출력을 읽기 쉬운 형태로 변환
인간 검토자가 후처리하여 품질을 개
정해진 출력 형식(|special_token|<reasoning_process>|special_token|
)을 포함
Reflection
모델이 스스로 답변을 다시 검토하고, 논리적 오류나 개선점을 찾아내는 과정
이를 위한 프롬프트를 설계하여 모델이 ‘이 답이 맞는가? ‘ 또는 ‘다른 방법이 있는가?’ 같은 질문을 하도록 함.
특정 시점에서 모델이 스스로 "Wait, let’s reevaluate this step-by-step."(잠깐, 이 단계를 다시 평가해 보자.) 같은 표현을 사용하며 논리를 점검하는 "Aha Moment"가 나타남.
Verification
답변의 정확성을 검증
수학이나 코딩같은 경우 룰베이스로 검증함
DeepSeek-V3와 같은 모델을 활용하여 답변을 다시 평가. “이 답변이 정답인가?”를 묻는 프롬프트를 활용해 모델이 스스로 판단하도록 함.
다수결 검증: 동일한 질문에 대해 모델이 여러 개의 답변을 생성한 후, 가장 많이 나온 답을 최종 정답으로 선택.→ 랜덤 오류를 줄이고 신뢰도 상승
Reinforcement Learning, RL
two stage로 진행
GRPO 알고리즘을 사용하여 RL의 비용을 절감하고, Reward Model을 활용하여 효과적인 추론을 할 수 있도록 학습
GRPO
기존의 PPO 방식과 유사하지만 별도의 critic 모델을 사용하지 않고 그룹 샘플링을 활용하여 정책 모델을 최적화
그룹 샘플링이란 여러개의 출력을 샘플링한 후 각 출력을 비교하여 상대적 평가를 진행
Reward Model
수학이나 코딩 문제의 경우 정확도에 대한 보상을 줌
CoT의 형식을 잘 따랐는지에 따라 보상. 예를들어 태그를 잘 감쌌는가
언어의 일관성에 대해서 보상
학습과정
초기모델 DeepSeek-V3-Base에 강화학습 적용
Cold Start 데이터를 활용한 강화학습
cold start 데이터로 SFT를 하고 강화학습 진행
RL 모델이 어느정도 수렴한 후, 거부 샘플링을 적용하여 고품질 데이터를 생성
거부 샘플링이란?(Rejection sampling) 모델이 생성한 여러 개의 답변 중에서 품질이 높은 것마을 선
이 데이터로 다시 SFT
이 때 추론 데이터 뿐만 아니라 다양한 형식의 데이터를 포함해서 모델의 범용성 강
Distillation
Distillation(지식 증류)은 대형 모델(DeepSeek-R1)의 지식을 소형 모델(1.5B~70B 파라미터)로 전이하는 방법
입니다.
DeepSeek-R1은 Fine-Tuning 기반의 Distillation 기법을 사용, 기존보다 훨씬 작은 모델에서도 뛰어난 추론 능력을 유지할 수 있음
대형 모델은 강력하지만 비용이 높고 실시간 서비스에서 사용하기 어려움
소형 모델에서도 대형 모델의 성능을 유지하는 것이 중요
Distillation 과정
R1에서 고품질 학습 데이터 생성
소형 모델에 Fine-tuning 적용
Qwen과 Lamma 모델을 사용하여 fine-tuninig
Distilled 모델 성능 평가
DeepSeek-R1-Distill-Qwen-32B 모델이 OpenAI-o1-mini 수준의 성능을 달성
14B 모델이 기존 QwQ-32B-Preview 모델을 모든 벤치마크에서 뛰어넘음
추론 관련 벤치마크(AIME 2024, MATH-500, GPQA Diamond)에서 기존 오픈소스 모델 대비 강력한 성능
TaeJong Kim
AI 엔지니어 김태종입니다. 추천시스템, 이상탐지, LLM에 관심이 있습니다. 블로그에는 공부한 기술, 논문 혹은 개인적인 경험을 올리고 있습니다.
팔로우
이전 포스트
BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
0개의 댓글
댓글 작성