GRPO와 DeepSeek-R1: Critic 없는 LLM 강화학습 혁신

Bean·2025년 8월 3일
0

인공지능

목록 보기
99/123

🧠 GRPO와 DeepSeek-R1: Critic 없는 LLM 강화학습 혁신

🤖 LLM의 추론 능력, 이제 Critic 없이도 가능하다!

대형 언어 모델(LLM)의 추론 능력을 극대화하기 위한 강화학습(RL) 기법들이 빠르게 진화하고 있습니다. 이 글에서는 PPO의 변형인 GRPO(Group Relative Policy Optimization)와 이를 활용한 DeepSeek-R1의 혁신적인 학습 구조를 소개합니다. 특히 Critic 없이 학습을 가능케 한 GRPO의 작동 방식과, 스스로 생각하고 개선하는 DeepSeek-R1의 Self-improvement loop에 주목해보세요.


📌 GRPO(Group Relative Policy Optimization)란?

🎯 개요

  • PPO 기반 강화학습 알고리즘의 변형
  • Critic 없이 학습 가능
  • 그룹 기반 보상 정규화를 통한 계산 효율화 및 안정성 확보

✅ 주요 특징 요약

  • Critic 없이 group 기반으로 Advantage 계산
  • PPO의 안정성 유지 + 메모리/연산 효율성 확보
  • 그룹 점수 정규화를 통한 편향 감소 및 업데이트 안정화

⚙️ GRPO 작동 원리: PPO의 Critic을 없애다

1️⃣ 그룹 샘플링

  • 입력 하나(x)에 대해 G개의 답변 {y₁, ..., yG} 생성

2️⃣ 그룹 기반 Advantage 계산

  • 각 답변의 보상 rᵢ 계산 → 평균(μ)과 표준편차(σ)로 정규화
  • Advantage: Aᵢ = (rᵢ - μ) / σ

3️⃣ Critic 없이 PPO 업데이트

  • KL Penalty와 클리핑 적용하여 정책 업데이트 수행
  • Advantage 값과 정책 변화율(πθ/πθoldπ_{θ} / π_{θ_{old}})의 조합으로 방향 결정

4️⃣ 장점

  • Critic 제거 → 모델 단순화 및 리소스 절약
  • 그룹 단위 정규화 → 더 안정적이고 일관된 학습 성능

🧠 DeepSeek-R1: SFT 없이 순수 RL로 추론 능력 고도화

🌱 혁신적 학습 전략

  • 사전 학습 모델: DeepSeek-V3-Base
  • SFT(Supervised Fine-tuning) 없이도 RL만으로 추론 능력 유도

🔥 DeepSeek-R1-Zero

  • 학습 초기부터 순수 RL만 사용
  • 모델이 스스로 CoT(Chain of Thought) 유도
  • 자기 검증, 반성, 논리 전개 등의 고차원적 추론 능력 자연 발생

🪜 Multi-Stage RL + SFT 파이프라인

Step 1: Cold-start 데이터 기반 SFT
Step 2: GRPO를 이용한 RL 학습
Step 3: RL 출력 → Rejection sampling → 새로운 SFT 데이터 생성
Step 4: 새 데이터로 지도학습(SFT) 재진행
Step 5: RL 반복
  • 반복을 통해 모델은 점점 더 나은 추론 능력과 자기 검증 능력을 갖추게 됨

🧬 Self-improvement Loop: LLM이 스스로 배우는 구조

🌀 작동 방식

  1. 한 질문에 대해 5~10개 답변 생성
  2. Rejection Sampling으로 최적 답변 선택
  3. 선택된 답변 → Pseudo-label로 간주
  4. 이를 지도학습에 활용하여 성능 재학습

📊 평가 기준

  • 정답 정확도
  • 논리 흐름의 자연스러움(CoT)
  • 자기 검증 통과 여부
  • 문법 및 가독성

🧾 용어 정리

용어의미
Critic행동의 가치를 추정하는 모델. GRPO에선 사용하지 않음
KL Penalty정책 변화량 제어로 학습 안정성 보장
PPO안정적 정책 업데이트를 위한 강화학습 알고리즘
Rejection Sampling생성 응답 중 우수한 것만 선택하는 방식
Self-improvement Loop모델이 만든 답변으로 다시 배우는 순환 구조
Pseudo-label모델이 만든 정답 역할의 학습 데이터

🏆 실제 성과 및 활용

대표 모델

  • DeepSeekMath: MATH benchmark에서 탁월한 성능
  • DeepSeek-R1: 복잡한 논리 추론에서 강력한 성능 발휘

주요 장점

  • Critic 없이도 안정적이고 효율적인 학습
  • 연산 및 메모리 자원 절약
  • LLM의 자기 주도적 추론지속적 자기 개선 가능

🧩 마무리 정리

GRPO는 Critic 없이 작동하는 강화학습 기법으로, 메모리 효율성과 안정성을 모두 잡았습니다.
DeepSeek-R1은 이 구조를 활용해 지도학습 없이도 추론 능력을 발현시키고, 반복 학습을 통해 스스로 더 똑똑해지는 LLM을 실현하고 있습니다.


profile
AI developer

0개의 댓글