[논문 리뷰] DPO: Direct Preference Optimization

smj·2026년 3월 31일

review

목록 보기
4/30

한줄 요약: RLHF의 3단계(SFT → Reward Model → PPO)를 수학적 변환 하나로 1단계(선호 데이터 → 직접 최적화)로 압축, 보상 모델 없이 정렬을 달성했다.

항목내용
제목Direct Preference Optimization: Your Language Model is Secretly a Reward Model
저자Rafael Rafailov, Archit Sharma, Eric Mitchell, Stefano Ermon, Christopher D. Manning, Chelsea Finn
소속Stanford University
발표NeurIPS 2023 (Outstanding Paper Award)
링크arxiv.org/abs/2305.18290
키워드Alignment, RLHF, Preference Optimization, Reward Model

1. 문제 정의

RLHF는 LLM을 인간 선호에 맞추는 표준 방법이지만, 3가지 근본적 문제가 있다:

  1. 복잡성: SFT → Reward Model 학습 → PPO 강화학습, 3단계 파이프라인
  2. 불안정성: PPO는 하이퍼파라미터에 민감하고, reward hacking(보상 해킹)에 취약
  3. 비용: Reward Model을 별도로 학습/서빙해야 하며, PPO의 rollout이 비쌈

핵심 질문: 보상 모델을 명시적으로 학습하지 않고, 선호 데이터만으로 직접 정책(policy)을 최적화할 수 있는가?


2. 제안 방법

핵심 수학적 인사이트

RLHF의 목적 함수:

max_π E[r(x,y)] - β · KL(π || π_ref)
  "보상을 최대화하되, 참조 모델(SFT)에서 너무 멀어지지 마라"

이 최적화 문제의 닫힌 형태 해(closed-form solution) 가 존재한다:

π*(y|x) = π_ref(y|x) · exp(r(x,y) / β) / Z(x)

이를 r(x,y)에 대해 역으로 풀면:

r(x,y) = β · log(π*(y|x) / π_ref(y|x)) + β · log Z(x)

최적 정책 π* 자체가 암묵적으로 보상 모델이다!

DPO 손실 함수

이 관계를 Bradley-Terry 선호 모델에 대입하면:

L_DPO = -E[ log σ( β · (log π_θ(y_w|x)/π_ref(y_w|x)
                      - log π_θ(y_l|x)/π_ref(y_l|x)) ) ]

y_w: 선호된(winning) 응답
y_l: 비선호(losing) 응답
π_θ: 학습 중인 정책
π_ref: 참조 모델 (SFT 체크포인트)
β: KL 제약 강도
σ: 시그모이드 함수

이진 교차 엔트로피 손실. 일반적인 지도 학습 파이프라인으로 구현 가능.

RLHF vs DPO 비교

RLHF:
  Step 1: SFT 모델 학습
  Step 2: (x, y_w, y_l) → Reward Model 학습
  Step 3: Reward Model 고정 → PPO로 π 최적화
  필요: 4개 모델 (SFT, RM, Policy, Value), PPO 인프라

DPO:
  Step 1: SFT 모델 학습
  Step 2: (x, y_w, y_l) → π를 직접 최적화
  필요: 2개 모델 (SFT/ref, Policy), 표준 학습 루프

3. 실험 결과

3.1 제어된 감성 생성 (IMDb 리뷰)

방법감성 보상 ↑KL(π, π_ref) ↓
PPO높음높음 (과적합)
DPO동등낮음 (안정적)

→ DPO가 PPO와 동등한 보상을 달성하면서 KL이 더 낮음 = 더 안정적

3.2 TL;DR 요약 (Reddit 요약 태스크)

GPT-4 기반 평가:

방법선호율 (vs SFT)
PPO (Best-of-N)57%
PPO (Online)60%
DPO61%

3.3 Anthropic HH (도움+무해 대화)

방법선호율
Preferred-FT55%
PPO58%
DPO59%

→ 모든 태스크에서 PPO 대비 동등 이상이면서 학습이 훨씬 안정적


4. 한계점

  • 오프라인 데이터만 사용: DPO는 고정된 선호 쌍으로 학습 → 학습 중 새로운 응답 생성(exploration)이 없음 → 분포 변화(distribution shift) 문제
  • Bradley-Terry 모델 가정: 인간 선호가 이 모델을 따르지 않으면 최적이 아님. 실제 인간 선호는 비일관적(intransitive)일 수 있음
  • β 선택이 중요: β가 너무 크면 SFT에서 거의 안 벗어남, 너무 작으면 과적합 → 태스크별 튜닝 필요
  • 대규모 실험 부족: 논문의 실험은 상대적으로 소규모 (6B 모델) — 70B+ 에서의 효과는 후속 연구에서 검증
  • 선호 데이터 품질에 강하게 의존: 노이즈가 많은 선호 데이터에서의 robustness 미검증
  • 다중 응답 비교 어려움: DPO는 쌍(pair) 비교 — 3개 이상의 응답을 동시에 순위 매기기 어려움

5. 의의와 영향

  • NeurIPS 2023 Outstanding Paper — 2023년 가장 영향력 있는 논문 중 하나
  • 정렬의 민주화: RL 전문 지식/인프라 없이도 선호 기반 정렬 가능
  • 거의 모든 오픈소스 모델 정렬(Zephyr, Intel Neural Chat, Starling 등)이 DPO 채택
  • 후속 변형 대량 탄생: IPO, KTO, ORPO, SimPO, SPPO 등
  • "정책 = 보상 모델" 이라는 개념적 돌파구

6. 💬 리뷰어 코멘트

DPO의 진정한 우아함은 아무것도 새로 만들지 않았다는 것이다. 기존 RLHF 프레임워크의 수학적 구조를 분석하여, 최적 해가 닫힌 형태로 존재함을 보이고, 이를 대입하면 RM이 사라진다. 새로운 알고리즘이 아니라 기존 알고리즘의 수학적 재해석이다.

실전에서의 한계도 분명하다. DPO의 가장 큰 약점인 "오프라인 데이터만 사용"은 이후 온라인 DPO 변형(OAIF, Self-Play 등)이 보완하고 있다. 또한 Anthropic의 경험에 따르면, 충분히 큰 규모에서는 PPO 기반 RLHF가 여전히 DPO보다 나은 경우도 있다 — 하지만 대부분의 연구 그룹은 PPO 인프라를 구축할 여력이 없으므로, DPO가 사실상 표준이 되었다.

"Your Language Model is Secretly a Reward Model"이라는 부제가 이 논문의 모든 것을 요약한다.


관련 논문: RLHF (InstructGPT), Constitutional AI, IPO, KTO, SimPO

0개의 댓글