[RL] AI alignment_DPO (Direct Preference Optimization)

JAsmine_log·2025년 8월 19일

Reinforcement Learning(RL)

Direct Preference Optimization(DPO)

개념:

  • 인간의 선호도 데이터를 직접 사용해서 모델을 최적화
  • 강화학습의 복잡함 없이 선호도를 바로 반영
  • 선호도 데이터로 직접 최적화 (간단함)
  • DPO가 구현이 간단해서 많이 사용

핵심 수식:

LDPO=E[(x,yw,yl) D][logσ(βlogπθ(ywx)πref(ywx)βlogπθ(ylx)πref(ylx))]L_{DPO} = -E[(x,y_w,y_l)~D][log σ(β\log\frac{π_θ(y_w|x)}{π_ref(y_w|x)} - β\log\frac{π_θ(y_l|x)}{π_ref(y_l|x)})]

Where:

  • yw=y_w = 선호되는 응답 (winner)
  • yl=y_l = 선호되지 않는 응답 (loser)
  • πref=π_{ref} = 참조 모델
  • β=β = 온도 파라미터
  • σ=σ = 시그모이드 함수

예제:

  • 사용자가 "피자 만드는 법 알려줘"라고 물었을 때:
    • 답변 A (선호, +): "밀가루로 반죽을 만들고 토마토소스를 발라주세요..."
    • 답변 B (비선호, -): "모르겠어요"
  • DPO는 A를 더 높은 확률로, B를 더 낮은 확률로 생성하도록 직접 학습
profile
Everyday Research & Development

0개의 댓글