[RL] AI alignment_DPO (Direct Preference Optimization)

JAsmine_log·2025년 8월 19일

Reinforcement Learning(RL)

Direct Preference Optimization(DPO)

개념:

인간의 선호도 데이터를 직접 사용해서 모델을 최적화
강화학습의 복잡함 없이 선호도를 바로 반영
선호도 데이터로 직접 최적화 (간단함)
DPO가 구현이 간단해서 많이 사용

핵심 수식:

L_{DPO} = -E[(x,y_w,y_l)~D][log σ(β\log\frac{π_θ(y_w|x)}{π_ref(y_w|x)} - β\log\frac{π_θ(y_l|x)}{π_ref(y_l|x)})]

Where:

$y_w =$ 선호되는 응답 (winner)
$y_l =$ 선호되지 않는 응답 (loser)
$π_{ref} =$ 참조 모델
$β =$ 온도 파라미터
$σ =$ 시그모이드 함수

예제:

사용자가 "피자 만드는 법 알려줘"라고 물었을 때:
- 답변 A (선호, +): "밀가루로 반죽을 만들고 토마토소스를 발라주세요..."
- 답변 B (비선호, -): "모르겠어요"
DPO는 A를 더 높은 확률로, B를 더 낮은 확률로 생성하도록 직접 학습

Everyday Research & Development

이전 포스트

[RL] AI alignment_KTO (Kahneman-Tversky Optimization)

다음 포스트

[RL] AI alignment_PPO (Proximal Policy Optimization)

0개의 댓글