JAsmine_log
로그인
JAsmine_log
로그인
[RL] AI alignment_DPO (Direct Preference Optimization)
JAsmine_log
·
2025년 8월 19일
팔로우
0
Reinforcement Learning(RL)
Direct Preference Optimization(DPO)
개념:
인간의 선호도 데이터를 직접 사용해서 모델을 최적화
강화학습의 복잡함 없이 선호도를 바로 반영
선호도 데이터로 직접 최적화 (간단함)
DPO가 구현이 간단해서 많이 사용
핵심 수식:
L
D
P
O
=
−
E
[
(
x
,
y
w
,
y
l
)
D
]
[
l
o
g
σ
(
β
log
π
θ
(
y
w
∣
x
)
π
r
e
f
(
y
w
∣
x
)
−
β
log
π
θ
(
y
l
∣
x
)
π
r
e
f
(
y
l
∣
x
)
)
]
L_{DPO} = -E[(x,y_w,y_l)~D][log σ(β\log\frac{π_θ(y_w|x)}{π_ref(y_w|x)} - β\log\frac{π_θ(y_l|x)}{π_ref(y_l|x)})]
L
D
P
O
=
−
E
[
(
x
,
y
w
,
y
l
)
D
]
[
l
o
g
σ
(
β
lo
g
π
r
e
f
(
y
w
∣
x
)
π
θ
(
y
w
∣
x
)
−
β
lo
g
π
r
e
f
(
y
l
∣
x
)
π
θ
(
y
l
∣
x
)
)
]
Where:
y
w
=
y_w =
y
w
=
선호되는 응답 (winner)
y
l
=
y_l =
y
l
=
선호되지 않는 응답 (loser)
π
r
e
f
=
π_{ref} =
π
r
e
f
=
참조 모델
β
=
β =
β
=
온도 파라미터
σ
=
σ =
σ
=
시그모이드 함수
예제:
사용자가 "피자 만드는 법 알려줘"라고 물었을 때:
답변 A (선호, +): "밀가루로 반죽을 만들고 토마토소스를 발라주세요..."
답변 B (비선호, -): "모르겠어요"
DPO는 A를 더 높은 확률로, B를 더 낮은 확률로 생성하도록 직접 학습
JAsmine_log
Everyday Research & Development
팔로우
이전 포스트
[RL] AI alignment_KTO (Kahneman-Tversky Optimization)
다음 포스트
[RL] AI alignment_PPO (Proximal Policy Optimization)
0개의 댓글
댓글 작성