Reinforcement Learning(RL)
Direct Preference Optimization(DPO)

개념:
- 인간의 비대칭적 선호(좋은 것보다 나쁜 것에 더 민감)를 반영한 최적화 방법
- 행동경제학의 전망이론 기반
- 인간의 비대칭적 선호 특성 반영 (심리학적)
- KTO는 더 인간다운 선호를 반영할 수 있어서 주목받고 있음
핵심 수식:
LKTO=Ex,y D[w(x,y)∗v(r(x,y))]
Where value function v is:
v(r)={rα−λ(−r)βif r≥0 (gain)if r<0 (loss)
Generally:
α=β=0.88,λ=2.25 (손실 회피 계수)
예제:
- 좋은 답변을 받았을 때 만족도: +3
- 나쁜 답변을 받았을 때 불만족도: -6 (2.25배 더 강하게 느낌)