[RL] AI alignment_KTO (Kahneman-Tversky Optimization)

JAsmine_log·2025년 8월 19일

Reinforcement Learning(RL)

Direct Preference Optimization(DPO)

개념:

  • 인간의 비대칭적 선호(좋은 것보다 나쁜 것에 더 민감)를 반영한 최적화 방법
  • 행동경제학의 전망이론 기반
  • 인간의 비대칭적 선호 특성 반영 (심리학적)
  • KTO는 더 인간다운 선호를 반영할 수 있어서 주목받고 있음

핵심 수식:

LKTO=Ex,y D[w(x,y)v(r(x,y))]L_{KTO} = E_x,y~D[w(x,y) * v(r(x,y))]

Where value function vv is:

v(r)={rαif r0 (gain)λ(r)βif r<0 (loss)v(r) = \begin{cases} r^{\alpha} & \text{if } r \geq 0 \text{ (gain)} \\ -\lambda(-r)^{\beta} & \text{if } r < 0 \text{ (loss)} \end{cases}

Generally:
α=β=0.88,λ=2.25α = β = 0.88, λ = 2.25 (손실 회피 계수)

예제:

  • 좋은 답변을 받았을 때 만족도: +3
  • 나쁜 답변을 받았을 때 불만족도: -6 (2.25배 더 강하게 느낌)
profile
Everyday Research & Development

0개의 댓글