[RL] AI alignment_KTO (Kahneman-Tversky Optimization)

JAsmine_log·2025년 8월 19일

Reinforcement Learning(RL)

Direct Preference Optimization(DPO)

개념:

인간의 비대칭적 선호(좋은 것보다 나쁜 것에 더 민감)를 반영한 최적화 방법
행동경제학의 전망이론 기반
인간의 비대칭적 선호 특성 반영 (심리학적)
KTO는 더 인간다운 선호를 반영할 수 있어서 주목받고 있음

핵심 수식:

L_{KTO} = E_x,y~D[w(x,y) * v(r(x,y))]

Where value function $v$ is:

v(r) = \begin{cases} r^{\alpha} & \text{if } r \geq 0 \text{ (gain)} \\ -\lambda(-r)^{\beta} & \text{if } r < 0 \text{ (loss)} \end{cases}

Generally:
$α = β = 0.88, λ = 2.25$ (손실 회피 계수)

예제:

좋은 답변을 받았을 때 만족도: +3
나쁜 답변을 받았을 때 불만족도: -6 (2.25배 더 강하게 느낌)

Everyday Research & Development

이전 포스트

[OpenAI] API Key & Billing

다음 포스트

[RL] AI alignment_DPO (Direct Preference Optimization)

0개의 댓글