[RL] AI alignment_PPO (Proximal Policy Optimization)

JAsmine_log·2025년 8월 19일

Reinforcement Learning(RL)

Proximal Policy Optimization(PPO)

개념:

정책을 안전하게 업데이트하여 성능을 향상시키는 강화학습 알고리즘
강화학습으로 안전하게 정책 업데이트

핵심 수식:

L^{CLIP}(θ) = E_t[min(r_t(θ)A_t, clip(r_t(θ), 1-ε, 1+ε)A_t)]

Where:

$r_t(θ) = \frac{π_θ(a_t|s_t)}{π_{θ_{old}(a_t|s_t)}} \text{(확률 비율)}$
$A_t=$ 어드밴티지 함수 (얼마나 좋은 행동인지)
$ε =$ 클리핑 파라미터 (보통 0.2)

예제:

챗봇이 "안녕하세요"라고 답할 확률이 기존에 30%였는데,
새로운 정책에서는 60%가 되었다면 r_t = 2.0입니다.
하지만 PPO는 이 변화를 1.2배(1+ε)로 제한해서 안전하게 학습합니다.

🔤 그리스 문자들:

θ (세타) = 모델의 뇌 (가중치)

π (파이) = 정책 (상황별 행동 확률)

ε (엡실론) = 안전 범위 (변화 제한)

β (베타) = 강도 조절기

λ (람다) = 손실 증폭기 (2.25배)

α (알파) = 민감도

📊 수학 기호들:

E[ ] = 평균값

log = 확률→점수 변환기

σ = 0~1 확률 변환기

clip(x,a,b) = 범위 제한기

🏷️ 변수들:

x = 질문, y = 답변

r = 점수/보상

s, a = 상황,행동

w / l = 승자 / 패자

JAsmine_log

Everyday Research & Development

이전 포스트

[RL] AI alignment_DPO (Direct Preference Optimization)

다음 포스트

[RL] AI alignment_PPO (Proximal Policy Optimization)

Reinforcement Learning(RL)

Proximal Policy Optimization(PPO)

개념:

핵심 수식:

예제:

[RL] AI alignment_DPO (Direct Preference Optimization)

[RL] Online Feedback

0개의 댓글