[RL] AI alignment_PPO (Proximal Policy Optimization)

JAsmine_log·2025년 8월 19일

Reinforcement Learning(RL)

Proximal Policy Optimization(PPO)

개념:

  • 정책을 안전하게 업데이트하여 성능을 향상시키는 강화학습 알고리즘
  • 강화학습으로 안전하게 정책 업데이트

핵심 수식:

LCLIP(θ)=Et[min(rt(θ)At,clip(rt(θ),1ε,1+ε)At)]L^{CLIP}(θ) = E_t[min(r_t(θ)A_t, clip(r_t(θ), 1-ε, 1+ε)A_t)]

Where:

  • rt(θ)=πθ(atst)πθold(atst)(확률 비율)r_t(θ) = \frac{π_θ(a_t|s_t)}{π_{θ_{old}(a_t|s_t)}} \text{(확률 비율)}
  • At=A_t=어드밴티지 함수 (얼마나 좋은 행동인지)

  • ε=ε = 클리핑 파라미터 (보통 0.2)

예제:

챗봇이 "안녕하세요"라고 답할 확률이 기존에 30%였는데,
새로운 정책에서는 60%가 되었다면 r_t = 2.0입니다.
하지만 PPO는 이 변화를 1.2배(1+ε)로 제한해서 안전하게 학습합니다.

🔤 그리스 문자들:

  • θ (세타) = 모델의 뇌 (가중치)
  • π (파이) = 정책 (상황별 행동 확률)
  • ε (엡실론) = 안전 범위 (변화 제한)
  • β (베타) = 강도 조절기
  • λ (람다) = 손실 증폭기 (2.25배)
  • α (알파) = 민감도

📊 수학 기호들:

  • E[ ] = 평균값
  • log = 확률→점수 변환기
  • σ = 0~1 확률 변환기
  • clip(x,a,b) = 범위 제한기

🏷️ 변수들:

  • x = 질문, y = 답변
  • r = 점수/보상
  • s, a = 상황,행동
  • w / l = 승자 / 패자
profile
Everyday Research & Development

0개의 댓글