
Where:
어드밴티지 함수 (얼마나 좋은 행동인지)
클리핑 파라미터 (보통 0.2)
챗봇이 "안녕하세요"라고 답할 확률이 기존에 30%였는데,
새로운 정책에서는 60%가 되었다면 r_t = 2.0입니다.
하지만 PPO는 이 변화를 1.2배(1+ε)로 제한해서 안전하게 학습합니다.
🔤 그리스 문자들:
θ (세타)= 모델의 뇌 (가중치)π (파이)= 정책 (상황별 행동 확률)ε (엡실론)= 안전 범위 (변화 제한)β (베타)= 강도 조절기λ (람다)= 손실 증폭기 (2.25배)α (알파)= 민감도
📊 수학 기호들:
E[ ]= 평균값log= 확률→점수 변환기σ= 0~1 확률 변환기clip(x,a,b)= 범위 제한기
🏷️ 변수들:
x= 질문,y= 답변r= 점수/보상s, a= 상황,행동w / l= 승자 / 패자