TRPO는 이미 리뷰를 마쳤습니다. 이번에는 PPO를 살펴보려고 합니다. PPO(Proximal Policy Optimization)의 정책 업데이트의 안정성, 이론적 근거(clip surrogate의 하한선 성질), surrogate objective 최적화의 기하학적 해석 측면에서 살펴보려고 합니다.
TRPO는 이론적으로 매우 강건한 알고리즘으로 monotonic improvement를 보장하지만이 구현 복잡합니다. 특히 2차 최적화, conjugate gradient, Fisher Information matrix 계산하는 과정이 만만치 않죠. 또, dropout, shared-parameter architecture에 비호환적인 특성때문에 PPO가 등장하게 되었습니다.
PPO는 TRPO의 핵심 아이디어인 정책 변화 억제(regulated update, KL divergence-related constraint)를 유지하면서, first-order method로 재설계한 알고리즘입니다.
Policy Gradient 기본 수식
Vanilla PG 문제점:
Surrogate objective:
Trust region constraint:
performance difference bound (Kakade & Langford 2002)로부터 파생됨
TRPO의 hard constraint를 대체하기 위한 두 가지 접근:
KL penalty term 사용
→ 적절한 β 튜닝 어려움
Clipped surrogate objective (PPO의 주력 방식)

기존 policy gradient와 동일한 구조에서 손실 함수만 교체:
Clipping을 통해 surrogate gradient의 크기를 직접 제한 → implicit trust region 형성
여러 epoch 동안 동일 데이터에서 학습 가능 (on-policy but sample-efficient)
PPO의 핵심. 정책을 업데이트하되 지나친 확률 변화는 억제함.
수식:
의미:
계산 그래프 관점:
상태 가치 가 실제 return을 잘 예측하게 유도
수식:
목적:
계산 그래프 관점:
정책의 확률 분포 가 너무 확신을 갖지 않도록 유도
수식 (이산 정책의 경우):
목적:
계산 그래프 관점:
| 항목 | 목적 | Gradient 관점 | PPO에서의 역할 |
|---|---|---|---|
| 정책 업데이트 안정화 | gradient clipping by design | implicit trust region | |
| value function 학습 | shared parameter이면 영향 큼 | advantage estimator 안정화 | |
| 탐색 유지 | 확률 flattening | exploration 유도 |
MuJoCo 7개 환경 실험: PPO(clip)는 거의 모든 환경에서 TRPO나 A2C보다 높은 normalized score 기록
Atari: PPO는 fast learning에 유리 (초기 episode reward가 빠르게 상승)
이론 vs 실험:
| 항목 | TRPO | PPO |
|---|---|---|
| 이론적 근거 | monotonic performance bound | surrogate 하한선 heuristic |
| 정책 이동 제어 | hard KL constraint | clipped objective or adaptive penalty |
| 최적화 방법 | 2차 (conjugate gradient) | 1차 (SGD, Adam 등) |
| 구현 난이도 | 높음 | 낮음 |
| 아키텍처 제한 | 많음 | 거의 없음 |
| 샘플 재사용 | 제한적 | 여러 epoch 가능 |
PPO는 TRPO의 핵심 원칙을 유지하면서 "이론적 직관 + 실용성"의 좋은 절충점
하지만 monotonic improvement에 대한 formal한 보장은 없음 (lower bound 해석은 heuristic)
이후 연구들에서 PPO는 거의 default RL 알고리즘처럼 사용됨