Policy Gradient Theorem
Policy Gradient Theorem은 강화학습에서 정책 파라미터에 대한 목적 함수의 그래디언트를 계산 가능한 형태로 표현한다. 이를 통해 에이전트가 환경과 상호작용하며 얻는 보상을 최대화하는 정책을 최적화할 수 있다. 이 정리는 REINFORCE, Actor-Critic, PPO 같은 알고리즘의 수학적 기반이 된다.
정책 최적화의 목표
강화학습에서 우리는 에이전트가 환경과 상호작용하면서 받는 보상을 최대화하는 정책을 찾고자 한다. 정책은 파라미터 θ로 표현되는 함수 πθ(a∣s)로 정의된다. 이는 상태 s에서 행동 a를 선택할 확률을 나타낸다.
정책의 성능은 목적 함수 J(θ)로 측정하며, 이는 다음과 같이 정의된다:
J(θ)=Eτ∼πθ[R(τ)]
이 식은 정책 πθ를 따라 생성된 궤적들의 기대 보상을 나타낸다. 여기서 τ는 상태와 행동의 시퀀스이고, R(τ)는 해당 궤적에서 얻은 총 보상이다.
정책 최적화의 목표는 J(θ)를 최대화하는 파라미터 θ를 찾는 것이다. 일반적으로 이를 위해 그래디언트 어센트 방법을 사용한다:
θt+1=θt+α∇θJ(θt)
하지만 여기서 실질적인 문제가 발생한다. ∇θJ(θ)를 어떻게 계산할 수 있을까? 보상 함수 R(τ)는 환경에 의해 결정되며, 정책 파라미터 θ에 직접적으로 의존하지 않기 때문에 단순히 미분할 수 없다.
정리의 수학적 표현
Policy Gradient Theorem은 이 문제에 대한 해결책을 제시한다. 이 정리는 목적 함수의 그래디언트를 다음과 같이 표현한다:
∇θJ(θ)=Eτ∼πθ[t=0∑T−1Qπθ(st,at)∇θlogπθ(at∣st)]
이 공식을 통해 정책의 그래디언트는 각 상태-행동 쌍의 가치(Qπθ)와 로그 확률의 그래디언트의 곱의 기대값으로 표현됨을 알 수 있다. 이는 그래디언트 계산을 실제로 구현 가능한 형태로 만들어준다.
수학적 유도: 단계별 접근
이 놀라운 결과가 어떻게 도출되는지 단계별로 살펴보자.
1단계: 목적 함수의 그래디언트 설정
먼저 목적 함수를 더 명시적인 형태로 표현해 보자:
J(θ)=τ∑P(τ;θ)R(τ)
이 식에서 P(τ;θ)는 정책 πθ를 따를 때 궤적 τ가 발생할 확률이다. 이 식의 그래디언트는 다음과 같다:
∇θJ(θ)=τ∑R(τ)∇θP(τ;θ)
2단계: 로그 그래디언트 트릭의 적용
여기서 로그 미분의 성질을 활용하는 로그 그래디언트 트릭을 적용한다. 모든 양수 함수 f(x)에 대해 다음 관계가 성립한다:
∇xf(x)=f(x)∇xlogf(x)
이 관계가 성립하는 이유는 미적분학의 연쇄 법칙과 로그 함수의 미분 성질 때문이다. 로그 함수의 미분은 다음과 같다:
dxdlogf(x)=f(x)1⋅dxdf(x)
이 식을 ∇xlogf(x)에 대해 정리하면:
∇xlogf(x)=f(x)∇xf(x)
따라서:
f(x)∇xlogf(x)=f(x)⋅f(x)∇xf(x)=∇xf(x)
이 트릭은 특히 확률 분포의 그래디언트를 계산할 때 매우 유용하다. 확률 계산은 복잡한 곱셈으로 이루어지는 경우가 많은데, 로그를 취하면 합으로 변환되어 미분이 간단해지기 때문이다.
이 성질을 P(τ;θ)에 적용하면:
∇θP(τ;θ)=P(τ;θ)∇θlogP(τ;θ)
따라서 목적 함수의 그래디언트는 다음과 같이 변환된다:
∇θJ(θ)=τ∑R(τ)P(τ;θ)∇θlogP(τ;θ)=Eτ∼πθ[R(τ)∇θlogP(τ;θ)]
3단계: 궤적의 확률은 다음과 같이 분해할 수 있다:
P(τ;θ)=P(s0)t=0∏T−1P(st+1∣st,at)πθ(at∣st)
여기서 P(s0)는 초기 상태 분포이고, P(st+1∣st,at)는 환경의 전이 확률이다. 이 식의 로그를 취하면:
logP(τ;θ)=logP(s0)+t=0∑T−1logP(st+1∣st,at)+t=0∑T−1logπθ(at∣st)
이 식에서 초기 상태 분포와 환경 전이 확률은 정책 파라미터 θ와 무관하므로, 그래디언트를 취할 때 사라진다:
∇θlogP(τ;θ)=t=0∑T−1∇θlogπθ(at∣st)
4단계: 최종 정리 도출
이제 앞서 얻은 결과를 조합하면:
∇θJ(θ)=Eτ∼πθ[R(τ)t=0∑T−1∇θlogπθ(at∣st)]
위 식에서 R(τ)는 궤적 전체에서 얻는 총 보상(r0+r1+...+rT−1)을 의미한다. 그러나 이 식은 각 시간 단계 t의 행동이 t 이전의 보상에도 영향을 주는 것처럼 계산한다. 실제로는 t시점의 행동은 t 이후의 보상에만 영향을 미친다. 따라서 각 시간 단계에서는 해당 시점부터 얻을 수 있는 기대 보상인 Q-함수를 사용하는 것이 더 정확하다:
∇θJ(θ)=Eτ∼πθ[t=0∑T−1Qπθ(st,at)∇θlogπθ(at∣st)]
마무리
이 정리는 계산이 어려웠던 정책 그래디언트를 계산할 수 있는 형태로 변환했다는 점에서 중요하다. 주요 장점은 다음과 같다:
- 실용적인 구현: 몬테카를로 샘플링을 통해 그래디언트를 근사할 수 있다.
- 모델 프리 접근: 환경의 역학을 알 필요 없이 학습이 가능하다.
참고
- 로라 그래서, 와 룬 켕. (2022). 단단한 심층강화학습. 제이펍.
- 노승은. (2020). 바닥부터 배우는 강화학습. 영진닷컴.