Policy Gradient Theorem

Nerdwood·2025년 4월 14일

강화학습

목록 보기
1/7
post-thumbnail

Policy Gradient Theorem

Policy Gradient Theorem은 강화학습에서 정책 파라미터에 대한 목적 함수의 그래디언트를 계산 가능한 형태로 표현한다. 이를 통해 에이전트가 환경과 상호작용하며 얻는 보상을 최대화하는 정책을 최적화할 수 있다. 이 정리는 REINFORCE, Actor-Critic, PPO 같은 알고리즘의 수학적 기반이 된다.

정책 최적화의 목표

강화학습에서 우리는 에이전트가 환경과 상호작용하면서 받는 보상을 최대화하는 정책을 찾고자 한다. 정책은 파라미터 θ\theta로 표현되는 함수 πθ(as)\pi_\theta(a\mid s)로 정의된다. 이는 상태 ss에서 행동 aa를 선택할 확률을 나타낸다.

정책의 성능은 목적 함수 J(θ)J(\theta)로 측정하며, 이는 다음과 같이 정의된다:

J(θ)=Eτπθ[R(τ)]J(\theta) = \mathbb{E}_{\tau \sim \pi_\theta} [R(\tau)]

이 식은 정책 πθ\pi_\theta를 따라 생성된 궤적들의 기대 보상을 나타낸다. 여기서 τ\tau는 상태와 행동의 시퀀스이고, R(τ)R(\tau)는 해당 궤적에서 얻은 총 보상이다.

정책 최적화의 목표는 J(θ)J(\theta)를 최대화하는 파라미터 θ\theta를 찾는 것이다. 일반적으로 이를 위해 그래디언트 어센트 방법을 사용한다:

θt+1=θt+αθJ(θt)\theta_{t+1} = \theta_t + \alpha \nabla_\theta J(\theta_t)

하지만 여기서 실질적인 문제가 발생한다. θJ(θ)\nabla_\theta J(\theta)를 어떻게 계산할 수 있을까? 보상 함수 R(τ)R(\tau)는 환경에 의해 결정되며, 정책 파라미터 θ\theta에 직접적으로 의존하지 않기 때문에 단순히 미분할 수 없다.

정리의 수학적 표현

Policy Gradient Theorem은 이 문제에 대한 해결책을 제시한다. 이 정리는 목적 함수의 그래디언트를 다음과 같이 표현한다:

θJ(θ)=Eτπθ[t=0T1Qπθ(st,at)θlogπθ(atst)]\nabla_\theta J(\theta) = \mathbb{E}_{\tau \sim \pi_\theta} \left[ \sum_{t=0}^{T-1} Q^{\pi_\theta}(s_t, a_t) \nabla_\theta \log \pi_\theta (a_t \mid s_t) \right]

이 공식을 통해 정책의 그래디언트는 각 상태-행동 쌍의 가치(QπθQ^{\pi_\theta})와 로그 확률의 그래디언트의 곱의 기대값으로 표현됨을 알 수 있다. 이는 그래디언트 계산을 실제로 구현 가능한 형태로 만들어준다.

수학적 유도: 단계별 접근

이 놀라운 결과가 어떻게 도출되는지 단계별로 살펴보자.

1단계: 목적 함수의 그래디언트 설정

먼저 목적 함수를 더 명시적인 형태로 표현해 보자:

J(θ)=τP(τ;θ)R(τ)J(\theta) = \sum_{\tau} P(\tau;\theta) R(\tau)

이 식에서 P(τ;θ)P(\tau;\theta)는 정책 πθ\pi_\theta를 따를 때 궤적 τ\tau가 발생할 확률이다. 이 식의 그래디언트는 다음과 같다:

θJ(θ)=τR(τ)θP(τ;θ)\nabla_\theta J(\theta) = \sum_{\tau} R(\tau) \nabla_\theta P(\tau;\theta)

2단계: 로그 그래디언트 트릭의 적용

여기서 로그 미분의 성질을 활용하는 로그 그래디언트 트릭을 적용한다. 모든 양수 함수 f(x)f(x)에 대해 다음 관계가 성립한다:

xf(x)=f(x)xlogf(x)\nabla_x f(x) = f(x) \nabla_x \log f(x)

이 관계가 성립하는 이유는 미적분학의 연쇄 법칙과 로그 함수의 미분 성질 때문이다. 로그 함수의 미분은 다음과 같다:

ddxlogf(x)=1f(x)ddxf(x)\frac{d}{dx} \log f(x) = \frac{1}{f(x)} \cdot \frac{d}{dx}f(x)

이 식을 xlogf(x)\nabla_x \log f(x)에 대해 정리하면:

xlogf(x)=xf(x)f(x)\nabla_x \log f(x) = \frac{\nabla_x f(x)}{f(x)}

따라서:

f(x)xlogf(x)=f(x)xf(x)f(x)=xf(x)f(x) \nabla_x \log f(x) = f(x) \cdot \frac{\nabla_x f(x)}{f(x)} = \nabla_x f(x)

이 트릭은 특히 확률 분포의 그래디언트를 계산할 때 매우 유용하다. 확률 계산은 복잡한 곱셈으로 이루어지는 경우가 많은데, 로그를 취하면 합으로 변환되어 미분이 간단해지기 때문이다.

이 성질을 P(τ;θ)P(\tau;\theta)에 적용하면:

θP(τ;θ)=P(τ;θ)θlogP(τ;θ)\nabla_\theta P(\tau;\theta) = P(\tau;\theta) \nabla_\theta \log P(\tau;\theta)

따라서 목적 함수의 그래디언트는 다음과 같이 변환된다:

θJ(θ)=τR(τ)P(τ;θ)θlogP(τ;θ)=Eτπθ[R(τ)θlogP(τ;θ)]\nabla_\theta J(\theta) = \sum_{\tau} R(\tau) P(\tau;\theta) \nabla_\theta \log P(\tau;\theta) = \mathbb{E}_{\tau \sim \pi_\theta} [R(\tau) \nabla_\theta \log P(\tau;\theta)]

3단계: 궤적의 확률은 다음과 같이 분해할 수 있다:

P(τ;θ)=P(s0)t=0T1P(st+1st,at)πθ(atst)P(\tau;\theta) = P(s_0) \prod_{t=0}^{T-1} P(s_{t+1} \mid s_t, a_t) \pi_\theta(a_t \mid s_t)

여기서 P(s0)P(s_0)는 초기 상태 분포이고, P(st+1st,at)P(s_{t+1} \mid s_t, a_t)는 환경의 전이 확률이다. 이 식의 로그를 취하면:

logP(τ;θ)=logP(s0)+t=0T1logP(st+1st,at)+t=0T1logπθ(atst)\log P(\tau;\theta) = \log P(s_0) + \sum_{t=0}^{T-1} \log P(s_{t+1} \mid s_t, a_t) + \sum_{t=0}^{T-1} \log \pi_\theta(a_t \mid s_t)

이 식에서 초기 상태 분포와 환경 전이 확률은 정책 파라미터 θ\theta와 무관하므로, 그래디언트를 취할 때 사라진다:

θlogP(τ;θ)=t=0T1θlogπθ(atst)\nabla_\theta \log P(\tau;\theta) = \sum_{t=0}^{T-1} \nabla_\theta \log \pi_\theta(a_t \mid s_t)

4단계: 최종 정리 도출

이제 앞서 얻은 결과를 조합하면:

θJ(θ)=Eτπθ[R(τ)t=0T1θlogπθ(atst)]\nabla_\theta J(\theta) = \mathbb{E}_{\tau \sim \pi_\theta} \left[ R(\tau) \sum_{t=0}^{T-1} \nabla_\theta \log \pi_\theta(a_t \mid s_t) \right]

위 식에서 R(τ)R(\tau)는 궤적 전체에서 얻는 총 보상(r0+r1+...+rT1)(r_0 + r_1 + ... + r_{T-1})을 의미한다. 그러나 이 식은 각 시간 단계 t의 행동이 t 이전의 보상에도 영향을 주는 것처럼 계산한다. 실제로는 t시점의 행동은 t 이후의 보상에만 영향을 미친다. 따라서 각 시간 단계에서는 해당 시점부터 얻을 수 있는 기대 보상인 Q-함수를 사용하는 것이 더 정확하다:

θJ(θ)=Eτπθ[t=0T1Qπθ(st,at)θlogπθ(atst)]\nabla_\theta J(\theta) = \mathbb{E}_{\tau \sim \pi_\theta} \left[ \sum_{t=0}^{T-1} Q^{\pi_\theta}(s_t, a_t) \nabla_\theta \log \pi_\theta (a_t \mid s_t) \right]

마무리

이 정리는 계산이 어려웠던 정책 그래디언트를 계산할 수 있는 형태로 변환했다는 점에서 중요하다. 주요 장점은 다음과 같다:

  1. 실용적인 구현: 몬테카를로 샘플링을 통해 그래디언트를 근사할 수 있다.
  2. 모델 프리 접근: 환경의 역학을 알 필요 없이 학습이 가능하다.

참고

  • 로라 그래서, 와 룬 켕. (2022). 단단한 심층강화학습. 제이펍.
  • 노승은. (2020). 바닥부터 배우는 강화학습. 영진닷컴.
profile
너드나무

0개의 댓글