REINFORCE 알고리즘

Nerdwood·2025년 4월 14일

강화학습

목록 보기
2/7
post-thumbnail

REINFORCE 알고리즘

REINFORCE 알고리즘은 Policy Gradient Theorem을 실제로 구현한 몬테카를로 기반의 정책 최적화 방법이다. 이 알고리즘은 실제 경험에서 얻은 데이터를 활용하여 정책 파라미터를 직접 최적화한다.

REINFORCE의 핵심 원리

REINFORCE 알고리즘은 Policy Gradient Theorem의 다음 식을 근간으로 한다:

θJ(θ)=Eτπθ[t=0T1Qπθ(st,at)θlogπθ(atst)]\nabla_\theta J(\theta) = \mathbb{E}_{\tau \sim \pi_\theta} \left[ \sum_{t=0}^{T-1} Q^{\pi_\theta}(s_t, a_t) \nabla_\theta \log \pi_\theta (a_t \mid s_t) \right]

여기서 핵심 아이디어는 두 가지다:

  1. 이론적인 Qπθ(st,at)Q^{\pi_\theta}(s_t, a_t) 값 대신 실제 경험에서 얻은 리턴을 사용한다
  2. 기대값을 몬테카를로 샘플링으로 근사한다

몬테카를로 샘플링을 통한 그래디언트 근사

REINFORCE는 다음과 같이 그래디언트를 근사한다:

θJ(θ)1Ni=1Nt=0Ti1Gtiθlogπθ(atisti)\nabla_\theta J(\theta) \approx \frac{1}{N} \sum_{i=1}^{N} \sum_{t=0}^{T_i-1} G_t^i \nabla_\theta \log \pi_\theta (a_t^i \mid s_t^i)

여기서:

  • GtiG_t^iii번째 에피소드의 시간 tt에서의 리턴(미래 보상의 합)
  • NN은 샘플링한 에피소드의 수

이 접근법의 핵심은 좋은 결과(높은 리턴)를 가져온 행동의 확률은 증가시키고, 나쁜 결과를 가져온 행동의 확률은 감소시키는 것이다.

알고리즘 구현 단계

REINFORCE 알고리즘은 다음과 같은 단순한 단계로 구현된다:

  1. 샘플 수집: 현재 정책 πθ\pi_\theta로 에피소드를 실행하여 상태, 행동, 보상으로 구성된 궤적을 수집한다
  2. 리턴 계산: 각 시간 단계 tt에서의 리턴 Gt=k=tTγktrk+1G_t = \sum_{k=t}^{T} \gamma^{k-t} r_{k+1}을 계산한다
  3. 그래디언트 계산: θJ(θ)t=0T1Gtθlogπθ(atst)\nabla_\theta J(\theta) \approx \sum_{t=0}^{T-1} G_t \nabla_\theta \log \pi_\theta(a_t{\mid}s_t)를 계산한다
  4. 파라미터 업데이트: θθ+αθJ(θ)\theta \leftarrow \theta + \alpha \nabla_\theta J(\theta)로 파라미터를 업데이트한다
  5. 최적 정책에 도달할 때까지 반복한다

REINFORCE의 장단점

장점

  • 직관적인 구현: Policy Gradient Theorem의 직접적인 구현으로 이해하기 쉽다
  • 모델 프리: 환경 모델에 대한 지식 없이도 작동한다
  • 확률적 정책: 탐색과 활용 사이의 균형을 자연스럽게 조절한다

단점

  • 높은 분산: 리턴 추정치는 분산이 커서 학습이 불안정할 수 있다
  • 샘플 비효율성: 매 업데이트마다 새로운 샘플이 필요하다
  • 느린 수렴: 높은 분산으로 인해 최적 정책으로의 수렴이 느리다

REINFORCE 알고리즘은 Policy Gradient Theorem의 첫 번째 실용적 구현으로, 정책 그래디언트 방법론의 기초를 제공한다. REINFORCE의 기본 원리를 이해하면 A2C, PPO와 같은 현대적인 정책 기반 알고리즘들의 핵심 메커니즘을 더 쉽게 파악할 수 있어, 고급 강화학습 방법론을 학습하는 시작점이 된다.

참고

  • 로라 그래서, 와 룬 켕. (2022). 단단한 심층강화학습. 제이펍.
  • 노승은. (2020). 바닥부터 배우는 강화학습. 영진닷컴.
profile
너드나무

0개의 댓글