REINFORCE 알고리즘

Nerdwood·2025년 4월 14일

PolicyGradient reinforce 강화학습 기계학습 인공지능

강화학습

목록 보기

2/7

REINFORCE 알고리즘

REINFORCE 알고리즘은 Policy Gradient Theorem을 실제로 구현한 몬테카를로 기반의 정책 최적화 방법이다. 이 알고리즘은 실제 경험에서 얻은 데이터를 활용하여 정책 파라미터를 직접 최적화한다.

REINFORCE의 핵심 원리

REINFORCE 알고리즘은 Policy Gradient Theorem의 다음 식을 근간으로 한다:

\nabla_\theta J(\theta) = \mathbb{E}_{\tau \sim \pi_\theta} \left[ \sum_{t=0}^{T-1} Q^{\pi_\theta}(s_t, a_t) \nabla_\theta \log \pi_\theta (a_t \mid s_t) \right]

여기서 핵심 아이디어는 두 가지다:

이론적인 $Q^{\pi_\theta}(s_t, a_t)$ 값 대신 실제 경험에서 얻은 리턴을 사용한다
기대값을 몬테카를로 샘플링으로 근사한다

몬테카를로 샘플링을 통한 그래디언트 근사

REINFORCE는 다음과 같이 그래디언트를 근사한다:

\nabla_\theta J(\theta) \approx \frac{1}{N} \sum_{i=1}^{N} \sum_{t=0}^{T_i-1} G_t^i \nabla_\theta \log \pi_\theta (a_t^i \mid s_t^i)

여기서:

$G_t^i$ 는 $i$ 번째 에피소드의 시간 $t$ 에서의 리턴(미래 보상의 합)
$N$ 은 샘플링한 에피소드의 수

이 접근법의 핵심은 좋은 결과(높은 리턴)를 가져온 행동의 확률은 증가시키고, 나쁜 결과를 가져온 행동의 확률은 감소시키는 것이다.

알고리즘 구현 단계

REINFORCE 알고리즘은 다음과 같은 단순한 단계로 구현된다:

샘플 수집: 현재 정책 $\pi_\theta$ 로 에피소드를 실행하여 상태, 행동, 보상으로 구성된 궤적을 수집한다
리턴 계산: 각 시간 단계 $t$ 에서의 리턴 $G_t = \sum_{k=t}^{T} \gamma^{k-t} r_{k+1}$ 을 계산한다
그래디언트 계산: $\nabla_\theta J(\theta) \approx \sum_{t=0}^{T-1} G_t \nabla_\theta \log \pi_\theta(a_t{\mid}s_t)$ 를 계산한다
파라미터 업데이트: $\theta \leftarrow \theta + \alpha \nabla_\theta J(\theta)$ 로 파라미터를 업데이트한다
최적 정책에 도달할 때까지 반복한다

REINFORCE의 장단점

장점

직관적인 구현: Policy Gradient Theorem의 직접적인 구현으로 이해하기 쉽다
모델 프리: 환경 모델에 대한 지식 없이도 작동한다
확률적 정책: 탐색과 활용 사이의 균형을 자연스럽게 조절한다

단점

높은 분산: 리턴 추정치는 분산이 커서 학습이 불안정할 수 있다
샘플 비효율성: 매 업데이트마다 새로운 샘플이 필요하다
느린 수렴: 높은 분산으로 인해 최적 정책으로의 수렴이 느리다

REINFORCE 알고리즘은 Policy Gradient Theorem의 첫 번째 실용적 구현으로, 정책 그래디언트 방법론의 기초를 제공한다. REINFORCE의 기본 원리를 이해하면 A2C, PPO와 같은 현대적인 정책 기반 알고리즘들의 핵심 메커니즘을 더 쉽게 파악할 수 있어, 고급 강화학습 방법론을 학습하는 시작점이 된다.