REINFORCE 알고리즘
REINFORCE 알고리즘은 Policy Gradient Theorem을 실제로 구현한 몬테카를로 기반의 정책 최적화 방법이다. 이 알고리즘은 실제 경험에서 얻은 데이터를 활용하여 정책 파라미터를 직접 최적화한다.
REINFORCE의 핵심 원리
REINFORCE 알고리즘은 Policy Gradient Theorem의 다음 식을 근간으로 한다:
∇θJ(θ)=Eτ∼πθ[t=0∑T−1Qπθ(st,at)∇θlogπθ(at∣st)]
여기서 핵심 아이디어는 두 가지다:
- 이론적인 Qπθ(st,at) 값 대신 실제 경험에서 얻은 리턴을 사용한다
- 기대값을 몬테카를로 샘플링으로 근사한다
몬테카를로 샘플링을 통한 그래디언트 근사
REINFORCE는 다음과 같이 그래디언트를 근사한다:
∇θJ(θ)≈N1i=1∑Nt=0∑Ti−1Gti∇θlogπθ(ati∣sti)
여기서:
- Gti는 i번째 에피소드의 시간 t에서의 리턴(미래 보상의 합)
- N은 샘플링한 에피소드의 수
이 접근법의 핵심은 좋은 결과(높은 리턴)를 가져온 행동의 확률은 증가시키고, 나쁜 결과를 가져온 행동의 확률은 감소시키는 것이다.
알고리즘 구현 단계
REINFORCE 알고리즘은 다음과 같은 단순한 단계로 구현된다:
- 샘플 수집: 현재 정책 πθ로 에피소드를 실행하여 상태, 행동, 보상으로 구성된 궤적을 수집한다
- 리턴 계산: 각 시간 단계 t에서의 리턴 Gt=∑k=tTγk−trk+1을 계산한다
- 그래디언트 계산: ∇θJ(θ)≈∑t=0T−1Gt∇θlogπθ(at∣st)를 계산한다
- 파라미터 업데이트: θ←θ+α∇θJ(θ)로 파라미터를 업데이트한다
- 최적 정책에 도달할 때까지 반복한다
REINFORCE의 장단점
장점
- 직관적인 구현: Policy Gradient Theorem의 직접적인 구현으로 이해하기 쉽다
- 모델 프리: 환경 모델에 대한 지식 없이도 작동한다
- 확률적 정책: 탐색과 활용 사이의 균형을 자연스럽게 조절한다
단점
- 높은 분산: 리턴 추정치는 분산이 커서 학습이 불안정할 수 있다
- 샘플 비효율성: 매 업데이트마다 새로운 샘플이 필요하다
- 느린 수렴: 높은 분산으로 인해 최적 정책으로의 수렴이 느리다
REINFORCE 알고리즘은 Policy Gradient Theorem의 첫 번째 실용적 구현으로, 정책 그래디언트 방법론의 기초를 제공한다. REINFORCE의 기본 원리를 이해하면 A2C, PPO와 같은 현대적인 정책 기반 알고리즘들의 핵심 메커니즘을 더 쉽게 파악할 수 있어, 고급 강화학습 방법론을 학습하는 시작점이 된다.
참고
- 로라 그래서, 와 룬 켕. (2022). 단단한 심층강화학습. 제이펍.
- 노승은. (2020). 바닥부터 배우는 강화학습. 영진닷컴.