[Deep Reinforcement Learning] 22강 REINFORCE

Woosci·2025년 7월 25일

강화학습

[Deep Reinforcement Learning]

목록 보기

21/33

👨‍🏫학습목표

오늘은 Policy Gradient algorithm의 대표적인 모델 REINFORCE에 대해 배워볼 예정이다.

👨‍🎓강의영상: https://www.youtube.com/watch?v=CH09gfU7ko4&list=PLvbUC2Zh5oJtYXow4jawpZJ2xBel6vGhC&index=22

0️⃣ Policy Gradient algorithm

📕 지난 시간에 배운 내용

🔸 Policy Gradient algorithm은 DQN과 구별되는 2가지 특징이 있다.

Neural Network를 통해 policy를 직접 학습한다.
Total reward를 maximize하는 방향으로 학습한다.

🔸 Policy Gradient algorithm의 출력

입력 state에 대한 action $a$ 를 stochastic하게 출력한다.
파라미터가 optimal하게 고정되더라고 stochastic하게 출력 가능하다.
Action을 직접 출력하기 때문에 continuous한 출력이 가능하다.

1️⃣ REINFORCE

🔷 REINFORCE (Monte Carlo Policy Gradient)

Policy Gradient방식에 Return $G_t$ 값을 사용하기 때문에 Monte Carlo Policy Gradient 라고 한다.
Policy Gradient방식으로 policy를 직접 업데이트한다.

🔻 Pseudo code

🔸 1. Execute M trajectories

주어진 policy $\theta$ 에서 Minibatch의 크기 $M$ 개의 episode sample을 수집한다.
State $s$ 에서 시작하여 데이터를 수집한다.

🔸 2. Approximate the gradient of the objective function $J(\theta)$

$g_\theta := \frac{1}{M} \sum_{i=1}^M \left( \sum_{t=0}^{T-1} G_t^{(i)} \nabla_\theta \log \pi_\theta(a_t^{(i)} | s_t^{(i)}) \right) \approx \nabla_\theta J(\theta)$

Return $G_t$ 를 통해 objective function을 계산한다.
$M$ 개의 minibatch에 대한 평균을 통해 gradient를 근사한다.

🔸 3. Update policy to maximize $J(\theta)$

$\theta := \theta + \alpha g_\theta \approx \theta + \alpha \nabla_\theta J(\theta)$

파라미터를 업데이트한다.

2️⃣ REINFORCE with baseline

🔷 Episode sample 데이터의 한계

모델에 policy를 따라 데이터를 수집할 때, 매 step마다 stochastic하게 선택되기 때문에 step이 길어질수록 점점 variance가 커진다.

Variance가 클수록 학습 과정이 요동치는 것을 확인할 수 있다.

종류	Monte Carlo	Temporal Difference
Bias	X	O
Variance	크다	작다

Monte Carlo와 Temporal Difference의 bias에 대한 추가적인 내용은 아래 글에서 확인 가능하다.

📃자료: https://velog.io/@tina1975/Deep-Reinforcement-Learning-14강-Temporal-Difference-Learning-2

🔻 Episode sample 데이터 사용 시 목표

Sample 데이터의 variance를 줄인다.
Sample 데이터의 bias를 없애야 한다.

🔷 REINFORCE with baseline

$\nabla_\theta J(\theta) = \mathbb{E}_{\pi_\theta}\left[\sum_{t=0}^{T-1} (G_t - b(s_t)) \nabla_\theta \log \pi_\theta(a_t | s_t)\right]$

Baseline $b(s_t)$ 을 추가하여 variance를 줄여준다.
Baseline $b(s_t)$ 는 action에 독집적이고, state에 의해 결정된다.
기존의 $\nabla_\theta J(\theta)$ 은 unbiased하다.
Baseline $b(s_t)$ 을 추가하여 bias가 생길 수 있기 때문에 bias가 생기지 않는다는 이론적 근거가 필요한다.
즉 expectation값 자체가 변하지 않아야 한다.

🔻 Bias가 생기지 않는다는 이론적 근거

$\mathbb{E}_{\pi}\left[\sum_t b(s_t) \nabla \log \pi(a_t | s_t)\right] = 0$

우리는 위 식이 성립함을 보여야 한다.

$\mathbb{E}_{\pi}\left[\sum_t b(s_t) \nabla \log \pi(a_t | s_t)\right] = \int \sum_t \pi(a_t | s_t) b(s_t) \nabla \log \pi(a_t | s_t) d\tau$

Expectation을 모든 trajectory에 대해 적분으로 표현한다.

$\int \sum_t \pi(a_t | s_t) b(s_t) \nabla \log \pi(a_t | s_t) d\tau=\int \sum_t b(s_t) \nabla \pi(a_t | s_t) d\tau$

$log$ 의 미분 형태에 따라 $\frac{\nabla \pi(a_t | s_t)}{\pi(a_t | s_t)} = \nabla \log \pi(a_t | s_t)$ 이므로 위 식이 성립한다.

$\sum_t b(s_t) \nabla \pi(a_t | s_t)$ 를 살펴보면

$\sum_{a_t} b(s_t) \nabla \pi(a_t | s_t) = b(s_t) \nabla \sum_{a_t} \pi(a_t | s_t) = b(s_t) \nabla 1 = 0.$

Baseline $b(s_t)$ 은 action과 무관하므로 $\sum$ 에서 빠져나온다.
모든 action에 대한 $\pi(a_t | s_t)$ 의 합은 1이므로 위 식이 유도된다.

$\mathbb{E}_{\pi}\left[\sum_t b(s_t) \nabla \log \pi(a_t | s_t)\right]=\int \sum_t b(s_t) \nabla \pi(a_t | s_t) d\tau = 0$

위 내용을 연결하면 Baseline을 추가한 식이 0이 됨을 확인할 수 있다.
따라서 Baseline을 추가하더라도 gradient의 값에 영향을 주지 않는다.

🔻 Baseline값

$V(s) = \mathbb{E}_{\pi_\theta}[G_t | S_t = s]$

Baseline은 action에 무관한 값을 사용해야 한다.
보통 state-value function을 많이 사용한다.
State-value function은 return $G_t$ 의 평균값이다.

3️⃣ REINFORCE의 pseudo code

🔷 REINFORCE with baseline의 구조

State-value $V(s;\phi)$ 를 추정하는 Network와 policy $\pi(a|s; \theta)$ 를 추정하는 Network가 있다.
Network가 2개이므로 step size 역시 2개가 필요하다.

🔻 작동과정

주어진 state $s_o$ 에 대한 sample 데이터를 수집한다.
수집한 데이터를 통해 return $G_t$ 를 구한다.

$\delta \leftarrow G_t - V(s_t; \phi)$

파라미터 $\phi$ 와 $\theta$ 를 업데이트할 때 사용되는 $\delta$ 값을 정의한다.

$\phi \leftarrow \phi + \beta \delta \nabla_\phi V(s_t; \phi)$
$\text{minimizing } L(\phi) = \mathbb{E}_{\pi_\theta}\left[\sum_{t=0}^{T-1} (G_t - V(s_t; \phi))^2\right]$

State-value function $\phi$ 에 대한 업데이트를 진행한다.
파라미터 $\phi$ 를 수집한 return $G_t$ 값에 가까워지도록 학습한다.

$\theta \leftarrow \theta + \alpha \gamma^t \delta \nabla_\theta \log \pi(a_t | s_t; \theta)$
$\nabla_\theta J(\theta) = \mathbb{E}_{\pi_\theta}\left[\sum_{t=0}^{T-1} (G_t - V(s_t; \phi)) \nabla_\theta \log \pi_\theta(a_t | s_t)\right]$

Policy에 대한 파라미터 $\theta$ 를 업데이트한다.
Discount factor $\gamma^t$ 는 practical한 이유로 추가하였다.
업데이트의 방향을 의미하는 $\nabla_\theta \log \pi_\theta(a_t | s_t)$ Network를 actor라고 부른다.
업데이트의 크기를 의미하는 $V(s_t; \phi)$ Network를 critic이라고 부른다.

4️⃣ DQN & Policy Gradient

🔷 DQN

Q-learning에서 Q-table을 Q-Network로 근사한다.
대표적인 모델 : Atari DQN
Optimal Q-value를 통해 policy를 구한다.
Temporal correlation을 막기 위해 Experience Replay를 사용한다.

🔷 Policy Gradient

Network를 통해 Policy를 직접 근사한다.
대표적인 모델 : AlphaGo
Expected total reward를 통해 policy를 업데이트한다. → Reinforcement Learning의 핵심 아이디어
Total Reward를 사용하기 때문에 temporal correlation 문제가 발생하지 않는다.
그 결과 코드 역시 훨씬 간단하다.

5️⃣ 정리

🔷 22강에서 배운 내용은 아래와 같다.

REINFORCE는 Return $G_t$ 를 통해 policy를 업데이트한다.

REINFORCE의 pseudo code에 대해 살펴보았다.

Return $G_t$ 를 통한 학습은 variance가 커진다는 한계가 존재한다.

Action에 무관한 baseline을 통해 variance를 줄일 수 있다.

Baseline이 있는 REINFORCE 모델의 pseudo code를 살펴보았다.

Woosci

I'm curious about AI

이전 포스트

[Deep Reinforcement Learning] 21강 Policy Gradient algorithm

다음 포스트

[Deep Reinforcement Learning] 22강 REINFORCE

[Deep Reinforcement Learning]

👨‍🏫학습목표

👨‍🎓강의영상: https://www.youtube.com/watch?v=CH09gfU7ko4&list=PLvbUC2Zh5oJtYXow4jawpZJ2xBel6vGhC&index=22

0️⃣ Policy Gradient algorithm

📕 지난 시간에 배운 내용

🔸 Policy Gradient algorithm은 DQN과 구별되는 2가지 특징이 있다.

🔸 Policy Gradient algorithm의 출력

1️⃣ REINFORCE

🔷 REINFORCE (Monte Carlo Policy Gradient)

🔻 Pseudo code

🔸 1. Execute M trajectories

🔸 2. Approximate the gradient of the objective function $J(\theta)$

🔸 3. Update policy to maximize $J(\theta)$

2️⃣ REINFORCE with baseline

🔷 Episode sample 데이터의 한계

Monte Carlo와 Temporal Difference의 bias에 대한 추가적인 내용은 아래 글에서 확인 가능하다.

📃자료: https://velog.io/@tina1975/Deep-Reinforcement-Learning-14강-Temporal-Difference-Learning-2

🔻 Episode sample 데이터 사용 시 목표

🔷 REINFORCE with baseline

🔻 Bias가 생기지 않는다는 이론적 근거

$\sum_t b(s_t) \nabla \pi(a_t | s_t)$ 를 살펴보면

🔻 Baseline값

3️⃣ REINFORCE의 pseudo code

🔷 REINFORCE with baseline의 구조

🔻 작동과정

4️⃣ DQN & Policy Gradient

🔷 DQN

🔷 Policy Gradient

5️⃣ 정리

🔷 22강에서 배운 내용은 아래와 같다.

[Deep Reinforcement Learning] 21강 Policy Gradient algorithm

[Deep Reinforcement Learning] 23강 Actor-Critic method

0개의 댓글

[Deep Reinforcement Learning] 22강 REINFORCE

[Deep Reinforcement Learning]

👨‍🏫학습목표

👨‍🎓강의영상: https://www.youtube.com/watch?v=CH09gfU7ko4&list=PLvbUC2Zh5oJtYXow4jawpZJ2xBel6vGhC&index=22

0️⃣ Policy Gradient algorithm

📕 지난 시간에 배운 내용

🔸 Policy Gradient algorithm은 DQN과 구별되는 2가지 특징이 있다.

🔸 Policy Gradient algorithm의 출력

1️⃣ REINFORCE

🔷 REINFORCE (Monte Carlo Policy Gradient)

🔻 Pseudo code

🔸 1. Execute M trajectories

🔸 2. Approximate the gradient of the objective function J(θ)J(\theta)J(θ)

🔸 3. Update policy to maximize J(θ)J(\theta)J(θ)

2️⃣ REINFORCE with baseline

🔷 Episode sample 데이터의 한계

Monte Carlo와 Temporal Difference의 bias에 대한 추가적인 내용은 아래 글에서 확인 가능하다.

📃자료: https://velog.io/@tina1975/Deep-Reinforcement-Learning-14강-Temporal-Difference-Learning-2

🔻 Episode sample 데이터 사용 시 목표

🔷 REINFORCE with baseline

🔻 Bias가 생기지 않는다는 이론적 근거

∑tb(st)∇π(at∣st)\sum_t b(s_t) \nabla \pi(a_t | s_t)∑t​b(st​)∇π(at​∣st​)를 살펴보면

🔻 Baseline값

3️⃣ REINFORCE의 pseudo code

🔷 REINFORCE with baseline의 구조

🔻 작동과정

4️⃣ DQN & Policy Gradient

🔷 DQN

🔷 Policy Gradient

5️⃣ 정리

🔷 22강에서 배운 내용은 아래와 같다.

[Deep Reinforcement Learning] 21강 Policy Gradient algorithm

[Deep Reinforcement Learning] 23강 Actor-Critic method

0개의 댓글

🔸 2. Approximate the gradient of the objective function $J(\theta)$

🔸 3. Update policy to maximize $J(\theta)$

$\sum_t b(s_t) \nabla \pi(a_t | s_t)$ 를 살펴보면