policy gradient를 develop시키자
value function fitting
policy evaluation
batch actor-critic algorithm
1. 샘플링
2. V fitting
3. A(s, a) = r(s, a) + γV(s') - V(s)
4. gradient 구하기 (A이용)
5. update
discount factor γ 도입
online actor-critic algorithm
1. policy 중간의 어떤 state에서 action 취함 (s, a, s', r)
2. V fitting (r + γV 이용)
3. A(s, a) = r(s, a) + γV(s') - V(s)
4. gradient 구하기 (A이용)
5. update
Monte Carlo policy gradient에서 baseline을 value function으로 대체하면