시리즈

cs285

1.CS 285 at UC Berkeley: Deep Reinforcement Learning | Lecture 6: Actor-Critic Algorithms

policy gradient를 develop시키자sampling 된 거 하나 말고 average 넣으면 분산 줄일 수 있음baseline으로 b 대신 V 사용value function fittings를 input으로 받으면 V(=reward)를 output으로 하는 n

2023년 11월 8일