policy gradient를 develop시키자sampling 된 거 하나 말고 average 넣으면 분산 줄일 수 있음baseline으로 b 대신 V 사용value function fittings를 input으로 받으면 V(=reward)를 output으로 하는 n