# policy iteration

2개의 포스트

Policy Iteration(code)

date: 2021-10-18 19:00:00(https://github.com/rlcode/reinforcement-learning-kr-v2) 의 코드를 참고하였습니다이 코드를 이해하려면 앞선 policy iteration 포스트를 읽어주세요.설명은 주석으

2022년 7월 7일
·
0개의 댓글
·

Policy Iteration(정책 이터레이션)

date: 2021-10-17 21:00:00전 포스트에서 벨만 기대 방정식에 대해서 다루어 보았다.이는 벨만 기대 방정식인데 현재의 정책 π을 따라갔을때 받을 보상에 대한 기댓값이라고 할 수 있다.우리는 벨만 기대 방정식을 통해 한 timestep의 reward, v

2022년 7월 7일
·
0개의 댓글
·