# multi-step bootstrap

1개의 포스트

02. Multi-step TD

MDP를 모르는 경우에도 어떻게 prediction을 하고 어떻게 control을 할지. prediction은 value를 찾는 문제. MC와 TD가 있다.에피소드를 끝까지 수행하고 얻은 결과에 대해 평균으로 value를 취한다. 실제 수행한 값의 평균을 취한다. 목표

2020년 7월 24일
·
0개의 댓글