는 unique fixed point 을 갖는다.
에 를 반복 적용하는 value iteration을 수행할 경우, 로 수렴한다.
이를 통해 Value Iteration Algorithm for policy evaluation 가능
value 뿐만 아니라, policy도 같이 돌며 update한다.
임의의 로 시작한다.
수렴할 때까지 policy evaluation과 policy improvement를 반복한다.
Monotonic Improvement
수렴하는 지점이 optimal policy이다.
정리하신 내용이 많은 도움 되었습니다. 더 자세한 내용을 보고 싶은데, 어떤 강의자료로 공부하셨는지 알 수 있을까요?