고려대학교 산업공학과 정태수 교수님 강의 정리
Week7: 마르코브 결정 프로세스-3
--> 목적: 가치함수의 값을 바탕으로 최적의 정상정책을 찾아내는 것
- 알고리즘 아이디어: 와 가 모든 s에 대해서 다 같다면 문제를 조금 더 반복적으로 풀 수 있지 않을까? 하고 제안된 방법론
정책 평가 (Policy evaluation)
정책 개선 (Policy improvement)
1. 모든 정책 나열 후 정책 평가
2. 최적 정책 (가장 높은 가치함수 값) 선택