value function은 현 state s 이후로 얻을 수 있는 누적 reward를 의미한다. (이전 포스트 참고)
optimal value function 는 모든 가능한 policy case에서 최대의 value function을 의미한다.
optimal policy를 통해 구하는 value function은 optimal value function과 일치한다.
따라서 를 찾으면 optimal police를 찾을 수 있다.(MDP 문제를 풀 수 있다.)
이를 아래에 나올 Bellman Equation으로 표현하면 아래와 같다.