Dynamic Programming

happiyoung_·2026년 4월 8일

목록 보기

5/5

GOAL

즉, 최적의 state value와 state를 찾으면 최적의 policy를 찾을 수 있다.

그렇다면 어떻게 q*와 v*를 어떻게 구할 것인가?

그 방법은 다음 2가지
1. Policy Iteration (policy evaluation and policy improvement)
- policy를 반복적으로 업그래이드 하겠다.
2. Value Iteration

이를 dynamic programming이라고 부른다.

For prediction
• Input: MDP S, A, p, r, ρ0, γ and policy π
• Output: value function vπ
For control
• Input: MDP S, A, p, r, ρ0, γ
• Output: optimal value function v∗ and optimal policy π∗

MDP에 관한 모든 정보를 알고 있고, 문제가 작을 때 활용 가능

Prediction : mdp와 policy가 주어졌을때, policy를 반복적으로 평가 (벨만 ex pectation 방정식 활용)
Control : mdp와 policy가 주어졌을때, policy반복적으로 평가 및 greedy policy (Bellman Expectation Equation) 와 value iteration (Bellman Optimal Equation)

fixed-point iteration method의 필요성

fixed-point iteration method

fixed-point : 함수를 만족하는 해
fixed-point iteration : 해를 구하는 정의

어떻게 해를 구하는가?
초기값 x0에서 시작해서 반복적으로 찾아가겠다.