Markov Decision Process (2)

홍찬우·2023년 1월 1일

Bellman Optimality Equation

optimal state-value function v(s) : 모든 policy에서 maximum state-value function
optimal action-value function q(s, a) : 모든 policy에서 maximun action-value function

Optimal Policy

value function을 최대로 만드는 policy

π*(a | s)에서 optimal a 일 때만 probability를 1로 하고 나머지를 0으로 만든다.
이 결과 각 state 마다 한 개의 action만 취하게 된다.

Value iteration & Policy iteration

Dynamic Programming (dp)의 원리로 두 값의 최적값을 찾는다.

초기 v(s) 값을 0으로 설정하고 iteration을 통해 v(s)를 update하며 optimal v를 찾는다.
초기 π(s) 값을 randomly initialize 한 후 iteration을 통해 π(s)를 update하며 optimal π를 찾는다.

글을 쓰면서도 완전히 이해가 되지 않는 부분들이 존재했다. 또한 Reinforcement Learning, Q-function, DQN 등의 내용은 더 연구한 뒤, 글을 남겨야 할 것 같다.

홍찬우

AI-Kid

이전 포스트

MRP (Markov Reward Process)

다음 포스트

Markov Decision Process (2)

Bellman Optimality Equation

Optimal Policy

Value iteration & Policy iteration

MRP (Markov Reward Process)

[논문 분석] Large-Scale Order Dispatch in On-Demand Ride-Hailing Platforms

0개의 댓글

관련 채용 정보