"앞으로 강화학습에 다루게 될 포스팅은 Google DeepMind에서 제공하는 RL Cource by David Silver 강의를 듣고 강의자료를 참고하여 개인적으로 리뷰하는 내용입니다.
MDP(Markov decision process)에 대해 간략하게 소개하자면 다음과 표현할 수 있습니다."Markov decision processes formally descirbe an environment for reinforcement learning(...)
3장에서는 MDP를 적용한 다양한 문제에서 full knowledge - State transition probabilty와 policy값을 포함하여 모든 정보를 알고 있는-인 Model - based method인 Planning 문제 해결방법에 대하여 공부합니다.
"앞으로 강화학습에 다루게 될 포스팅은 Google DeepMind에서 제공하는 RL Cource by David Silver 강의를 듣고 강의자료를 참고하여 개인적으로 리뷰하는 내용입니다.