강화학습이 무엇인지에 대해 그 정의를 살펴보고 어디서 유래했는지 알아보는 챕터
기본적인 강화학습은 Agent가 반복해서 시뮬레이션하면서 겪는 경험들을 이용하여 action을 선택할 때 참조하는 일종의 look-up table을 갱신하는 방법이었다.
강화학습의 문제를 표현하는 방법인 MDP의 개념과 value-function을 계산하기 위해 기초가 되는 Bellman Equation에 대해 이해하는 챕터
model을 알고 있을 때(=MDP를 알 떄), Reinforcement Learning에서 Prediction 문제와 Control 문제를 해결하는 방법을 배우는 챕터 (with. DP)
Environment의 MDP(=model)을 알지 못할 때, value function을 어떻게 계산하는지; 주어진 policy를 어떻게 평가하는지에 대한 방법론들
Environment의 MDP(=model)을 알지 못할 때, value function을 어떻게 최적의 policy를 찾을 것인지에 대한 방법론들