이 주제는, Sutton 교수의 "Reinforcement Learning: An Introduction" 를 기반으로,
해당 Textbook에 따라 포스팅 될 예정이다.
전체 포스팅의 구성은 다음과 같다.
Tabular Solution Methods
- Multi-armed Bandits
- Finite Markov Decision Processes
- Dynamic Programming
- Monte Carlo Methods
- Temporal-Difference Learning
- -step Bootstrapping
- Planning and Learning with Tabular Methods
Approximate Solution Methods
- On-policy Prediction with Approximation
- On-policy Control with Approximation
- Off-policy Methods with Approximation
- Eligibility Traces
- Policy Gradient Methods
Looking Deeper
- Psychology
- Neuroscience
- Applications and Case Studies
- Frontiers
Tabular method와 Approximate Solution Methods의 관계에 대해서 간략하게 소개하고 넘어가자면,
기본적으로, 강화학습이 Markov Decision Processes(MDP)의 틀에서 이루어 진다는 것을 알아야한다.
MDP를 통해 문제를 해결할 수 있다면, 강화학습도 필요하지 않다.
하지만, 문제가 복잡해 질수록, MDP로 문제를 해결하는데 어려움이 생기게 되고, 이를 근사적으로 풀이하는 방법인 Approximate Solution Methods를 이용하게 된다.
그렇기 때문에,
이하 Looking Deeper의 경우, 추가적인 정보 정도로 생각하면 좋을것 같다.