Introduction to Reinforcement Learning
본 글에서는 강화학습의 핵심인 Markov Decision Processes(MDPs)를 다룬다.
Dynamic programming(DP) in Reinforcement Learning
이전 글에서는 DP의 연산량 문제, 모델 필요성 등의 단점을 해결하기 위해 Sample backup과 관련된 방법들이 쓰인다고 했습니다. 이 중 대표적인 Monte Carlo방법에 대해 간략하게 다루어봅시다.
Off-policy control and Q-Learning
Value function Approximation
DQN
.