Stanford 대학의 CS234(Reinforcement Learning) 수업을 듣고 정리한 포스트입니다. Lecture 1은 Introduction으로, 강화학습과 Agent/Observation/Reward에 대하여 소개하고 있습니다.
Model-Free 방법으로 Monte Carlo(MC)와 Temporal Difference(TD)에 포함되는 SARSA, Q-Learning에 대해 다룰 예정. on-policy와 off-policy 차이에 대해 알 수 있음.