MDP의 개념, 기본용어, 목표
optimal value function과 Bellman Equation을 통해 MDP 문제 풀기
Finite-Horizon MDP 문제를 푸는 법 - Optimal Value Function 구하는 DP 문제
infinite horizon MDP의 구성요소, value function,value iteration, policy iteration
LP를 활용한 MDP 풀이 공식
Q-function의 형태와 여러 특징
강화학습의 기본 배경과 특징
approximation을 통해 optimal 값을 구하기 위한 조건
.