강화학습

1.3장 Dynamic Programming

post-thumbnail

2.2장 Markov Decision Process

post-thumbnail

3.1장 강화학습 개요

post-thumbnail

4.2장 강화학습 기초 1: MDP와 벨만 방정식

post-thumbnail

5.MDP의 최적 정책을 구하는 방법

post-thumbnail

6.3장 강화학습 기초 2: 그리드월드와 다이내믹 프로그래밍

post-thumbnail

7.4장 강화학습 기초 3: 그리드월드와 큐러닝

post-thumbnail

8.MDP를 모를 때 value 평가하기

post-thumbnail

9.MDP를 모를 때 value 평가하기

post-thumbnail

10.MDP를 모를 때 value 평가하기

post-thumbnail

11.Deep RL

post-thumbnail

12.Policy Gradient

post-thumbnail