# MC

3개의 포스트

Monte Carlo Prediction and Temporal Difference Error

date: 2021-10-18 12:00:00우리는 policy iteration을 policy evaluation과 policy improvemet를 통해서 다이나믹 프로그래밍을 이용해 계산을 하였다.그런데, 대부분의 문제는 다이나믹 프로그래밍을 적용하기 어렵다.그

2022년 7월 7일
·
0개의 댓글
·
post-thumbnail

Model-free RL의 기초 -1 불확실한 세계에서 가치 추산하기

강화학습 시리즈는 패스트캠퍼스 박준영 강사의 수업과 Sergey Levine의 Deep Reinforcement Learning 그리고 서튼의 강화학습 교재를 참고하여 만들어졌고 어떤 상업적 목적이 없음을 밝힙니다.우리는 지난 시간에 환경과 보상 함수에 대해 알고 있다

2022년 2월 6일
·
0개의 댓글
·
post-thumbnail

[강화학습] MC와 TD

모델을 모르는 경우, 정책을 구하는 것이 쉽지 않습니다.이 경우에 대표적인 방법은 두 가지로 몬테 카를로법과 시간차 방법이 있습니다.

2021년 6월 10일
·
0개의 댓글
·