# model free

3개의 포스트
post-thumbnail

[강화학습] Model Free Prediction

Environment의 MDP(=model)을 알지 못할 때, value function을 어떻게 계산하는지; 주어진 policy를 어떻게 평가하는지에 대한 방법론들

3일 전
·
0개의 댓글
·
post-thumbnail

Model-free RL의 기초 -1 불확실한 세계에서 가치 추산하기

강화학습 시리즈는 패스트캠퍼스 박준영 강사의 수업과 Sergey Levine의 Deep Reinforcement Learning 그리고 서튼의 강화학습 교재를 참고하여 만들어졌고 어떤 상업적 목적이 없음을 밝힙니다.우리는 지난 시간에 환경과 보상 함수에 대해 알고 있다

2022년 2월 6일
·
0개의 댓글
·
post-thumbnail

강화학습 개념정리(3) - 알고리즘 종류, on-policy, off-policy, Q러닝, Policy Gradient, Model-Free, Model-Based

미리 말하자면, 위 분류는 완벽하지 않다. RL의 특성 상 트리 구조로 엄밀하게 분류하기가 힘들기 때문이다. 예를들어 Policy Gradient 와 Value Function을 둘다 사용하는 DDPG, TD3, SAC는 세부적으로 다르게 작동하지만 트리구조 상에서는

2021년 7월 19일
·
0개의 댓글
·