# off policy

4개의 포스트
post-thumbnail

Off-Policy TD Q-Learning

강화학습 시리즈는 패스트캠퍼스 박준영 강사님의 수업과 Sergey Levine의 Deep Reinforcement Learning 그리고 서튼의 강화학습 교재를 참고하여 만들어졌고 어떤 상업적 목적이 없음을 밝힙니다.$V(s)=\\sum\\limits{a \\in A(

2022년 2월 8일
·
0개의 댓글
·
post-thumbnail

Off-Policy Monte Carlo

강화학습 시리즈는 패스트캠퍼스 박준영 강사님의 수업과 Sergey Levine의 Deep Reinforcement Learning 그리고 서튼의 강화학습 교재를 참고하여 만들어졌고 어떤 상업적 목적이 없음을 밝힙니다.Monte Carlo와 TD 방식으로 가치함수를 추정

2022년 2월 8일
·
0개의 댓글
·
post-thumbnail

Improved Soft Actor-Critic: Mixing Prioritized Off-Policy Samples with On-Policy Experience -논문 리뷰

논문 출처: https://arxiv.org/abs/2109.11767https://velog.io/@everyman123/PRIORITIZED-EXPERIENCE-REPLAY-%EB%85%BC%EB%AC%B8-%EB%A6%AC%EB%B7%B0http

2022년 2월 7일
·
0개의 댓글
·
post-thumbnail

강화학습 개념정리(3) - 알고리즘 종류, on-policy, off-policy, Q러닝, Policy Gradient, Model-Free, Model-Based

미리 말하자면, 위 분류는 완벽하지 않다. RL의 특성 상 트리 구조로 엄밀하게 분류하기가 힘들기 때문이다. 예를들어 Policy Gradient 와 Value Function을 둘다 사용하는 DDPG, TD3, SAC는 세부적으로 다르게 작동하지만 트리구조 상에서는

2021년 7월 19일
·
0개의 댓글
·