# sample-efficient

3개의 포스트
post-thumbnail

Improved Soft Actor-Critic: Mixing Prioritized Off-Policy Samples with On-Policy Experience -논문 리뷰

논문 출처: https://arxiv.org/abs/2109.11767https://velog.io/@everyman123/PRIORITIZED-EXPERIENCE-REPLAY-%EB%85%BC%EB%AC%B8-%EB%A6%AC%EB%B7%B0http

2022년 2월 7일
·
0개의 댓글
·
post-thumbnail

Asynchronous Episodic Deep Deterministic Policy Gradient: Towards Continuous control in Computationally Complex Environments -논문 리뷰

논문 출처: https://arxiv.org/abs/1903.00827오늘은 이전에 소개한 Prioritized-Experience-Replay 처럼 Sample에 우선순위를 두어 Data-Efficient 를 높인 논문을 소개하겠다.Prioritized-Ex

2022년 2월 7일
·
0개의 댓글
·
post-thumbnail

PRIORITIZED EXPERIENCE REPLAY - 논문 리뷰

논문 출처: https://arxiv.org/abs/1511.05952DQN의 목표는 신경망이 최적 Q함수에 근사하는 것이다. 하지만 최적 Q함수 $Q^\*$ 을 표현하는 방법이 없기 때문에 벨만 방정식을 이용해 Target-Q(최적 Q함수)를 표현하고 Q-n

2022년 2월 1일
·
0개의 댓글
·