# SAC

4개의 포스트
post-thumbnail

논문 리뷰 D2RL: Deep Dense ARCHITECTURE IN REINFORCEMENT LEARNING

기존 RL에 사용하는 신경망은 단순하게 fully-connected layer를 1~2층으로 연결하는 것으로 구성되었다. 하지만 이런 단순한 구조로 학습한 agent는 복잡하고 연속적인 state , action space 에 대한 exploration 의 한계가 명확

2022년 5월 8일
·
0개의 댓글
post-thumbnail

Maximum Entropy Reinforced Single Object Visual Tracking

기존 강화학습을 이용한 Visual Tracking 알고리즘들은 Exploration 전략이 부족해 Local Optimal(non-target detection)에 빠지는 경우가 많았고 이것을 극복하지 못했다. 이 연구에서는 Exploration을 Entropy로 정

2022년 2월 9일
·
0개의 댓글
post-thumbnail

Improved Soft Actor-Critic: Mixing Prioritized Off-Policy Samples with On-Policy Experience -논문 리뷰

논문 출처: https://arxiv.org/abs/2109.11767https://velog.io/@everyman123/PRIORITIZED-EXPERIENCE-REPLAY-%EB%85%BC%EB%AC%B8-%EB%A6%AC%EB%B7%B0http

2022년 2월 7일
·
0개의 댓글
post-thumbnail

강화학습 개념정리(3) - 알고리즘 종류, on-policy, off-policy, Q러닝, Policy Gradient, Model-Free, Model-Based

미리 말하자면, 위 분류는 완벽하지 않다. RL의 특성 상 트리 구조로 엄밀하게 분류하기가 힘들기 때문이다. 예를들어 Policy Gradient 와 Value Function을 둘다 사용하는 DDPG, TD3, SAC는 세부적으로 다르게 작동하지만 트리구조 상에서는

2021년 7월 19일
·
0개의 댓글