soft actor critic v1&v2

FSA·2023년 9월 14일

강화학습

목록 보기

3/3

abstract

off-policy 알고리즘:sample 효율적
task에 따른 hyperparameter 민감성 감소: hyperparameter 변화에 robust 한 수렴 성능
- entorpy 극대화를 목표로 하기 때문임.
- 여러 random seeds에 걸쳐 성능이 비슷하다.
actor은 expected reward와 entropy 둘 다 극대화 하는 것이 목표

introduction

policy gradient: on-policy
- sample 비효율적, but 수렴 안정성
q-learning: off-policy 가능
- sample 효율적 , but 수렴 불안정성

모든 의사 결정 과정을 지나칠 정도로 모두 기록하고, 나중에 스스로 피드백 하는 것

이전 포스트

Learning values across many orders of magnitude

0개의 댓글