FSA.log
로그인
FSA.log
로그인
soft actor critic v1&v2
FSA
·
2023년 9월 14일
팔로우
0
강화학습
목록 보기
3/3
abstract
off-policy 알고리즘:
sample 효율적
task에 따른 hyperparameter 민감성 감소:
hyperparameter 변화에 robust
한 수렴 성능
entorpy 극대화를 목표로 하기 때문임.
여러 random seeds에 걸쳐 성능이 비슷하다.
actor은 expected reward와 entropy 둘 다 극대화 하는 것이 목표
introduction
policy gradient: on-policy
sample 비효율적, but 수렴 안정성
q-learning: off-policy 가능
sample 효율적 , but 수렴 불안정성
FSA
모든 의사 결정 과정을 지나칠 정도로 모두 기록하고, 나중에 스스로 피드백 하는 것
팔로우
이전 포스트
Learning values across many orders of magnitude
0개의 댓글
댓글 작성