soft actor critic v1&v2

FSA·2023년 9월 14일

강화학습

목록 보기
3/3

abstract

  • off-policy 알고리즘:sample 효율적
  • task에 따른 hyperparameter 민감성 감소: hyperparameter 변화에 robust 한 수렴 성능
    • entorpy 극대화를 목표로 하기 때문임.
    • 여러 random seeds에 걸쳐 성능이 비슷하다.
  • actor은 expected reward와 entropy 둘 다 극대화 하는 것이 목표

introduction

  • policy gradient: on-policy
    • sample 비효율적, but 수렴 안정성
  • q-learning: off-policy 가능
    • sample 효율적 , but 수렴 불안정성
profile
모든 의사 결정 과정을 지나칠 정도로 모두 기록하고, 나중에 스스로 피드백 하는 것

0개의 댓글