시리즈

강화학습

1.multi-task deep RL with popart

reward engineering을 적게 해도, 장애물 회피도 잘하면서 경로 추종 능력도 뛰어난 agent를 쉽게 만들기 위한 논문장애물 회피 task와 경로 추종 task가 비슷한 기여 임펙트를 가지게 하고, 두 테스크에 모두 중요한 정보만 잘 추려낼 수 있게 함으로

2023년 9월 12일

2.Learning values across many orders of magnitude

test

2023년 9월 12일

3.soft actor critic v1&v2

model-free RL의 단점 극복:sample 효율적task에 따른 hyperparameter 민감성 감소: hyperparameter 변화에 robust 한 수렴 성능entorpy 극대화를 목표로 하기 때문임.여러 random seeds에 걸쳐 성능이 비슷하다.a

2023년 9월 14일