reward engineering을 적게 해도, 장애물 회피도 잘하면서 경로 추종 능력도 뛰어난 agent를 쉽게 만들기 위한 논문장애물 회피 task와 경로 추종 task가 비슷한 기여 임펙트를 가지게 하고, 두 테스크에 모두 중요한 정보만 잘 추려낼 수 있게 함으로
test
model-free RL의 단점 극복:sample 효율적task에 따른 hyperparameter 민감성 감소: hyperparameter 변화에 robust 한 수렴 성능entorpy 극대화를 목표로 하기 때문임.여러 random seeds에 걸쳐 성능이 비슷하다.a