최근 모델-프리 기반의 심층 강화학습(DRL)에서의 발전은 간단한 모델-프리 방법이 고차원 continuous control tasks에서 매우 효과적일 수 있다는 것을 보여줌
본 논문에서는 Aggressive Q-Learning with Ensembles (AQE)라는 새로운 모델-프리 알고리즘을 제안
AQE는 REDQ의 샘플 효율성 성능 + TQC의 수렴 훈련 성능을 개선하여 훈련의 모든 단계에서 최첨단 성능을 제공
게다가, AQE는 distributional representation of critics이나 target randomization를 필요로하지 않는 매우 간단한 알고리즘
다양한 시도와 불확실성을 해결 + 모델의 일반화 능력을 향상시키는 데 도움이 됨훈련 초기 단계에서 REDQ의 높은 샘플 효율성과 수렴 훈련의 TQC의 높은 성능 을 동시에 달성할 수 있는 간단하고 효율적인 모델-프리 알고리즘
have
Q-함수의 앙상블을 사용 truncation of critics prediction 사용overestimation bias + the standard deviation of the bias 해결UTD 비율 > 1을 사용dont use
distributional representation of criticsin-target minimization across a random subset of Q functions from the ensembledouble q-learningAQE가 초기 단계와 수렴 단계 모두에서 최첨단 성능을 제공함
AQE의 초기 단계 성능
AQE의 수렴 훈련 성능
AQE가 하이퍼파라미터 선택에 견고함을 보여줌
계산 시간을 개선하기 위해
convolutional network literature과 일관된 결과로, 두 개의 헤드 아키텍처는 계산 시간을 줄일 뿐만 아니라 일부 환경에서 성능도 향상시킬 수 있음을 발견했습니다.
공정한 비교와 신뢰성있는 재현 가능한 결과를 보장하기 위해, 우리는 오픈 소스 코드를 제공합니다.
모든 알고리즘 비교에는 저자의 코드를 사용합니다.