최근 모델-프리 기반의 심층 강화학습(DRL)에서의 발전은 간단한 모델-프리 방법이 고차원 continuous control tasks에서 매우 효과적일 수 있다는 것을 보여줌
본 논문에서는 Aggressive Q-Learning with Ensembles (AQE)라는 새로운 모델-프리 알고리즘을 제안
AQE는 REDQ의 샘플 효율성 성능
+ TQC의 수렴 훈련 성능
을 개선하여 훈련의 모든 단계에서 최첨단 성능을 제공
게다가, AQE는 distributional representation of critics이나 target randomization를 필요로하지 않는 매우 간단한 알고리즘
다양한 시도와 불확실성을 해결
+ 모델의 일반화 능력
을 향상시키는 데 도움이 됨훈련 초기 단계에서 REDQ의 높은 샘플 효율성
과 수렴 훈련의 TQC의 높은 성능
을 동시에 달성할 수 있는 간단하고 효율적인 모델-프리 알고리즘
have
Q-함수의 앙상블을 사용
truncation of critics prediction
사용overestimation bias
+ the standard deviation of the bias
해결UTD 비율 > 1을 사용
dont use
distributional representation of critics
in-target minimization across a random subset of Q functions from the ensemble
double q-learning
AQE가 초기 단계
와 수렴 단계 모두
에서 최첨단 성능을 제공함
AQE의 초기 단계 성능
AQE의 수렴 훈련 성능
AQE가 하이퍼파라미터 선택에 견고함을 보여줌
계산 시간을 개선하기 위해
convolutional network literature과 일관된 결과로, 두 개의 헤드 아키텍처는 계산 시간을 줄일 뿐만 아니라 일부 환경에서 성능도 향상시킬 수 있음을 발견했습니다.
공정한 비교와 신뢰성있는 재현 가능한 결과를 보장하기 위해, 우리는 오픈 소스 코드를 제공합니다.
모든 알고리즘 비교에는 저자의 코드를 사용합니다.