Aggressive Q-Learning with Ensembles: Achieving Both High Sample Efficiency and High Asymptotic Performance

About_work·2023년 6월 19일
0

강화학습

목록 보기
2/19

Abstract

  • 최근 모델-프리 기반의 심층 강화학습(DRL)에서의 발전은 간단한 모델-프리 방법이 고차원 continuous control tasks에서 매우 효과적일 수 있다는 것을 보여줌

    • Randomized Ensemble Double Q-Learning (REDQ)은 high update-to-data ratio and target randomization 을 이용해여, 기반 방법들과 경쟁력을 갖는 샘플 효율성을 달성
    • Truncated Quantile Critics (TQC)는 distributional representation of critics 을 사용
  • 본 논문에서는 Aggressive Q-Learning with Ensembles (AQE)라는 새로운 모델-프리 알고리즘을 제안

  • AQE는 REDQ의 샘플 효율성 성능 + TQC의 수렴 훈련 성능을 개선하여 훈련의 모든 단계에서 최첨단 성능을 제공

  • 게다가, AQE는 distributional representation of critics이나 target randomization를 필요로하지 않는 매우 간단한 알고리즘


Introuduction

  • (Off-policy Deep Reinforcement Learning) 알고리즘은 이전의 경험을 재사용하여 샘플 효율성을 향상시키는 것을 목표
  • 연속적인 상태와 행동 공간을 가진 제어 작업에 대해 Deep Deterministic Policy Gradient (DDPG), Twin Delayed DDPG (TD3), Soft Actor Critic (SAC)와 같은 여러 오프-폴리시 심층 강화학습 알고리즘이 제안되었습니다 (Lillicrap et al., 2016; Fujimoto et al., 2018; Haarnoja et al., 2018a,b).
    • TD3는 클리핑된 더블 Q-러닝을 도입하여, 온-폴리시 방법보다 훨씬 샘플 효율성이 높음
    • Soft Actor Critic (SAC)는 클리핑된 더블 Q-러닝과 유사한 오프-폴리시 구조를 가지고 있지만, 최대 엔트로피 강화학습을 적용합니다.
      • SAC는 MuJoCo의 다양한 환경, 특히 DDPG와 TD3의 성능이 저조한 고차원 Humanoid 환경에서 탁월한 샘플 효율성과 수렴 성능을 제공하는 것으로 입증되었습니다.

Truncated Quantile Critics (TQC) 모델-프리 알고리즘

  • distributional representation of critics
    • 상태와 행동에 조건이 걸린 반환 확률 변수의 분포를 근사
    • approximates the distribution of the return random variable conditioned on the state and action.
  • truncation of critics prediction
    • critics 예측의 절단을 의미
    • 반환 분포의 근사치를 계산할 때 기대값의 Q-함수를 모델링하는 대신,
      • 상태와 행동에 조건이 걸린 반환 확률 변수의 분포를 근사화합니다.
    • 이 때, 반환 분포 근사치에서 상위 "원자" 몇 개를 제외시킴으로써 예측 값을 절단
    • 이렇게 하면 반환 값의 과대평가 편향을 제어할 수 있음
    • 즉, 반환 분포 근사치에서 일부 상위 원자를 제거함으로써, 추정된 반환 값의 최대치를 제한하고 편향을 완화할 수 있음
  • ensembling of multiple critics
    • (TQC) 알고리즘에서는 여러 개의 비평자를 함께 사용하여 결과를 예측
    • 앙상블은 각 비평자의 독립적인 추정치를 결합하여, 더 정확하고 신뢰할 수 있는 예측을 얻을 수 있도록 함.
    • 각 비평자는 서로 다른 초기화 또는 다른 학습 데이터로 훈련되어 다양한 시각과 정보를 가지고 있음
    • 이렇게 여러 비평자를 앙상블하여 모델의 예측을 평균화하거나 결합함으로써 더 좋은 성능과 안정성을 달성할 수 있음
    • 앙상블은 일반적으로 다양한 시도와 불확실성을 해결 + 모델의 일반화 능력을 향상시키는 데 도움이 됨
  • TQC는 수렴 훈련 성능이 SAC보다 우수함을 보여주었음
  • 그러나 TQC는 보통 중간 정도의 성능 수준에 도달하려면, 큰 수의 샘플이 필요하므로 샘플 효율적이지 않음

Randomized Ensembled Double Q-learning (REDQ) 모델-프리 알고리즘

  • a high Update-To-Data (UTD) ratio
    • 각 환경 상호작용에 대해 여러 개의 기울기 단계가 이루어지는 것을 의미하는 1보다 큰 업데이트 대 데이터 비율을 사용하면 샘플 효율성이 향상
    • 높은 UTD 비율은 하나의 데이터 포인트에 대해 여러 번의 업데이트(학습) 단계를 수행함을 의미
    • 즉, 데이터 수집 단계에서 한 번의 상호작용으로 여러 개의 업데이트 단계를 진행하는 것
    • 높은 UTD 비율을 사용하면 데이터를 효과적으로 활용하여 모델을 빠르게 개선할 수 있음
    • 더 많은 업데이트 단계를 수행함으로써 학습이 더 빠르게 진행되고, 샘플 효율성이 향상됨
    • 하지만 높은 UTD 비율은, 학습 과정에서 노이즈나 오버피팅과 같은 문제를 발생시킬 수 있으므로 적절한 조절이 필요
  • an ensemble of Q functions
    • Q 함수의 앙상블은 각각 독립적으로 훈련된 여러 개의 Q 함수를 모아서 사용하는 것을 의미
    • 이러한 앙상블은 다양한 초기화나 학습 데이터로 훈련된 Q 함수들의 조합을 통해 더 정확하고 신뢰할 수 있는 예측을 얻을 수 있도록 함
    • 각 Q 함수는 동일한 상태-행동 쌍에 대한 다른 추정치를 제공하므로, 앙상블을 통해 그들의 예측을 평균화하거나 결합함으로써 보다 정확하고 안정적인 결과를 얻을 수 있음
    • 앙상블은 모델의 안정성과 신뢰성을 높이는 데 일반적으로 효과적입니다.
  • in-target minimization across a random subset of Q functions from the ensemble
    • 앙상블에서 선택된 일부 Q 함수들에 대해 목표 최소화를 수행하는 것은,
      • 해당 함수들의 예측 값을 최소화하는 방향으로 가중치를 조정하는 것을 의미
    • 이를 통해 앙상블 내의 Q 함수들이 유사한 예측을 수행하도록 유도할 수 있음
    • 일반적으로, 앙상블 내의 각 Q 함수는 다른 초기화나 학습 데이터로 훈련되어 다양한 시각과 정보를 가지게 됨.
      • 그렇기 때문에 앙상블 내의 Q 함수들은 예측 값이 서로 다를 수 있음
    • 이러한 상황에서 특정한 목표를 가지고 일부 Q 함수들에 대해 최소화 작업을 수행함으로써, 앙상블 내의 예측 값들을 보다 일관성 있게 조정할 수 있음
    • 즉, 무작위로 선택된 Q 함수들에 대해 목표 최소화를 수행함으로써 앙상블 내의 예측 값들이 서로 일치하거나 유사하게 조정되도록 하는 것
    • 이를 통해 앙상블의 일관성과 신뢰성을 향상
  • 이 알고리즘은 훈련 초기 단계에서 SAC보다 훨씬 우수한 성능을 보임
  • 그러나 REDQ는 초기 단계의 훈련에서 샘플 효율적이지만,
    • 수렴 훈련 성능은 TQC보다 현저히 낮습니다.

Aggressive Q-Learning with Ensembles (AQE)

  • 훈련 초기 단계에서 REDQ의 높은 샘플 효율성수렴 훈련의 TQC의 높은 성능 을 동시에 달성할 수 있는 간단하고 효율적인 모델-프리 알고리즘

  • have

    • Q-함수의 앙상블을 사용
    • truncation of critics prediction 사용
      • 앙상블 멤버 수 N과 타겟 계산 시 유지되는 앙상블 수 K ≤ N의 개수를 변화시킴으로써,
        • overestimation bias + the standard deviation of the bias 해결
        • 10-20개의 앙상블 멤버로 구성된 작은 앙상블로도 잘 작동
        • keep 매개변수 K의 작은 변경에도 성능이 크게 변하지 않음
        • AQE는 앙상블 멤버의 중앙값을 사용하거나, 타겟에서 가장 극단적인 최솟값과 최댓값을 제거하는 등의 여러 가지 변형보다 더 우수한 성능을 보임
    • UTD 비율 > 1을 사용
  • dont use

    • distributional representation of critics
    • in-target minimization across a random subset of Q functions from the ensemble
    • double q-learning
  • AQE가 초기 단계수렴 단계 모두에서 최첨단 성능을 제공함

  • AQE의 초기 단계 성능

    • SAC보다 13.71배, TQC보다 7.59배, REDQ보다 1.02배 더 우수
  • AQE의 수렴 훈련 성능

    • SAC보다 37% 우수하며, REDQ보다 3% 우수하고, TQC보다 8% 우수
  • AQE가 하이퍼파라미터 선택에 견고함을 보여줌

  • 계산 시간을 개선하기 위해

    • ensemble critic를 위한 다양한 멀티헤드 아키텍처도 고려
      • ensemble critic은 여러 개의 critic(Q 함수)를 함께 사용하는 것
      • 이를 위해 다양한 멀티헤드 아키텍처를 고려하고 실험하며, 어떤 아키텍처가 계산 시간을 개선하면서 앙상블 비평자의 성능을 향상시킬 수 있는지 탐구하는 것을 의미합니다.
      • 멀티헤드 아키텍처는 각각의 비평자(Q 함수)에 대해 독립적인 가중치와 네트워크 구조를 가지는 구조를 말함
      • 이를 통해 연산을 병렬로 처리하거나 계산을 분산시킴으로써 계산 시간을 개선할 수 있음
  • convolutional network literature과 일관된 결과로, 두 개의 헤드 아키텍처는 계산 시간을 줄일 뿐만 아니라 일부 환경에서 성능도 향상시킬 수 있음을 발견했습니다.

    • 또한, AQE는 UTD ≫ 1로 공격적인 상태로 만들어진 SAC와 TQC조차도 능가
  • 공정한 비교와 신뢰성있는 재현 가능한 결과를 보장하기 위해, 우리는 오픈 소스 코드를 제공합니다.

  • 모든 알고리즘 비교에는 저자의 코드를 사용합니다.

profile
새로운 것이 들어오면 이미 있는 것과 충돌을 시도하라.

0개의 댓글