Deep Ensemble Reinforcement Learning with Multiple Deep Deterministic Policy Gradient Algorithm - 논문 리뷰

이정운·2022년 2월 22일
0

Reference

  • Wu, Junta and Huiyun Li. “Deep Ensemble Reinforcement Learning with Multiple Deep Deterministic Policy Gradient Algorithm.” Mathematical Problems in Engineering 2020 (2020): 1-12.

Background

(DDPG에 자세히 알고 싶다면 여기로 https://velog.io/@everyman123/DDPG-%EA%B5%AC%EA%B8%80%EC%9D%80-%EC%8B%A0%EC%9D%B4%EA%B3%A0-%EB%94%A5%EB%A7%88%EC%9D%B8%EB%93%9C%EB%8A%94-%EB%AC%B4%EC%A0%81%EC%9D%B4%EB%8B%A4)
DDPG 알고리즘은 기존의 DQN을 보완한 알고리즘이다.

DDPG는 Exploration 전략으로 Noisy를 첨가하는데 이런 방식으로는 연속 공간에 대한 Optimal Policy까지 당돌하는데 매우 오랜 시간이 걸린다. 단일 Actor 와 Critic을 믿기에는 Local Optima들이 너무 많기 때문이다. 그래서 이 연구에서는 여러개의 DDPG-Agent를 설정하고 (Ensemble) 학습시킨 후 최종 DDPG는 여러 DDPG-Agent에서 출력한 Action의 평균값을 Action으로 취한다.

여러 iid한 Agent들을 설정하는 생각은 A3C와 유사한다.

Model

일단 N개의 DDPG Agent를 생성한다. 그리고 환경을 정의하는데 환경은 DDPG Agnet 전체가 공유할 수도 있기 DDPG Agent 하나당 1개의 독립적인 환경이 배정될 수 있다. 어차피 Episode가 끝나면 reset 되기 때문에 문제가 없다.

  • 환경이 1개로 모두 공유하는 경우
    random하게 N개의 DDPG Agent 중에 하나를 선택한다. 그리고 Episode가 끝날 때까지 Environment와 상호작용 하고 거기서 생산되는 Transition을 모두 Experience Buffer에 저장한다.

이 연구에서 중요한 것은 각 Agent가 만들 Data를 1개의 Experience Buffer에 저장하는데 Centralized Experience Replay Buffer라고 한다.

Agent의 Episode가 끝나면 그후 N개의 Agent에 대한 Parameter updating이 시작되는데 각각 Centralized Experience Replay Buffer에서 mini-batch를 구성한다. 독립적인 Agent가 생산한 data는 iid라고 생각할 수 있기 때문에 Data-Diversity가 높다.

이제 Epoch 훈련이 모두 끝났다고 가정하자.
이제 N개의 학습된 Subpolicy가 있다. 최종 Policy는 상태 s가 주어질때 N개의 Subpolicy에서 출력된 Action들의 평균값이다. 이것을 Agrregation of Subpolicies라고 한다.

Algorithm

Analysis on Convergence with Bootstrap and Aggregation

Aggregation Policy를 다음과 같이 정의할 수 있다.

Optimal Policy를 μ\mu^*라고 했을 때 Aggregation Policy는 다른 Subpolicy보다 μ\mu^*에 가깝다.

The m-out-of-n Bootstrap

만약 학습 데이터의 분포가 long-tail distributions라면 Standard Bootstrap 방식이 잘 통하지 않는다. (Standard Bootstrap은 normal distribution이라고 가정하기 때문이다.)

이때 사용하는 Valid method가 m-out-of n bootstrap방식이다.

  • M-out-of-n bootstrap the number of bootstrap samples is much smaller than that of the training dataset

이 연구에서는 여러 DDPG Agent가 생산한 subsamples들이 모두 Centralized Bootstrap에 모이기 때문에(크기가 어마어마하게 커진다.) sampling 방식이 m out of n bootstrap 방식이다.

Conclusion

이 연구에서는

  • Aggregation multiple deep deterministic policy gradient algorithm
  • m out of n bootstrap sampling method

를 통해 optimal policy로 빠르게 Converge 하는 Ensemble DDPG방식을 소개하였다.

profile
헬스 ,강화학습,3D Vision,Robotics를 좋아하는 엔지니어 입니다.

0개의 댓글