[논문 리뷰]Asynchronous Methods for Deep Reinforcement Learning

pyross·2024년 8월 25일

paper

목록 보기

28/63

A3C 논문이다.
A2C는 (Advantage Actor-Critic)이고
A3C는 (Asynchronous Advantage Actor-Critic)이다.

Abstract

이 논문은 agent를 비동기로 즉 병렬로 훈련하는 방법을 제시하였다.
또한 기존 강화학습 알고리즘을 병렬로 학습하면 더 안정화되는 것을 보여준다.
특이한건 gpu대신 cpu 코어를 병렬로 사용해서 훈련을 진행하였다.

1. Introduction

deep learning과 rl의 조합은 좋은 성능을 보였지만 아직 불안정하다.
안정화 시키기 위한 방법은 여러가지가 제시 되었지만 대부분 공통의 아이디어를 공유한다. online RL-agent가 보는 데이터의 분포가 일정하지 못하고 업데이트 되는 데이터가 correlation을 가진다.
이를 DQN에서는 experience replay memory를 통해서 데이터 배치화와 random sampling을 통해서 해결하였다.
그러나 이러한 학습 방법은 off-policy에서만 가능했다.

또한 experience replay memory는 몇가지 단점이 존재하는데
1. 추가적인 메모리를 사용한다.
2. off-policy algorithm이 필요하다.

이 논문에서는 비동기 병렬 학습 방법을 제시한다.
비동기로 학습이 진행되기 때문에 correlation이 없을 것이고
많은 데이터로 더 안정화시킬 수 있다.

4. Asynchronous RL Framework

multi-thread를 적용한 one-step Sarsa, one-step Q-learning, n-step Q-learning, advantage actor-critic을 소개한다.

이때 여러개의 actor을 동시에 돌리는 것은 환경의 다양한 부분을 동시에 탐사하는 것과 동일하다는 것을 확인했다.
또한 이때 다른 actor 정책을 사용해서 이 환경 탐색의 다양성을 최대화 할 수 있다.

각 thread마다 다른 정책을 돌림으로써 online-param update가 1개의 agent가 online update하는 것보다 less correlated하다.
그렇기 때문에 replay-memory가 필요없다.
이 외에도 추가적인 장점이 존재하는데
1. parallel actor-learner의 숫자가 늘수록 학습 시간이 linear하게 줄어든다.
2. replay-memory에 의존하지 않기 때문에 on-policy 알고리즘에도 사용할 수 있다.(Sarsa, actor-critic 등)

Asynchronous one-step Q-learning

one-step Q-learning의 코드는 위와 같다.
minibatch를 사용하는 것처럼 gradient를 적용하기 전까지 쌓다가 이후에 한번에 적용한다. 이는 여러개의 learner가 update를 overwrite하는 것을 방지하고 computational cost에도 이점을 준다.

마지막으로 각 thread마다 다른 exploration policy를 적용하는 것이 robustness를 주는 것을 확인.
이때 이 논문은 $\epsilon$ -greedy를 적용해서 다른 탐색을 가질 수 있게 만들었음.

Asynchronous one-step Sarsa

위의 one-step Q-learning과 동일 그러나 target value가 다르다.
$r+\gamma Q(s',a';\theta^-)$ 에서 $a'$ 가 max가 아니라 $\theta^-$ 가 $s'$ 에서 고르는 action으로 적용이 된다.

Asynchronous n-step Q-learning

위와 바뀐점은 여러번 step을 이동해서 history에 저장해두고 나중에 돌아보면서 update를 진행하는 것이다.

Asynchronous advantage actor-critic

A3C이다.
위의 n-step Q-learning과 비슷하게 forward로 n-step을 계산하고 backward를 진행하는 식으로 policy와 value-function에 동일하게 진행됨.
$\nabla_{\theta'}\log \pi(a_t|s_t;\theta')A(s_t,a_t;\theta,\theta_v)$ 로 gradient가 계산이되며
advantage $A(s_t,a_t;\theta,\theta_v)$ 는 $\sum^{k-1}_{i=0}\gamma^ir_{t+1}+\gamma^kV(s_{t+k};\theta_v)-V(s_t;\theta_v)$ 로 계산이 된다.

간단하게 action을 하였을 때 얻는 value에서 현재 state에 대한 value를 빼서 action에 대한 순수 value를 구하는 것이다.

알고리즘은 위와 같다.

value-vased가 parallel actor을 사용하고 gradient update를 여러번 중첩했다가 한번에 사용해서 stability를 증가시키는 것처럼
$\theta$ 와 $\theta_v$ 가 분리되어있는 것처럼 보이지만 실제로는 일정 부분의 weight를 공유한다.
논문의 저자는 cnn을 기준으로 softmax output을 policy에, linear output을 value function에 사용하였고 나머지 non-output layer를 전부 공유한다고 한다.

policy에 entropy를 추가하는 것이 역시 환경 탐색에 좋았다고 하는데

$\nabla_{\theta'}\log \pi(a_t|s_t;\theta')(R_t-V(s_t;\theta_v))+\beta\nabla_{\theta'}H(\pi(s_t;\theta')$ 와 같이 entropy $H$ regularization을 더해주는 것이 좋다고 한다.
$\beta$ 는 hyper param이다.

Optimization

SGH with momentum, RMSprop(with out shared statistics, with shared statistics) 등 3가지 방법을 사용하였다고 함.
이때 아타리 게임 기준
RMPprop + shared statistics가 더 robust했다고 함.