DDPG

JTDK·2021년 7월 22일
0

RL from zero to hero

목록 보기
5/7
post-custom-banner

CONTINUOUS CONTROL WITH DEEP REINFORCEMENT LEARNING

ABSTRACT

우리는 DQN의 성공에 깔려있는 아이디어들을 차용해서 연속적인 액션 공간(continous action domain)으로 옮겼다. 우리는 확정적 정책 그라디언트(Deterministic Policy Gradient)에 기반한 연속적인 액션 공간에서 사용할 수 있는 Actor-critic, Model-Free 알고리즘을 선보인다. 이 알고리즘으로 똑같은 hyper-parameters, 네트워크 구조를 사용해서 우리는 20가지가 넘는 tasks들을 풀었다. 우리의 알고리즘으로 만든 정책은 도메인과 그 파생에 대한 완전한 접근 권한을 가진 계획 알고리즘과도 비교할 만한 성과를 냈다. 또한 우리는 많은 task에서 이 알고리즘이 'end-to-end'로 정책을 학습할 수 있다는걸 보여준다(raw-pixel input으로 학습 가능하다는 말)

1. INTRODUCTION

AI의 가장 대표적인 목표는 처리되지 않은 고차원적이고 감각적인 input으로 부터 복잡한 task를 풀어내는 것이다. 최근에 감각 처리에 관한 딥러닝과 강화학습을 융화시켜 탄생한 DQN알고리즘은 이런 목표에 상당한 발전을 가져왔다. DQN에서는 Action-Value 함수를 추정하기 위해 deep neural network가 사용됐다.

DQN이 고차원의 obs spaces를 가진 문제를 풀어냈지만, 여전히 이산적이고 저차원의 action space만 다룰 수 있다는 한계를 가졌다. real world problem 중 많은 task들이 고차원의 연속적인 action space를 가지고 있고, action-value 함수를 극대화 하는 action을 찾는 방식의 DQN은 직접적으로 이런 문제들에 적용될 수 없다. 연속적인 action 각각의 action-value function 을 찾는다는건, 그것대로 어려운 최적화 문제이다.

DQN같은 Deep RL method를 continous action space에 적용시킬 수 있는 한가지 방법은, 단순하게 연속적인 action space를 이산화(Discretize) 시키는 것이다. 그러나 이러한 방법은 명확한 한계들이 있는데, 가장 대표적인건 차원의 저주(the curse of dimensionality) 이다. action의 갯수는 자유도가 증가함에 따라 기하급수적으로 증가한다. 예를들어, (사람의 팔과 같이) 7 개의 관절을 가지고 있고(= 7 degree of freedom system) 각 관절마다 세가지 이산적인 action space를 가지는 환경에서의 action space는 37=21873^7=2187 개이다. 이 예시는 귀여운 수준이고, 더 복잡한 task 일수록 action의 차원은 더 가파르게 증가한다. action space가 이렇게 크면 사실상 학습이 불가능하다.

추가적으로, 이렇게 마음대로 연속적인 action을 이산화 하는것은 직관적으로도 위험하다. 이산화 과정에서 없어져버린 action이 최적의 action일 수도 있기 때문이다.

이 논문에서 우리는 고차원이고 연속적인 action space에서 정책을 학습할 수 있는 model-free, off-policy , actor-critic 알고리즘은 선보인다. 이 알고리즘은 확정적 정책 경사(DPG - Deterministic Policy Gradient) 알고리즘에 기반한다. 그러나 밑에서 보여주는것처럼 단순히 actor-critic method를 신경망 근사 함수와 함께 쓰는것은 어려운 문제들을 풀기에는 불안정하다.

여기서 우리는 DQN에서 얻은 insights들과 actor-critic approach를 융합시킨다. DQN 전에는 크고 비선형적인 함수 근사기(Function Approximator)로 부터 Value Function을 학습하는것은 어렵고 불안정하다고 여겨졌다. DQN은 이런 문제들을 두가지 혁신적인 방법을 통해 해결했는데, 이는 다음과 같다.

  1. 네트워크는 리플레이 버퍼 에서 추출한 샘플들을 off-policy 방식으로 학습한다. 이는 각 샘플들 간에 연관성(correlations)을 최소화 해준다.
  2. 네트워크는 Target Q network로 합습되는데, 이는 td 방식에 일관된 타겟을 제공하므로써 학습을 안정화 시킨다.

이 논문에서 우리는 이 아이디어들을 batch normalization과 함께 사용한다.

(이후 자기네 자랑 생략 ... )

DDPG의 핵심적인 특징은 간결성(Simplicity)이다. DDGP는 오직 직관적인 actor-critic 아키텍쳐와 아주 조금의 유동성을 가진 학습 알고리즘만을 필요로한다.

(이후 자기네 자랑 생략 ... )

2. BACKGROUND

profile
RL, 퀀트 투자 공부 정리
post-custom-banner

0개의 댓글