논문 리뷰 D2RL: Deep Dense ARCHITECTURE IN REINFORCEMENT LEARNING

이정운·2022년 5월 8일
0

강화학습 논문 리뷰

목록 보기
11/11

Intro

기존 RL에 사용하는 신경망은 단순하게 fully-connected layer를 1~2층으로 연결하는 것으로 구성되었다. 하지만 이런 단순한 구조로 학습한 agent는 복잡하고 연속적인 state , action space 에 대한 exploration 의 한계가 명확했다. 이 논문에서는 이런 문제점을 해결하기 위해서 Computer Vision과 자연어처리에서 우수함이 증명된 모델을 Actor-critic 으로 사용하였고 특히 DenseNet 구조를 차용하여 유의미한 성능 향상을 얻었다.

DATA-PROCESSING INEQUALITY



  • DPI : the information content of a signal cannot be increased via a local physical operation

데이터 처리 불평등은 신호의 정보 내용이 로컬 물리적 작동을 통해 증가 할 수 없다는 정보 이론적 개념입니다. 이는 '후 처리는 정보를 증가시킬 수 없다'는 의미로 간결하게 표현할 수 있습니다.

Vanilla feed-forward (단순하게 fully connected layer로 구성된) 으로 구성된 Actor-Critic이 왜 Local Minima 에 빠지는 원인은 이 논문에서는 DATA-PROCESSING INEQUALITY 때문이라고 한다. 즉 임의의 Signal에 대한 후 처리는 정보의 손실을 야기시킨다. 그러므로 정보가 부족해진 Agent는 자신이 처한 Env에 대해 적절한 행동을 할 수 없고 Local Minima에 빠지게 된다.

DenseNET

후처리에 의해서 초기 정보가 손실된다고 한다. 그러면 어떻게 보완할까? trivial하게 초기 정보가 layer를 지나며 손실된 정보를 보완하면 되는데 이 연에서는 DenseNet 의 철학을 사용하였다. 초기 정보는 layer를 지난 정보와 concation 되며 초기 정보를 유지한다.

D2RL

Experiment

Mujoco를 활용한 실험 결과 유의미한 성능 향상이 있다는 것을 확인할 수 있다.

교훈

Computer Vision이나 자연어처리에서 강화학습으로 넘어온 사람이라면 거기서 사용한 신경망을 이용해 Actor-Critic 모델을 구성해보자. 분명 Vanilla feed-forward layer보다는 좋은 성능을 보일 것이라고 확신한다.

profile
헬스 ,강화학습,3D Vision,Robotics를 좋아하는 엔지니어 입니다.

0개의 댓글