CONTINUOUS CONTROL WITH DEEP REINFORCEMENT LEARNING

논문개요

intro

DQN은 복잡한 감각 입력(예: 이미지나 픽셀 데이터)을 처리하는 데는 강점이 있어서, 아타리 게임과 같이 가능한 행동의 수가 한정된 이산적인 상황에서는 매우 잘 작동합니다. 여기서 "이산적"이라는 것은 조이스틱의 움직임처럼 선택 가능한 행동이 몇 가지 정해진 옵션으로 제한된 상황을 의미합니다.
하지만 DQN은 연속적이거나 고차원적인 행동공간에 대해 처리하는 것이 어렵습니다.
예를 들어:

  • 자동 주행 자동차 제어:
    자율 주행에서는 핸들 각도, 가속도, 제동 등 다양한 제어 입력이 연속적인 값으로 이루어집니다. 각 행동이 단순히 “좌회전”, “우회전”처럼 몇 가지로 구분된 것이 아니라, 미세한 조정이 필요합니다. DQN은 이러한 연속적인 제어 입력을 효과적으로 다루기 어렵습니다.
  • 드론 비행 제어:
    드론의 비행 경로를 제어하려면 속도와 방향을 미세하게 조정해야 합니다. 각 날개의 회전 속도는 연속적인 값으로 표현되며, 비행 중에 끊임없이 변합니다. DQN으로는 이러한 연속적이고 복잡한 움직임을 다루기 힘들기 때문에, 드론 제어에는 다른 강화학습 알고리즘이 필요합니다.

이러한 문제를 continous domain 문제라고 합니다.
continous domain을 해결하는 가장 간단한 방법은 행동 공간을 단순히 이산화(연속적인 함수나 데이터를 불연속적인 점들로 변환하는 것)하면 됨. 하지만 이런 단순한 방법은 차원의 저주라는 경우의 수가 너무 많아지는 문제가 발생. (자유도가 7인 시스템(예: 인간의 팔)에서 각각의 관절에 대해 가장 거친 이산화(ai{k,0,k}a_i \in \{-k, 0, k\})를 사용하면 행동 공간의 차원은 37=21873^7 = 2187이다.) 이렇게 행동공간이 넓어지면 효율적으로 탐색하기 어렵기 때문에 DQN을 사용하기 거의 불가능.

따라서 본 연구에서는 actor-critic이라는 알고리즘을 제안합니다.

Actor는 정책을 나타내는 신경망으로 주어진 상태에 대해 어떤 행동을 선택할지 결정. critic의 피드백을 통해 정책을 업데이트

Critic은 주어진 상태와 행동의 조합이 얼마나 좋은지 평가하는 Q 함수를 추정.

학습과정에서의 사용방법
1. 에이전트는 상태 s를 관찰하고, actor는 이에 기반하여 행동 a를 선택.
2. 에이전트는 선택한 행동에 대한 보상을 받고 다음 상태를 관찰
3. Critic은 (상태, 행동, 보상, 다음 상태)의 쌍을 사용하여 Q 값을 업데이트합니다.
4. actor 업데이트

결론
Atari 도메인에서 DQN보다 20배 적은 경험 스텝으로 문제를 해결했습니다. 하지만 DDPG는 여전히 많은 훈련 에피소드를 필요로 하는 제한점이 있으며, 이를 보완하기 위해 강력한 모델 프리 접근 방식이 더 큰 시스템의 중요한 요소가 될 수 있다고 주장합니다.

0개의 댓글