우리는 모든 게임에서 우수한 성능을 발휘하기 위해 알고리즘이 극복해야 할 세 가지 핵심적인 도전 과제를 확인했습니다:
processing diverse reward distributions
reasoning over long time horizons
exploring efficiently.
이 논문에서 우리는 각각의 도전 과제에 대응하면서 거의 모든 아타리 게임에서 인간 수준의 정책을 학습할 수 있는 알고리즘을 제안합니다.
새로운 변형된 벨만 연산자를 통해 우리의 알고리즘은 다양한 밀도와 스케일의 보상을 처리할 수 있게 되었으며,
A new transformed Bellman operator allows our algorithm to process rewards of varying densities and scales
보조적인 시간 일관성 손실을 사용하여 감마(gamma) = 0.99 대신 감마(gamma) = 0.999로 안정적인 훈련을 할 수 있게 되었고, 이로써 효과적인 계획 범위를 한 단계 확장할 수 있게 되었습니다.
an auxiliary temporal consistency loss allows us to train stably using a discount factor of γ = 0.999 (instead of γ = 0.99) extending the effective planning horizon by an order of magnitude;
또한, 보상을 제공하는 상태로 에이전트를 이끄는 인간의 데모를 활용하여 탐색 문제를 해결합니다.
and we ease the exploration problem by using human demonstrations that guide the agent towards rewarding states.
Introduction
그러나 모든 게임에서 일관되게 인간 수준의 정책을 학습하는 것은 여전히 해결되지 않은 문제입니다.
첫 번째 도전 과제는 다양한 보상 분포의 처리 (processing diverse reward distributions)
알고리즘은 보상의 밀도와 스케일에 관계없이 안정적으로 학습해야 합니다.
Mnih et al. [13]은 보상을 규범적인 구간 [−1, 1]으로 클리핑(clipping)하는 것이 안정성을 달성하는 한 가지 방법임을 보였습니다.
그러나 이 클리핑 작업은 최적 정책 집합을 변경할 수 있습니다.
예를 들어, 에이전트는 BOWLING에서 한 개의 핀을 쳐도 모든 열 개의 핀을 쳐도 차이를 인식하지 못합니다.
따라서, 변경되지 않은 보상 신호를 안정적인 방식으로 최적화하는 것은 게임 전체에 걸친 일관된 성능을 달성하는 데 중요합니다.
두 번째 도전 과제는 장기적인 시간 경계를 초월한 추론 (reasoning over long time horizons)
먼 미래에 있을 수 있는 보상을 예측하여 행동을 선택할 수 있어야 함을 의미
표준 γ-할인된 RL 설정에서는 알고리즘이 1에 가까운 할인 요소를 처리할 수 있어야 함.
세 번째이자 마지막 도전 과제는 MDP의 효율적인 탐색
효율적으로 탐색하는 알고리즘은 개별 보상이 매우 희소한 상황에서도 높은 누적 보상을 가진 긴 경로를 합리적인 시간 내에 발견할 수 있습니다.
본 논문에서는 이러한 세 가지 도전 과제를 명확히 다루는 새로운 Deep Q-Network (DQN) [13] 스타일의 알고리즘을 제안합니다.
보상 분포에 관계없이 학습이 안정적으로 이루어지기 위해, 분산-밸만 연산자를 사용하여 행동 가치 함수의 분산을 감소시킵니다.
In order to learn stably independent of the reward distribution, we use a transformed Bellman operator that reduces the variance of the action-value function.
변형된 연산자를 사용하여 환경 보상을 원래대로 처리할 수 있으며, 스케일과 밀도에 관계없이 학습이 가능해집니다.
우리는 결정론적인 MDP에서 최적 정책이 변경되지 않음을 증명하고, 일부 가정 하에 연산자가 확률적인 MDP에서 수렴하는 압축성(contraction)을 가진다는 것을 보여줍니다 (3.2절 참조).
We prove that the optimal policy does not change in deterministic MDPs and
show that under certain assumptions the operator is a contraction in stochastic MDPs (i.e., the algorithm converges to a fixed point).
보조적인 시간 일관성(Temporal Consistency, TC) 손실로 인해 우리의 알고리즘은 높은 할인 요소에서도 안정적으로 학습합니다.
Our algorithm learns stably even at high discount factors due to an auxiliary temporal consistency (TC) loss.
이 손실은 네트워크가 이전에 보지 못한 상태에 일찍 일반화되지 않도록 방지합니다 (3.3절 참조).
이를 통해 우리는 실제로 γ = 0.999와 같은 매우 높은 할인 요소를 사용할 수 있게 되었습니다.
이는 Atari에서 다른 심층 강화 학습 접근 방식과 비교했을 때 우리의 알고리즘의 효과적인 계획 범위를 한 단계 크게 확장합니다.
This extends the effective planning horizon of our algorithm by one order of magnitude when compared to other deep RL approaches on Atari.
마지막으로, 우리는 DQN의 기본 탐색 방식을 개선하기 위해
Horgan et al. [8]의 분산 경험 재생(distributed experience replay) 접근법과 Hester et al. [7]의 심층 Q-학습(DQfD) 알고리즘을 결합했습니다.
이로써 결과적으로, 오프라인 전문가 데모와 온라인 에이전트 경험을 결합한 분산 액터-러너 시스템을 구축하게 되었습니다 (3.4절 참조).
The resulting architecture is a distributed actor-learner system that combines offline expert demonstrations with online agent experiences.