We propose to adaptively normalize the targets used in learning.
우리는 학습에 사용되는 목표값을 적응적으로 정규화하는 것을 제안합니다.
이는 가치 기반 강화 학습에서 유용한데, 우리가 정책을 업데이트할 때마다 적절한 가치 근사치의 크기가 시간에 따라 변할 수 있기 때문입니다.
This is useful in value-based reinforcement learning, where the magnitude of appropriate value approximations can change over time when we update the policy of behavior.
우리의 주된 동기는 Atari 게임을 배우는 데 대한 이전 연구입니다. 이전 연구에서 보상은 모두 미리 정해진 범위로 클리핑되었습니다.
이 클리핑은 하나의 학습 알고리즘으로 여러 게임에서 학습을 용이하게 하지만, 클리핑된 보상 함수는 질적으로 다른 동작을 초래할 수 있습니다.
Using the adaptive normalization we can remove this domain-specific heuristic without diminishing overall performance.
Introduction
DQN은 하나의 하이퍼파라미터 세트를 사용하는 단일 솔루션(여러 task에 대해)으로 제안되었지만, 보상의 크기와 빈도는 서로 다른 게임에서 크게 다릅니다.
To overcome this hurdle, the rewards and temporal-difference errors were clipped to [−1, 1].
예를 들어, Pong 게임에서 보상은 -1과 +1로 제한되고, Ms. Pac-Man에서는 하나의 유령을 먹는 것만으로 최대 +1600의 보상을 얻을 수 있지만, DQN은 이를 +1로 클리핑합니다.
이는 두 가지 이유로는 만족스러운 해결책이 아닙니다.
첫째, 이러한 클리핑은 도메인 지식을 도입합니다.
Most games have sparse non-zero rewards outside of [−1, 1].
클리핑은 보상의 빈도를 최적화하는 결과를 초래하며, 그들의 합을 최적화하는 것이 아닙니다.
둘째, 더 중요한 것은 클리핑이 목적을 변경하여 때로는 질적으로 다른 행동 정책을 초래한다는 점입니다.
We propose a method to adaptively normalize the targets used in the learning updates.
우리는 학습 업데이트에서 사용되는 목표값을 적응적으로 정규화하는 방법을 제안합니다.
이러한 targets이 정규화되었다는 것이 보장된다면, 적절한 하이퍼파라미터를 찾는 것이 훨씬 쉬워집니다.
제안된 기술은 DQN에만 국한되지 않으며, 지도 학습과 강화 학습에서 더 일반적으로 적용될 수 있습니다.
정규화가 바람직한 이유는 몇 가지가 있습니다.
sometimes we desire a single system that is able to solve multiple different problems with varying natural magnitudes, as in the Atari domain.
for multi-variate functions, the normalization can be used to disentangle(분리하다) the natural magnitude of each component from its relative importance in the loss function.
둘째, 다변량 함수의 경우 정규화를 사용하여 각 구성 요소의 자연적인 크기와 손실 함수에서의 상대적인 중요성을 분리할 수 있습니다.
이는 각 구성 요소가 서로 다른 단위를 갖는 경우, 예를 들어 다른 모달리티를 가진 센서에서 신호를 예측할 때 특히 유용합니다.
마지막으로, 적응적인 정규화는 비정상적인 상황을 다루는 데 도움이 될 수 있습니다.
Finally, adaptive normalization can help deal with non-stationary.
예를 들어, 강화 학습에서는 학습 도중 반복적으로 행동 정책이 변경될 수 있으며, 이로 인해 값의 분포와 크기가 변경될 수 있습니다.
For instance, in reinforcement learning the policy of behavior can change repeatedly during learning, thereby changing the distribution and magnitude of the values.
대충
모든 critic의 unnormalized target 값을 받아와, 평균과 std를 계산함.
이를 이용하여 critic 마지막 layer의 weight와 bias를 조정. (점차적으로 그 값이 고르게 학습되도록 하는 듯)