오늘은 C51의 한계를 극복한 QR-DQN에 대해 배워볼 예정이다.


Distributional Reinforcement Learning에 대한 추가적인 내용은 아래 글에서 확인 가능하다.
📃자료: https://velog.io/@tina1975/Deep-Reinforcement-Learning-31강-Distributional-Reinforcement-Learning


Discrete distribution으로 변환한다.
Return의 범위를 로 제한한다.
균등한 간격으로 개로 나눠 fixed support 를 정의한다.
Dirac function 을 사용하여 Return값을 고정한다.
학습 가능한 확률 를 통해 distribution을 학습한다.
C51에 대한 추가적인 내용은 아래 글에서 확인 가능하다.
📃자료: https://velog.io/@tina1975/Deep-Reinforcement-Learning-32강-C51



Quantile regression을 사용하면 SGD를 사용할 수 있다.
Quantile regression을 사용하면 CDF의 inverse를 구하면 되기 때문에 Wasserstein metric을 직접 계산할 필요가 없다.
하지만 Wasserstein metric을 충족한 값을 구할 수 있다.




Quantile regression loss를 최소화시키는 파라미터 가 Wasserstein loss 를 최소화시킨다.
Quantile regression loss는 Stochastic gradient descent를 사용할 수 있다.



C51은 Return의 범위 를 지정해야 한다.
하지만 이 과정은 쉽지 않다.
C51에서는 support를 일치시키기 위한 projection 과정을 거쳐야 한다.
C51에서는 KL-발산을 통해 학습하기 때문에 Wasserstein metric이 최소화된다는 보장이 없다.
QR-DQN은 Return의 범위를 미리 지정할 필요가 없다.
QR-DQN은 support disjoint 문제가 발생하지 않아, projection 과정이 필요하지 않다.
QR-DQN quantile regression을 통해 Wasserstein metric을 최소화시킬 수 있다.

- QR-DQN은 확률을 고정하고, Return 위치를 학습한다.
- 학습을 위해 Wasserstein metric을 사용한다.
- Wasserstein metric은 quantile midpoint 에서 최소화된다.
- Wasserstein metric은 quantile regression loss로 표현할 수 있다.
- 최종 Loss는 모든 점에서 미분 가능한 Quantile Huber Loss를 사용한다.