오늘은 IQN에 대해 배워볼 예정이다.


Distribution Bellman equation을 통해 학습을 할 때 많은 metric에서 contraction이 되지 않는다는 한계가 존재한다.
Wasserstein metric을 통해 contraction을 확보할 수 있다.
하지만 Wasserstein metric은 SGD가 적용되지 않기 때문에 적용하기 어렵다는 한계가 존재한다.
또한 DQN은 continuous한 출력을 반환할 수 없다는 한계가 존재한다.
C51과 QR-DQN, IQN 모두 discrete distribution을 반환함으로써 이러한 한계를 극복한다.

QR-DQN의 Implicit 버전의 모델이다.
Target distribution을 예측하기 위한 quantile point를 sampling을 통해 결정한다.
Sampling을 하기 때문에 Quantile의 개수 에 영향을 받지 않는다.
Approximation error는 신경망의 크기나 학습 데이터의 크기에 영향을 받는다.
또한 를 이용하여 특정한 종류의 policy를 만들 수 있다.









현재 Return의 expectation이 1로 되어 있다.
Neutral IQN은 distortion risk measure를 사용하지 않고 sampling한 것이다.
CPW는 로 Return값이 조금 더 가운데로 몰려있는 형태이다.
다른 분포도 마찬가지로 각자 만의 식을 통해 분포를 변형한다.




- IQN은 학습하는 분포를 변형하여 학습하는 분포의 risk 정도를 조정한다.
- 기존 모델과 달리 Quantile value를 입력으로 받는다.