


자세한 예제를 적고싶지만, 저작권 문제가 없는 적당한 이미지가 없으므로 생략
강화학습에서 흔히 얘기되는 Exploitation vs Exploration 개념
DQN (Deep Q Network)

DQN 등에서 사용하는 방법으로는 Epsilon-Greedy Algorithm이 있음.
그런데 이러한 exploration 방법들은 아래와 같은 단점(혹은 약점)이 존재하는데
그렇다면 Non heuristic하고 State-dependent하게 noise를 어떻게 적용할 수 있을까?

FC vs Noisy FC

Learnable parameters vs Noise variables

Noise paramters vs Noise variables




정리하자면 Factorised 가우시안 노이즈 방법은 p개와 q개의 noise를 뽑아서 사용하는 방법

인수분해나 분해라는 의미가 있음Independent Gaussian noise vs Factorised Gaussian noise





성능
트레이닝
기타
논문
참고 자료
코드 구현