자세한 예제를 적고싶지만, 저작권 문제가 없는 적당한 이미지가 없으므로 생략
강화학습에서 흔히 얘기되는 Exploitation vs Exploration 개념
DQN (Deep Q Network)
DQN 등에서 사용하는 방법으로는 Epsilon-Greedy Algorithm이 있음.
그런데 이러한 exploration 방법들은 아래와 같은 단점(혹은 약점)이 존재하는데
그렇다면 Non heuristic하고 State-dependent하게 noise를 어떻게 적용할 수 있을까?
FC vs Noisy FC
Learnable parameters vs Noise variables
Noise paramters vs Noise variables
정리하자면 Factorised 가우시안 노이즈 방법은 p개와 q개의 noise를 뽑아서 사용하는 방법
인수분해
나 분해
라는 의미가 있음Independent Gaussian noise vs Factorised Gaussian noise
성능
트레이닝
기타
논문
참고 자료
코드 구현