Neural network를 이용한 function approxiamtor로 기존의 딥러닝 방식의 강화학습이 가진 문제를Experience Replay Buffer와 Fixed Q Targets을 이용해 해모델이 없는 (Model-Free) 환경에서 학습하는 알고리즘.
MDP를 모르는 경우에도 어떻게 prediction을 하고 어떻게 control을 할지. prediction은 value를 찾는 문제. MC와 TD가 있다.에피소드를 끝까지 수행하고 얻은 결과에 대해 평균으로 value를 취한다. 실제 수행한 값의 평균을 취한다. 목표
강화학습에서의 Agent는 현재상태에서 reward를 많이 받는 action을 선택하기 위해 exploition을 하지만, 다른 더 좋은 reward를 얻기 위해서는 적절하게 exploration이 필요하다. exploition: state 에서 지금까지 경험한 act
OpenAI에서 발표한 Exploration에 대한 논문. Atari 게임에서 어려운 게임인 몬테주마의 복수(Montezuma’s Revenge) 게임에서 SOTA를 기록한 논문이다. 지금까지 여러 강화학습 알고리즘이 있었지만 Reward가 Sparse한 환경인 몬테주