오늘은 Deep Q-Network과 Naïve DQN의 개념, Naïve DQN의 한계, 이를 극복하기 위한 Experience Replay에 대해 배워볼 예정이다.



| Breakout | R. Raid | Enduro | Sequest | S. Invaders | |
|---|---|---|---|---|---|
| Naive DQN | 3.2 | 1453.0 | 29.1 | 275.8 | 302.0 |
| Linear | 3.0 | 2346.9 | 62.0 | 656.9 | 301.3 |



지속적인 학습을 수행하는 Online RL agent는 sample data를 수집하여 업데이트 후 이를 버린다.
예를 들어 Robot이 넘어지는 상황을 가정하자. Robot은 조금씩 비틀거리면 넘어질 것이다. 하지만 Robot이 완전히 넘어지기 전까지는 Negative Reward를 받지 않는다. 완전히 넘어져야 Negative Reward를 받는 것은 좋은 상황이 아니다.



- Deep Q-Network에 대해 배웠다.
- Naïve DQN의 한계에 대해 살펴보았다.
- Experience Replay에 대해 배웠다.
- Diagram을 통해 Experience Replay의 작동방식을 배웠다.