해당 논문에서 제시하는 기존 DQN 알고리즘의 한계 2가지는 다음과 같습니다.
(1) Limited Replay memory
(2) Rely on being able to perceive the complete game screen at each decision point
이러한 단점을 해결하기 위해 해당 논문에서는 DQN 에서의 convolutional layer 이후의 첫 fully-connected layer를 recurrent - LSTM으로 대체합니다.
DRQN은 한 step에 4개의 frame을 받는 DQN과는 달리, 각 time step에 1개의 frame만으로도 정보를 integration할 수 있으며,
일반적인 Atari game뿐만 아니라, 화면이 깜빡거려 일부 frame들이 들어오지 않는 상황(partially observed equivalents featuring flickering game screens)에서도 DQN을 대체할 수 있습니다.
모든 frame이 완전히 들어오는 상황을 complete observation, 부분적으로 들어오는 상황을 partially observation
DRQN은 partial observation에서 학습 후, 점점 complete obseravattion으로 평가할 경우 성능이 더 좋아지며, full observation에서 학습한 뒤, partial observation에서 평가했을때, DQN보다 성능이 덜 나빠집니다.
따라서 주어진 동일한 length의 history에 대해 recurrency는 DQN의 input layer에서 여러 stack의 frame을 쌓는 것을 대체할 수 있습니다.
또한 Recurrent net은 observation의 quality가 변하는 평가에 더 잘 적용할 수 있습니다.