Playing Atari with Deep Reinforcement Learning (2013)

김동준·2025년 10월 31일

2013년 DeepMind에서 발표된, 심층 신경망을 활용해 고차원 환경에서 에이전트가 직접 최적의 행동 정책을 학습하는 “Deep Q-Network(DQN)”을 제시한 초창기 연구로, Atari 2600 같은 복잡한 게임에 딥러닝 기반 강화학습을 성공적으로 적용한 최초의 논문이다[1][2].

논문 배경 및 주요 기여

전통적인 강화학습 알고리즘들은 환경의 고유정보나 직접 설계된 feature, 선형 가치함수에 의존했다. 이 논문은 이러한 한계를 극복하기 위해, 이미지와 같은 고차원 센서 입력에서 직접 특징을 추출하는 CNN(합성곱 신경망)과 Q-러닝을 접목해 에이전트가 화면의 픽셀만을 입력으로 삼아 미래 보상예측 값을 출력하도록 설계하였다. 이런 접근법의 핵심은 단 하나의 네트워크로 여러 게임에 별도의 변형 없이 적용할 수 있다는 점이다. 논문에서는 7종의 Atari 게임(Beam Rider, Breakout, Enduro, Pong, Q*bert, Seaquest, Space Invaders)에 동일한 아키텍처 및 학습 파라미터로 실험했고, 6개 게임에서 기존 모든 알고리즘을 뛰어넘는 결과를, 3개에서는 인간 전문가를 능가하는 성능을 기록했다[1][2].

DQN의 주요 구성과 학습 방식

신경망 아키텍처는 4장의 연속된 프레임(84x84x4)으로 convolution layer를 통해 추출된 특징을 value function으로 변환한다. 출력은 가능한 액션별로 Q값을 반환한다[1][2].
학습에는 Q-learning의 변형을 적용하면서, “Experience Replay”라는 새로운 메커니즘을 도입했다. 이는 에이전트가 경험하는 각 (상태, 행동, 보상, 다음 상태)을 메모리에 저장한 뒤, 임의 샘플을 뽑아 미니배치 SGD로 학습해 데이터 효율성과 안정성을 동시에 증진한다. 연속 샘플의 강한 상관관계와 “발산” 문제를 완화하는 데 효과적이었다[1].
행동 선택은 탐험과 활용 사이의 균형을 위해 $\epsilon$ -greedy 정책을 썼다. 초기엔 랜덤(탐험)이 많고 점차 모델이 자신감 있는 액션을 더 많이 선택하도록 선형적으로 $\epsilon$ 을 낮춘다[1].
Atari의 원본 이미지는 흑백으로 변환, 다운샘플링(110x84), 영역 Cropping을 거쳐, 4개의 프레임을 스택하여 신경망 입력으로 활용했다[1][2].

실험 및 결과

모든 환경에서 RMSProp 옵티마이저와 32 크기의 미니배치, 100만 스텝에서 $\epsilon$ 값을 1에서 0.1로 선형 감소, 프레임 스킵 $k=4$ 등을 공통적으로 적용했다[1].
평가 방식은 에이전트가 라운드 당 모은 최대 보상과, 최대 평균 Q값, 그리고 정책이 바뀌는 가치함수의 변화를 모니터링했다[1].
그 결과 DQN은 기존 RL 알고리즘이나 인간 전문가와 비교해 많은 게임에서 우수한 성능을 보여주었으며, 하나의 네트워크와 동일한 파라미터로 여러 게임에서 모두 잘 작동하는 범용성을 증명했다[1][2].

DQN의 의의와 한계

이 논문은 강화학습과 딥러닝의 융합이 실제로 복잡한 환경에서 높은 수준의 정책을 습득할 수 있음을 실증했으며, 이후 심층 강화학습 분야(AlphaGo, 자연어 처리 등)에 폭발적인 계기를 제공했다. 그러나 논문은 RL에 딥러닝을 적용할 때 발생하는 “데이터 상관” 문제, delayed reward, on-policy의 편향, 그리고 우선순위 샘플링의 필요성(uniform sampling의 한계 등)에 대한 개선포인트도 함께 제시했다[1][2].

결론

이 논문은 Q-learning의 변형을 CNN 기반 모델에 적용하면서, 경험 샘플링(Experience Replay) 기법의 도입으로 딥러닝 강화학습의 데이터 효율성, 안정성, 일반화 성능을 크게 높였다. DQN 모델은 이후 수많은 RL 연구와 실제 응용에 결정적 영향을 미친, 딥러닝 시대 강화학습의 분수령이 된 논문이다[1][2].

출처
[1][논문 리뷰] Playing Atari with Deep Reinforcement Learning (DQN) https://limepencil.tistory.com/38
[2] 논문분석: Playing Atari with Deep Reinforcement Learning https://velog.io/@wsh7787/%EB%85%BC%EB%AC%B8%EB%B6%84%EC%84%9D-Playing-Atari-with-Deep-Reinforcement-Learning
[3] 강화학습 논문 정리 1편 : DQN 논문 리뷰 (Playing Atari with ... https://ropiens.tistory.com/75
[4][1312.5602] Playing Atari with Deep Reinforcement Learning https://arxiv.org/abs/1312.5602
[5] Playing Atari with Deep Reinforcement Learning https://jamiekang.github.io/2017/05/07/playing-atari-with-deep-reinforcement-learning/
[6][논문 리뷰] Learning To Play Atari Games Using Dueling Q-Learning and Hebbian Plasticity https://www.themoonlight.io/ko/review/learning-to-play-atari-games-using-dueling-q-learning-and-hebbian-plasticity
[7] Deep Q Networks (DQN) · Deep Reinforcement Learning https://stevenschmatz.gitbooks.io/deep-reinforcement-learning/content/deep-q-networks.html
[8] Playing Atari with Deep Reinforcement Learning (Dec 2013) https://www.youtube.com/watch?v=ZzRK0fE9L6k
[9][논문]Playing Atari with Deep Reinforcement Learning(DQN) https://velog.io/@rlaxodns/Playing-Atari-with-Deep-Reinforcement-LearningDQN
[10] Using deep reinforcement learning to reveal how the brain ... https://pmc.ncbi.nlm.nih.gov/articles/PMC7897245/
[11][PDF] Playing Atari with Deep Reinforcement Learning | Semantic Scholar https://www.semanticscholar.org/paper/Playing-Atari-with-Deep-Reinforcement-Learning-Mnih-Kavukcuoglu/2319a491378867c7049b3da055c5df60e1671158
[12][딥러닝] Deep Q Network(DQN) 논문 번역 - 마도학자 로스카츠 ... https://losskatsu.github.io/machine-learning/dqn-paper/
[13] Constrained Deep Q-Learning Gradually Approaching Ordinary Q ... https://pmc.ncbi.nlm.nih.gov/articles/PMC6914867/
[14][논문 요약] DQN: Playing Atari with Deep Reinforcement Learning https://velog.io/@eogns1208/%EB%85%BC%EB%AC%B8-%EC%9A%94%EC%95%BD-DQN-Playing-Atari-with-Deep-Reinforcement-Learning
[15][논문리뷰-DQN] Deep Q-Network :: 내가 공부하려고 쓰는 글 https://jiho-kang.tistory.com/15
[16] Human-level control through deep reinforcement learning https://www.nature.com/articles/nature14236
[17][PDF] Playing Atari with Deep Reinforcement Learning https://www.cs.toronto.edu/~vmnih/docs/dqn.pdf
[18] DQN https://namu.wiki/w/DQN
[19] Playing Atari with Deep Reinforcement Learning https://arxiv.org/pdf/1312.5602.pdf
[20] Playing Atari with Deep Reinforcement Learning (DQN 논문) https://blog.outta.ai/152

김동준

Story Engineer

이전 포스트

LangChain 문서 RAG 챗봇

다음 포스트