DQN(Deep Q-Network)의 주요 아키텍처

김동준·2025년 10월 31일

DQN(Deep Q-Network)의 주요 아키텍처는 합성곱 신경망(CNN)을 중심으로 구성되며, 경험 리플레이(Experience Replay), 타겟 네트워크(Target Network)와 같은 학습 안정화 기법들이 핵심 요소이다[1][2][3].

Q-Network: 환경의 상태(state)를 입력받아 각 행동(action)에 대한 Q값(미래 보상 기대값)을 출력하는 딥러닝 신경망(CNN)을 사용한다. 상태는 화면 이미지 등의 고차원 데이터일 수 있으며, 한 번에 모든 행동의 Q값을 병렬로 추정한다[3][8].
경험 리플레이: 에이전트가 환경에서 얻는 경험(s, a, r, s')을 버퍼에 저장한 후, 학습 시 과거 경험을 무작위로 샘플링하여 미니배치 학습을 병행한다. 이는 샘플 간 상관관계를 줄이고, 데이터 효율성과 안정성을 증진한다[1][2][8].
타겟 네트워크: 학습 네트워크와 동일 구조의 보조 네트워크를 두고, Q-learning의 타깃값 계산 시 고정된 파라미터로 사용한다. 일정 주기마다 메인 네트워크의 가중치를 복사해 업데이트함으로써, 학습 목표의 급격한 변화(발산)를 막고 안정적인 학습을 돕는다[1][2][3].

에이전트는 환경과 상호작용하며 상태(state)에서 행동(action)을 선택한다(탐색 $\epsilon$ -greedy)[1][2].
선택된 행동을 수행, 환경으로부터 보상(reward)과 다음 상태(next state)를 얻는다[2][3].
경험(transition)을 리플레이 버퍼에 저장한다[2][3].
일정 간격마다 버퍼에서 미니배치 경험을 무작위로 샘플링해 Q-네트워크를 학습시킨다. 이 때 타겟 네트워크로 타깃 Q값을 계산한다[1][2].
손실 함수는 Q-네트워크의 예측 Q값과 타겟 Q값(보상 + 할인된 미래 Q, $r + \gamma \max_a Q_{\text{target}}(s', a)$ )의 차를 최소화하도록 가중치를 업데이트한다[1][3].
타겟 네트워크의 파라미터는 일정한 주기로 Q-네트워크의 최신 파라미터로 복사해 최신화한다[1][2].

이 구성과 과정 덕분에 DQN은 복잡한 고차원 환경(예: 아타리 게임 등)에서도 효율적이고 안정적으로 정책을 학습할 수 있다[1][2][3][8].

출처
[1][RL] 강화학습 알고리즘: (1) DQN (Deep Q-Network) https://ai-com.tistory.com/entry/RL-%EA%B0%95%ED%99%94%ED%95%99%EC%8A%B5-%EC%95%8C%EA%B3%A0%EB%A6%AC%EC%A6%98-1-DQN-Deep-Q-Network
[2] 딥 Q-네트워크(DQN) 개요 및 실무 적용 사례 - learningflix https://learningflix.tistory.com/123
[3] DQN: Deep Q-Networks - DevSlem Blog https://devslem.github.io/reinforcement-learning/drl-methods/dqn/
[4] 강화학습 기초 5 - DQN https://velog.io/@s_s/%EA%B0%95%ED%99%94%ED%95%99%EC%8A%B5-%EA%B8%B0%EC%B4%88-5-DQN
[5] 강화 학습: Deep Q-Networks (DQN) 기본 이해 - move84 https://move84s.tistory.com/453
[6] 강화 학습 (DQN) 튜토리얼 - 파이토치 한국 사용자 모임 https://tutorials.pytorch.kr/intermediate/reinforcement_q_learning.html
[7][논문리뷰] Deep Q Network (DQN) - 정리노트 - 티스토리 https://roboharco12.tistory.com/63
[8] 강화학습 개념부터 Deep Q Networks까지, 10분만에 훑어보기 https://jeinalog.tistory.com/20
[9] 강화학습 논문 정리 3편 : DDQN 논문 리뷰 (Deep ... https://ropiens.tistory.com/134
[10][강화학습] SARSA와 DQN 개념 정리 - HIGHQUAL - 티스토리 https://mengu.tistory.com/139

Story Engineer