🎓 RL3 - Q-Learning

MinSeok_CSE·2025년 2월 1일

Reinforcement Learning

목록 보기

3/5

🎓 Q-Learning 개요

Q-Learning을 배우기에 앞서, 먼저 DQN(Deep Q-Network)에 대해 이야기해보자.

2013년, 구글 딥마인드는 "Playing Atari with Deep Reinforcement Learning"이라는 논문을 발표했다. 이 논문은 Atari 2600의 7가지 게임 중 6가지에서 신기록을 달성할 정도로 기존 강화학습 기법에 혁신을 가져온 기술을 소개했다. 기존의 강화학습 알고리즘은 환경의 동작을 분석하여 학습하는 방식이었지만, 딥마인드는 게임의 원본 픽셀을 직접 입력받아 학습하는 방식을 도입했다. 이를 DQN(Deep Q-Network, 심층 Q-네트워크)라고 하며, 이 논문이 DQN의 출발점이라고 할 만큼 큰 영향을 미쳤다.

그런데, DQN의 핵심 알고리즘이 바로 Q-Learning이다.
DQN을 이해하기 위해서는 먼저 Q-Learning이 무엇인지, 그리고 기존 Q-Learning이 어떤 한계를 가졌기에 DQN이 필요하게 되었는지를 이해해야 한다.

Q-Learning은 이미 수십 년 전에 개발된 기법으로, 환경과의 상호작용을 통해 최적의 행동을 학습하는 모델 프리 강화학습 알고리즘이다. 그러나 기존 Q-Learning은 고차원 환경에서의 학습이 어렵다는 한계를 가지고 있었다. 특히, Q-테이블 방식은 상태 공간이 커질수록 메모리와 계산량이 기하급수적으로 증가하여 실용성이 떨어졌다.

또한, 당시에는 지금과 같은 고성능 GPU가 존재하지 않았기 때문에, 대규모 신경망을 학습시키는 것이 어려웠다. 하지만 최근 GPU 성능이 비약적으로 발전하면서 신경망을 활용한 심층 강화학습이 가능해졌고, 이를 기반으로 DQN이 탄생했다. 딥마인드는 기존 Q-Learning의 한계를 극복하기 위해 심층 신경망을 활용하여 Q-값을 근사하는 방식을 도입했다. 이를 통해 Q-Learning을 확장하여 픽셀 수준의 고차원 환경에서도 학습할 수 있도록 만들었다.

이처럼 DQN은 기존 Q-Learning의 한계를 극복하기 위해 탄생한 알고리즘이다.
따라서 Q-Learning을 배우기 전에, 먼저 Q-Learning이 가진 한계를 이해하는 것이 중요하다. 이제 Q-Learning의 원리에 대해 자세히 알아보자.

🎓 Q-Learning이란?

보통 Q라면 앞에서 설명한 행동-가치 함수 $Q_\pi(s,a)$ 을 떠올릴 것이다. 중요한 점은 이 함수 자체가 Q-Learning을 고유하게 특징하는 것은 아니다. Q-Learning은 최적의 동작 가치들을 학습하는 한 방법 중에 하나로 Q-Learning 외에도 여러 가지로 존재한다.

Q-Learning의 핵심은 상태-동작 쌍의 가치를 예층하고, 그 예측가치를 몇 시점 이후에 그때까지 관찰된 누적 보상과 비교하여 알고리즘의 매개변수들을 갱신함으로써 더 나은 가치를 예측하는 것이다.

Q-Learning의 핵심 개념

Q-function $Q(s, a)$
특정 상태 $s$ 에서 행동 $a$ 를 했을 때 얻을 수 있는 미래 기대 보상을 나타낸다.
최적 Q-함수는 다음과 같이 정의된다.

$Q^*(S_t, A_t) = \mathbb{E} \left[ R_{t+1} + \gamma \max_{A'} Q^*(S_{t+1}, A') \mid S_t, A_t \right]$
- 이 수식은 다음을 의미한다.
  - $Q^*(S_t, A_t)$ :
    현재 상태 $S_t$ 에서 행동 $A_t$ 를 선택했을 때의 최적 기대 보상
  - 우변 (기대값 $\mathbb{E}[\cdot]$ 부분) :
    현재 상태 $S_t$ 에서 행동 $A_t$ 를 선택했을 때, 가능한 모든 결과의 평균(기대값)
    $R_{t+1}$ : 시간 $t$ 에서 행동 $A_t$ 를 했을 때 받은 보상
    $\gamma$ : 할인율
    $S_{t+1}$ : 행동 후 도달한 다음 상태
    $A'$ : 다음 상태 $S_{t+1}$ 에서 취할 수 있는 모든 행동 중 최적 행동

Q-Learning의 갱신 규칙

$Q'(S_t, A_t) \leftarrow Q(S_t, A_t) + \alpha \left[ R_{t+1} + \gamma \max_{a} Q(S_{t+1}, a) - Q(S_t, A_t) \right]$
- 여기서,
  - $Q'(S_t, A_t)$ : 갱신된 Q 가치
  - $Q(S_t, A_t)$ : 현재 Q 가치
  - $\alpha$ : 단계 크기(학습 속도, Learning rate)로 흔히 Hyperparameter(초매개변수)라고 부른다.
  - $R_{t+1}$ : 관측된 보상
  - $\gamma$ : 할인율
  - $\max Q(S_{t+1},a)$ : 모든 동작의 최대 Q 가치
Q-테이블 (Q-table)
- $Q(s, a)$ 값을 저장하는 테이블 형식의 데이터 구조
- 모든 가능한 상태와 행동의 조합을 테이블로 만들어 학습 진행
- 상태와 행동의 수가 많아지면 저장 공간 한계로 인해 Deep Q-Network(DQN) 같은 신경망 기반 방법이 필요

🎓 Q-Learning의 장점과 단점

장점
- 이론적으로 최적 정책을 보장: 충분한 학습 시간과 모든 상태를 방문할 수 있다면 최적 정책을 수렴할 수 있음.
- 직관적인 테이블 방식: 작은 상태 공간에서는 쉽게 구현 가능.
- 모델 프리(Model-Free): 환경의 동적 모델(전이 확률, 보상 함수 등)을 몰라도 학습 가능.
단점
- Q-테이블 크기 문제: 상태와 행동 공간이 커지면 테이블 방식이 비효율적(차원의 저주).
- 학습 속도 문제: 많은 에피소드가 필요하며, 학습률 조정이 중요함.
- 연속적인 상태 공간에서는 적용 어려움: 해결책으로 DQN(Deep Q-Network) 같은 신경망 기반 방법이 등장.

MinSeok_CSE

이전 포스트

🎓 RL2 - MDP

다음 포스트