강화학습 이론1

Amitis·2026년 1월 6일

DRL RL

1. 강화학습의 정의와 특징

강화학습은 전통적인 지도/비지도 학습과는 결이 다른 제3의 학습 방식입니다.

학습 구조: 에이전트(Agent)가 환경(Environment) 내에서 현재 상태(State)를 관찰하고 특정 행동(Action)을 수행하며, 그 결과로 주어지는 보상(Reward)이 최대가 되도록 정책(Policy)을 학습합니다.
지도학습과의 비교:
State: 지도학습의 입력(Input) 데이터와 유사
Action: 지도학습이 예측해야 할 출력(Label) 값과 유사
차이점: 지도학습은 정답(Label)이 주어지지만, 강화학습은 정답 대신 보상을 통해 스스로 정답에 가까운 행동을 찾아냅니다.

AI의 정의: David Silver 교수는 "AI = DL(지능) + RL(목표 지향적 행동)"이라 정의하며 딥러닝과 강화학습의 결합을 강조했습니다.

2. 머신러닝 vs 딥러닝: 특징 추출(Feature Extraction)

두 개념을 구분하는 핵심 기준은 '데이터의 특징을 누가 추출하느냐'입니다.

머신러닝: 비교적 데이터가 단순할 때 사용하며, 사람이 도메인 지식을 활용해 수동으로 특징(Feature)을 추출하여 모델에 입력합니다.
딥러닝: 데이터가 방대하고 복잡할 경우, 뉴럴 네트워크(Neural Network)가 원시 데이터(Raw Data)로부터 스스로 특징을 학습하도록 유도합니다. (End-to-End Learning)

3. MDP(Markov Decision Process)의 논리 구조

강화학습의 수학적 기반이 되는 MDP의 핵심 성질들입니다.

① 마르코프 성질 (Markov Property)

정의: 미래 상태( $s'$ )는 오직 현재 상태( $s$ )에 의해서만 결정되며, 그 이전의 과거( $s-1$ , $s-2$ , ...)와는 무관하다는 성질입니다.
사례: 브라운 운동(Brownian Motion)은 입자의 다음 위치가 현재 위치에 의해서만 결정되므로 마르코프 성질의 대표적인 물리적 예시입니다.

② 결정과 전이 (Decision & Transition)

Decision: MDP에서 '결정'은 에이전트가 취하는 Action(행동)을 의미합니다.
상태 전이 확률(State Transition Probability): 마르코프 성질을 만족할 때, 에서 $s'$ 으로 이동할 확률은 오직 현재 상태( $s$ )와 선택한 행동( $a$ )에만 의존합니다.

③ 모델의 유무 (Model-based vs Model-free)

Model-based: 환경의 전이 확률( $P$ )과 보상 함수( $R$ )를 에이전트가 알고 있는 경우입니다. (환경을 예측 가능)
Model-free: 전이 확률을 모르기 때문에 실제 시행착오(Sample)를 통해 정책을 학습합니다.
범용성: 이 개념들은 불연속적인 Finite 환경뿐 아니라 연속적인(Continuous) 환경에도 동일하게 적용됩니다.

4. 그리드 월드(Grid World)와 정책 학습

격자 세상에서 최적의 정책을 찾아가는 과정의 실제적인 특성입니다.

확률적 정책(Stochastic Policy): 하나의 정책이라도 에이전트가 확률적으로 움직인다면, 같은 시작점에서도 서로 다른 경로인 여러 에피소드(Episode)가 발생할 수 있습니다.
보상 설계(Reward Shaping)의 중요성:
최적 경로를 찾기 위해 매 이동마다 미세한 음의 보상(Time Penalty)을 부여하여 움직임을 최소화하도록 유도합니다.
보상 설정에 따른 결과:
큰 음의 보상: 위험을 감수하더라도 최대한 빨리 목표에 도달하려 함 (공격적 정책)
작은 음의 보상: 위험 지역(절벽 등)을 멀리 돌아가더라도 안전하게 도달하려 함 (안정적 정책)

4-1. 다중 에피소드와 최적 정책

에피소드와 기대 보상을 통한 정책 최적화그리드 월드와 같은 환경에서 에이전트는 수많은 시행착오(에피소드)를 겪으며, 이 과정에서 얻은 보상들을 바탕으로 어떤 행동이 좋은지 판단합니다.

① 에피소드와 샘플링 (Sampling)에이전트가 확률적인 정책에 따라 움직이면, 동일한 환경에서도 매번 다른 경로와 보상을 가진 여러 에피소드가 생성됩니다.Model-free 환경에서는 전이 확률을 모르기 때문에, 이 수많은 에피소드들을 데이터(샘플)로 삼아 학습합니다.

② 기대 보상(Expected Reward)과 가치(Value)반환값(Return, $G_t$ ): 한 에피소드 내에서 특정 시점 $t$ 부터 종료 시까지 받은 보상들의 합입니다. (보통 미래 가치를 할인하는 감쇠 인자 $\gamma$ 를 적용합니다.)가치 함수(Value Function): 특정 상태 $s$ 에서 시작하여 여러 에피소드를 수행했을 때 얻을 수 있는 반환값들의 평균(기대값)입니다.

$V^\pi(s) = E_\pi [G_t | S_t = s]$

왜 기대 보상인가?: 환경의 상태 전이나 정책이 확률적이기 때문에, 단 한 번의 에피소드 보상으로 판단하지 않고 통계적인 기대치를 활용해 가장 유리한 방향을 찾습니다.

Amitis

코딩은 핫팩빨

이전 포스트