1. 강화학습의 정의와 특징
강화학습은 전통적인 지도/비지도 학습과는 결이 다른 제3의 학습 방식입니다.
- 학습 구조: 에이전트(Agent)가 환경(Environment) 내에서 현재 상태(State)를 관찰하고 특정 행동(Action)을 수행하며, 그 결과로 주어지는 보상(Reward)이 최대가 되도록 정책(Policy)을 학습합니다.
- 지도학습과의 비교:
- State: 지도학습의 입력(Input) 데이터와 유사
- Action: 지도학습이 예측해야 할 출력(Label) 값과 유사
- 차이점: 지도학습은 정답(Label)이 주어지지만, 강화학습은 정답 대신 보상을 통해 스스로 정답에 가까운 행동을 찾아냅니다.
- AI의 정의: David Silver 교수는 "AI = DL(지능) + RL(목표 지향적 행동)"이라 정의하며 딥러닝과 강화학습의 결합을 강조했습니다.
두 개념을 구분하는 핵심 기준은 '데이터의 특징을 누가 추출하느냐'입니다.
- 머신러닝: 비교적 데이터가 단순할 때 사용하며, 사람이 도메인 지식을 활용해 수동으로 특징(Feature)을 추출하여 모델에 입력합니다.
- 딥러닝: 데이터가 방대하고 복잡할 경우, 뉴럴 네트워크(Neural Network)가 원시 데이터(Raw Data)로부터 스스로 특징을 학습하도록 유도합니다. (End-to-End Learning)
3. MDP(Markov Decision Process)의 논리 구조
강화학습의 수학적 기반이 되는 MDP의 핵심 성질들입니다.
① 마르코프 성질 (Markov Property)
- 정의: 미래 상태(s′)는 오직 현재 상태(s)에 의해서만 결정되며, 그 이전의 과거(s−1, s−2, ...)와는 무관하다는 성질입니다.
- 사례: 브라운 운동(Brownian Motion)은 입자의 다음 위치가 현재 위치에 의해서만 결정되므로 마르코프 성질의 대표적인 물리적 예시입니다.
② 결정과 전이 (Decision & Transition)
- Decision: MDP에서 '결정'은 에이전트가 취하는 Action(행동)을 의미합니다.
- 상태 전이 확률(State Transition Probability): 마르코프 성질을 만족할 때, 에서 s′으로 이동할 확률은 오직 현재 상태(s)와 선택한 행동(a)에만 의존합니다.
③ 모델의 유무 (Model-based vs Model-free)
- Model-based: 환경의 전이 확률(P)과 보상 함수(R)를 에이전트가 알고 있는 경우입니다. (환경을 예측 가능)
- Model-free: 전이 확률을 모르기 때문에 실제 시행착오(Sample)를 통해 정책을 학습합니다.
- 범용성: 이 개념들은 불연속적인 Finite 환경뿐 아니라 연속적인(Continuous) 환경에도 동일하게 적용됩니다.
4. 그리드 월드(Grid World)와 정책 학습
격자 세상에서 최적의 정책을 찾아가는 과정의 실제적인 특성입니다.
- 확률적 정책(Stochastic Policy): 하나의 정책이라도 에이전트가 확률적으로 움직인다면, 같은 시작점에서도 서로 다른 경로인 여러 에피소드(Episode)가 발생할 수 있습니다.
- 보상 설계(Reward Shaping)의 중요성:
- 최적 경로를 찾기 위해 매 이동마다 미세한 음의 보상(Time Penalty)을 부여하여 움직임을 최소화하도록 유도합니다.
- 보상 설정에 따른 결과:
- 큰 음의 보상: 위험을 감수하더라도 최대한 빨리 목표에 도달하려 함 (공격적 정책)
- 작은 음의 보상: 위험 지역(절벽 등)을 멀리 돌아가더라도 안전하게 도달하려 함 (안정적 정책)
4-1. 다중 에피소드와 최적 정책
에피소드와 기대 보상을 통한 정책 최적화그리드 월드와 같은 환경에서 에이전트는 수많은 시행착오(에피소드)를 겪으며, 이 과정에서 얻은 보상들을 바탕으로 어떤 행동이 좋은지 판단합니다.
① 에피소드와 샘플링 (Sampling)에이전트가 확률적인 정책에 따라 움직이면, 동일한 환경에서도 매번 다른 경로와 보상을 가진 여러 에피소드가 생성됩니다.Model-free 환경에서는 전이 확률을 모르기 때문에, 이 수많은 에피소드들을 데이터(샘플)로 삼아 학습합니다.
② 기대 보상(Expected Reward)과 가치(Value)반환값(Return, Gt): 한 에피소드 내에서 특정 시점 t부터 종료 시까지 받은 보상들의 합입니다. (보통 미래 가치를 할인하는 감쇠 인자 γ를 적용합니다.)가치 함수(Value Function): 특정 상태 s에서 시작하여 여러 에피소드를 수행했을 때 얻을 수 있는 반환값들의 평균(기대값)입니다.
Vπ(s)=Eπ[Gt∣St=s]
- 왜 기대 보상인가?: 환경의 상태 전이나 정책이 확률적이기 때문에, 단 한 번의 에피소드 보상으로 판단하지 않고 통계적인 기대치를 활용해 가장 유리한 방향을 찾습니다.