einforcement learning introduction + State-action value function + Continuous state spaces

YoungJae Kang·2025년 6월 22일

0

머신러닝 학습

목록 보기

14/14

1. Reinforcement Learning 개요

정의: 보상 R 만을 지도 신호로 받아, 에이전트가 스스로 정책(π)을 학습해 장기 수익 (누적 보상)을 최대화

2. Markov Decision Process (MDP)

요소	기호	설명
상태	`s ∈ S`	환경 관측치
행동	`a ∈ A`	의사결정
보상	`R(s)`	즉시 수치
전이확률	`P(s'│s,a)`	다음 상태 분포
할인인자	`0<γ<1`	미래 보상 현재 가치

3. Return(수익)

G_t = \sum_{k=0}^{T} \gamma^{k} R_{t+k+1}

결정적 MDP: 하나의 $(G_t)$ 최적화
확률적 MDP: $(\mathbb{E}[G_t])$ 최적화

4. Bellman Equation (기본형)

Q^{\pi}(s,a)=R(s)+\gamma\, \mathbb{E}_{s'}\Big[\max_{a'}Q^{\pi}(s',a')\Big]

5. 가치 함수 & 최적 정책

상태–행동 가치 $(Q^\pi(s,a))$
상태 가치 $(V^\pi(s)=\max_a Q^\pi(s,a))$
최적 정책 $(\pi^*(s)= \arg\max_a Q^*(s,a))$

6. Deep Q-Network (DQN) 워크플로

경험 ((s,a,r,s')) → Replay Buffer
목표 $y = r + \gamma \max_{a'} Q_{\theta^-}(s',a')$
손실 $\mathcal{L}=(y-Q_\theta(s,a))^2$
파라미터 업데이트 (SGD/Adam)
소프트 업데이트 $\theta^- \leftarrow \tau\theta + (1-\tau)\theta^-$

7. ε-Greedy 탐색

확률 $(1-ε): (\arg\max_a Q)$ (활용)
확률 $ε$ : 무작위 (탐색)
보통 ε=1.0 → 0.01 선형/지수 감소

8. 학습 안정화 Tricks

기법	요점
Replay Buffer	상관 제거, 샘플 다양성
Mini-Batch	32–128개 경험으로 1 step 학습
Soft Update	`τ ≈ 0.01` 로 타깃 네트워크 점진 반영

9. 연속 상태 공간 대응

테이블 불가 → 함수 근사(NN, 선형) 사용
예: 헬리콥터 상태 벡터
$(x,y,z,φ,θ,ψ,\dot{x},\dot{y},\dot{z},\dot{φ},\dot{θ},\dot{ψ})$

10. Lunar Lander 실습 메모

상태(8D): (x,y,ẋ,ẏ,θ,θ̇,l,r)
행동: {NoOp, Left, Main, Right}
할인: γ ≈ 0.985
성공: 두 깃발 사이 Soft Landing + 연료 최소
권장 하이퍼파라미터:
- 학습률 1e-3
- Mini-batch 64
- Buffer 1e5
- τ=0.01

Data_Analyst

이전 포스트

Collaborative filtering+ Recommander systems implementation detail + Content-based filtering + Principal Component Analysis

0개의 댓글