einforcement learning introduction + State-action value function + Continuous state spaces

YoungJae Kang·2025년 6월 22일
0

머신러닝 학습

목록 보기
14/14
post-thumbnail

1. Reinforcement Learning 개요

정의: 보상 R 만을 지도 신호로 받아, 에이전트가 스스로 정책(π)을 학습해 장기 수익 (누적 보상)을 최대화


2. Markov Decision Process (MDP)

요소기호설명
상태s ∈ S환경 관측치
행동a ∈ A의사결정
보상R(s)즉시 수치
전이확률P(s'│s,a)다음 상태 분포
할인인자0<γ<1미래 보상 현재 가치

3. Return(수익)

Gt=k=0TγkRt+k+1G_t = \sum_{k=0}^{T} \gamma^{k} R_{t+k+1}
  • 결정적 MDP: 하나의 (Gt)(G_t) 최적화
  • 확률적 MDP: (E[Gt])(\mathbb{E}[G_t]) 최적화

4. Bellman Equation (기본형)

Qπ(s,a)=R(s)+γEs[maxaQπ(s,a)]Q^{\pi}(s,a)=R(s)+\gamma\, \mathbb{E}_{s'}\Big[\max_{a'}Q^{\pi}(s',a')\Big]

5. 가치 함수 & 최적 정책

  • 상태–행동 가치 (Qπ(s,a))(Q^\pi(s,a))
  • 상태 가치 (Vπ(s)=maxaQπ(s,a))(V^\pi(s)=\max_a Q^\pi(s,a))
  • 최적 정책 (π(s)=argmaxaQ(s,a))(\pi^*(s)= \arg\max_a Q^*(s,a))

6. Deep Q-Network (DQN) 워크플로

  1. 경험 ((s,a,r,s')) → Replay Buffer
  2. 목표
    y=r+γmaxaQθ(s,a)y = r + \gamma \max_{a'} Q_{\theta^-}(s',a')
  3. 손실
    L=(yQθ(s,a))2\mathcal{L}=(y-Q_\theta(s,a))^2
  4. 파라미터 업데이트 (SGD/Adam)
  5. 소프트 업데이트
    θτθ+(1τ)θ\theta^- \leftarrow \tau\theta + (1-\tau)\theta^-

7. ε-Greedy 탐색

  • 확률 (1ε):(argmaxaQ)(1-ε): (\arg\max_a Q) (활용)
  • 확률 εε: 무작위 (탐색)
  • 보통 ε=1.0 → 0.01 선형/지수 감소

8. 학습 안정화 Tricks

기법요점
Replay Buffer상관 제거, 샘플 다양성
Mini-Batch32–128개 경험으로 1 step 학습
Soft Updateτ ≈ 0.01 로 타깃 네트워크 점진 반영

9. 연속 상태 공간 대응

  • 테이블 불가 → 함수 근사(NN, 선형) 사용
  • 예: 헬리콥터 상태 벡터
    (x,y,z,φ,θ,ψ,x˙,y˙,z˙,φ˙,θ˙,ψ˙)(x,y,z,φ,θ,ψ,\dot{x},\dot{y},\dot{z},\dot{φ},\dot{θ},\dot{ψ})

10. Lunar Lander 실습 메모

  • 상태(8D): (x,y,ẋ,ẏ,θ,θ̇,l,r)
  • 행동: {NoOp, Left, Main, Right}
  • 할인: γ ≈ 0.985
  • 성공: 두 깃발 사이 Soft Landing + 연료 최소
  • 권장 하이퍼파라미터:
    • 학습률 1e-3
    • Mini-batch 64
    • Buffer 1e5
    • τ=0.01
profile
Data_Analyst

0개의 댓글