1. Reinforcement Learning 개요
정의: 보상 R 만을 지도 신호로 받아, 에이전트가 스스로 정책(π)을 학습해 장기 수익 (누적 보상)을 최대화
2. Markov Decision Process (MDP)
| 요소 | 기호 | 설명 |
|---|
| 상태 | s ∈ S | 환경 관측치 |
| 행동 | a ∈ A | 의사결정 |
| 보상 | R(s) | 즉시 수치 |
| 전이확률 | P(s'│s,a) | 다음 상태 분포 |
| 할인인자 | 0<γ<1 | 미래 보상 현재 가치 |
3. Return(수익)
Gt=k=0∑TγkRt+k+1
- 결정적 MDP: 하나의 (Gt) 최적화
- 확률적 MDP: (E[Gt]) 최적화
4. Bellman Equation (기본형)
Qπ(s,a)=R(s)+γEs′[a′maxQπ(s′,a′)]
5. 가치 함수 & 최적 정책
- 상태–행동 가치 (Qπ(s,a))
- 상태 가치 (Vπ(s)=maxaQπ(s,a))
- 최적 정책 (π∗(s)=argmaxaQ∗(s,a))
6. Deep Q-Network (DQN) 워크플로
- 경험 ((s,a,r,s')) → Replay Buffer
- 목표
y=r+γa′maxQθ−(s′,a′)
- 손실
L=(y−Qθ(s,a))2
- 파라미터 업데이트 (SGD/Adam)
- 소프트 업데이트
θ−←τθ+(1−τ)θ−
7. ε-Greedy 탐색
- 확률 (1−ε):(argmaxaQ) (활용)
- 확률 ε: 무작위 (탐색)
- 보통
ε=1.0 → 0.01 선형/지수 감소
8. 학습 안정화 Tricks
9. 연속 상태 공간 대응
- 테이블 불가 → 함수 근사(NN, 선형) 사용
- 예: 헬리콥터 상태 벡터
(x,y,z,φ,θ,ψ,x˙,y˙,z˙,φ˙,θ˙,ψ˙)
10. Lunar Lander 실습 메모
- 상태(8D):
(x,y,ẋ,ẏ,θ,θ̇,l,r)
- 행동:
{NoOp, Left, Main, Right}
- 할인:
γ ≈ 0.985
- 성공: 두 깃발 사이 Soft Landing + 연료 최소
- 권장 하이퍼파라미터:
- 학습률
1e-3
- Mini-batch
64
- Buffer
1e5
τ=0.01