Reinforcement Learning
기본 개념
MDP (Markov Decision Process) 정의
- 마르코프 결정 과정(MDP)로 모델링
- MDP는 5-tuple로 정의 : MDP=(S,A,P,R,γ)
- S: 상태 공간 (State Space) - 에이전트가 관찰할 수 있는 모든 상태의 집합
- A: 행동 공간 (Action Space) - 에이전트가 취할 수 있는 모든 행동의 집합
- P: 전이 확률 (Transition Probability) - P(s′∣s,a), 상태 s에서 행동 a를 했을 때 상태 s′로 이동할 확률
- R: 보상 함수 (Reward Function) - R(s,a,s′), 상태 전이에 따른 즉시 보상
- γ: 할인 인자 (Discount Factor) - 미래 보상의 현재 가치, 0≤γ≤1
정책 (Policy) π :
각 상태에서 어떤 행동을 선택할지 결정하는 함수
결정적 정책: (상태 s에서 항상 행동 a 선택)
확률적 정책: (상태 s에서 행동 a를 선택할 확률)
가치 함수 (Value Functions)
상태 가치 함수 Vπ(s):
- 정책 π를 따를 때 상태 s에서의 기대 누적 보상
Vπ(s)=Eπ[∑t=0∞γtrt+1∣s0=s]
행동-가치 함수 Qπ(s,a):
- 상태 s에서 행동 a를 하고 이후 정책 π를 따를 때의 기대 누적 보상
Qπ(s,a)=Eπ[∑t=0∞γtrt+1∣s0=s,a0=a]
벨만 방정식 (Bellman Equations)
-
상태 가치 함수의 벨만 방정식:
Vπ(s)=∑aπ(a∣s)∑s′P(s′∣s,a)[R(s,a,s′)+γVπ(s′)]
-
행동-가치 함수의 벨만 방정식:
Qπ(s,a)=∑s′P(s′∣s,a)[R(s,a,s′)+γ∑a′π(a′∣s′)Qπ(s′,a′)]