| 1. Markov Process (MP)
Markov Property
"현재 상태가 미래를 결정한다. 과거는 필요 없다."
P(St+1∣St)=P(St+1∣S1,...,St)
- 상태는 미래에 대한 충분한 정보를 담고 있어야 한다.
정의: Markov Process
MP=⟨S,P⟩
- S: 상태 집합
- P: 상태 전이 행렬
→ Pss′=P(St+1=s′∣St=s)
예시: 학생 마르코프 체인
- 상태: Class 1, Class 2, Class 3, Facebook, Pub, Pass, Sleep
- 상태 간 전이 확률을 시각화 → 상태 전이 행렬로 표현 가능
| 2. Markov Reward Process (MRP)
정의: MRP
MRP=⟨S,P,R,γ⟩
- Rs=E[Rt+1∣St=s]
- γ∈[0,1]: 할인율
보상이 추가된 마르코프 체인
Return
Gt=Rt+1+γRt+2+γ2Rt+3+⋯=k=0∑∞γkRt+k+1
γ가 작으면 '단기적', 크면 '장기적' 관점의 가치 계산
Value Function
상태 s에서 시작할 때의 기대 return
v(s)=E[Gt∣St=s]
Bellman Equation (MRP용)
v(s)=Rs+γs′∑Pss′v(s′)
또는 행렬로 표현:
v=R+γPv
→ 선형 방정식 ⇒v=(I−γP)−1R
단, 계산 복잡도 O(n3) → 작을 때만 가능
| 3. Markov Decision Process (MDP)
정의: MDP
MDP=⟨S,A,P,R,γ⟩
- A: 행동 집합
- Pss′a=P(St+1=s′∣St=s,At=a)
- Rsa=E[Rt+1∣St=s,At=a]
이제는 에이전트가 행동을 선택할 수 있음!
Policy
π(a∣s)=P(At=a∣St=s)
- 상태 s에서 행동 a를 선택할 확률
- 확률적 또는 결정적 정책
Policy 기반 전이/보상
Pss′π=a∑π(a∣s)Pss′a
Rsπ=a∑π(a∣s)Rsa
Value Function in MDP
vπ(s)=Eπ[Gt∣St=s]
qπ(s,a)=Eπ[Gt∣St=s,At=a]
Bellman Expectation Equations
vπ(s)=a∑π(a∣s)[Rsa+γs′∑Pss′avπ(s′)]
qπ(s,a)=Rsa+γs′∑Pss′aa′∑π(a′∣s′)qπ(s′,a′)
| Optimal Value Functions
최적 상태/행동 가치 함수
v∗(s)=πmaxvπ(s)
q∗(s,a)=πmaxqπ(s,a)
Bellman Optimality Equations
v∗(s)=amax[Rsa+γs′∑Pss′av∗(s′)]
q∗(s,a)=Rsa+γs′∑Pss′aa′maxq∗(s′,a′)
최적 정책
π∗(s)=argamaxq∗(s,a)
- 모든 MDP에는 항상 결정적 최적 정책이 존재함
| MDP 확장 개념들
Infinite MDP
- 상태/행동이 무한 (연속)한 경우
- HJB 방정식 (Continuous MDP의 수학적 모델)
POMDP (Partially Observable MDP)
- 상태를 직접 관측할 수 없는 경우
- 상태 대신 belief state 사용
b(h)=P(St=s∣Ht=h)
평균 보상 MDP
ρπ=T→∞limT1E[t=1∑TRt]
| 정리
| 항목 | 설명 |
|---|
| MP | 상태만 존재, 확률적 전이 |
| MRP | 보상 추가됨 |
| MDP | 행동 선택이 추가됨 |
| 정책 | 상태 → 행동 확률 매핑 |
| 가치 함수 | 상태/행동의 장기적 가치 |
| 최적 정책 | 가치 함수 최대화 |