해당 글은 강화 학습의 개념 전반에 대해 순차적으로 다룰 예정입니다. 이번 포스팅에서는 가장 기초가 되는 Markov Process에 대해 이야기하겠습니다.
Pss′=P[St+1=s′∣St=s]P_{ss'}=P[S_{t+1}=s'|S_t=s]Pss′=P[St+1=s′∣St=s]
R=E[Rt∣St=s]R=E[R_t|S_t=s]R=E[Rt∣St=s]
Gt=Rt+1+γRt+2+γ2Rt+3+...G_t=R_{t+1}+\gamma R_{t+2}+\gamma^2R_{t+3}+...Gt=Rt+1+γRt+2+γ2Rt+3+...
v(s)=E[Gt∣St=s]v(s)=E[G_t|S_t=s]v(s)=E[Gt∣St=s]
Pss′a=P[St+1=s′∣St=s,At=a]P^a_{ss'}=P[S_{t+1}=s'|S_t=s, A_t=a]Pss′a=P[St+1=s′∣St=s,At=a]
Rsa=E[Rt+1∣St=s,At=a]R^a_s=E[R_{t+1}|S_t=s, A_t=a]Rsa=E[Rt+1∣St=s,At=a]
π(a∣s)=P[At=a∣St=s]\pi(a|s)=P[A_t=a|S_t=s]π(a∣s)=P[At=a∣St=s]
vπ(s)=Eπ[Gt∣St=s]v_\pi(s)=E_\pi[G_t|S_t=s]vπ(s)=Eπ[Gt∣St=s]
qπ(s)=Eπ[Gt∣St=s,At=a]q_\pi(s)=E_\pi[G_t|S_t=s, A_t=a]qπ(s)=Eπ[Gt∣St=s,At=a]