마르코프 프로세스는 상태(S)와 전이확률행렬(P)로 정의합니다S : state space = {𝑆0, 𝑆1, 𝑆2, … }P: Transition probability model (matrix)상태(St)일때 상태(St+1)로 전이 될 확률로 미래는 오로지 현재에
Bellman Equation 상태의 가치와 특정 정책을 따라가는 동안 해당 상태에서 기대되는 누적 보상 간의 (재귀적)관계를 표현합니다. Bellman Expectation Equation 벨만 기대 방정식은 예상되는 즉각적인 보상과 다음 상태의 기대값 측면에 따른