1. Markov Property
미래를 오직 현재상태로만 파악하는 것
(미래는 현재상태에 의해서만 결정=과거의 상태와는 무관)

: (현재상태) : (미래상태) 라고 표기하며,
(~)은 과거상태(history) 일련의 체인을 형성하더라도 영향 받지 않고, (현재상태) 스스로에 모든 경우의 수를 포함시켜 하나만을 취급한다.
그렇기에 위와 같은 식이 성립한다.
2. Markov Process
State: 현재 시점에서 상황이 어떤지 나타내는 값의 집합
State Space: 가능한 모든 상태의 집합

마르코프 과정은 상태 (현재상태)에서 (미래상태) 로의 (전이확률)을 나타내는 과정이며, 위와 같은 식이 성립한다.
[주의] FROM ((현재상태)) TO (미래상태) 순서이지만 Markov process 조건부확률 식을 적을 때 수식은 반대이므로 주의하자!

7/1~7/9의 Observed Dataset은 (현재상태)와 (미래상태)를 확인할 수 있다.
하지만 7/10의 데이터를 살펴보면 (현재상태) : Rainy 는 찾을 수 있지만 (미래상태)의 Dataset이 없다.
그렇기에 7/10의 경우는 제외한 채로 계산하는 것이 맞다.
(아래 표의 노란색 형광펜 경우를 확인하도록 하자)

3. Markov Reward Process | MRP
R (reward) : 현재에서 미래상태로 갈 때의 보상(이득)

(return) : 보상의 총합(sum of rewards)
γ (discount factor) :
γ (discount factor) 이 작다면, current rewards
γ (discount factor) 이 크다면, future rewards

4. Markov Decision Process | MDP
A (Agent's action) : 가능한 행동의 집합 (set of action)




[주의] Policy (π)와 action 자체는 구분할 것. Policy (π)는 모든 단계별 의사결정의 집합이고, action 은 가능한 행동 집합의 원소이다.
5. Deterministic and Stochastic Environment
Deterministic Environment : Episode 가 정해져 있는 경우 (ex.게임)

Stochastic Environment : Episode 가 정해져 있지 않은 경우 (ex. 보통의 인간이 보여주는 경우)

: Stochastic Environment

