There is no general method to check whether the Markov property is satisfied
state에 time-sensitive information을 넣는다. → 마르코브 성질을 만족시키기 위해
state를 정의하면서 정보를 조금 더 넣는다. 현재 state에 이전에 어떻게 해왔는지 판단할 수 있는 정보가 포함되어 있다.
→ 이전 state를 모르더라도 현재 state만 보고 판단이 가능하다. = 현재 state에 이전에 어떻게 해왔는지 판단할 수 있는 정보들이 같이 들어가 있다
state가 반드시 현재 timestamp에 일어난 정보만 가지고 있을 필요는 없다.
이전 state가 가지고 있는 정보들을 잘 뭉개서 현재 state가 가지고 있어도 된다.
→ ex) 이전 frame 10개를 하나로 묶어서 하나의 state로 정의할 수도 있다
Markov property design
이전 frame 3개를 하나의 state로 포함되도록 함
→ movement information을 추출할 수 있음
이전 frame의 데이터를 사용한다는 것과 이전 state의 정보를 사용한다는 것은 같은 말이 아님.
→ 이전 frame을 현재 state를 정의하는데 쓴거지 이전 state의 정보를 포함했다는것은 아님.
⇒ 마르코브 체인 만족
: t에서 생성된 정보가 아니라 t 시점에 agent가 받는 정보를 나타낸다
이 글은 강형엽 교수님의 게임공학[GE-23-1] 수업을 수강하고 정리한 내용입니다.
[mdpw] https://en.wikipedia.org/wiki/Markov_decision_process
[sutton] Sutton, R. S., & Barto, A. G. (2018). Reinforcement learning: An introduction. MIT press