[RL] 3. MDP - State Design

SYiee·2023년 7월 3일

Reinforcement Learning

목록 보기

3/5

There is no general method to check whether the Markov property is satisfied

마르코브 성질이 잘 지켜졌는지 확인할 방법이 잘 없다.
체스나 장기 같은 것은 만족하기 쉬울지 몰라도 현실문제에서는 잘 만족하지 않는다
EX) 슈퍼 마리오 : 마리오와 굼바가 있는 state.
→ 마리오는 위로 올라가고 있는지 내려가고 있는지 앞으로 가는지 뒤로 가는지 알 수가 없다.
→ 현재의 state만 가지고 판단을 하려 했더니 쉽지 않다.
→ 마리오가 앞으로 가거나 뒤로 가거나를 알려면 이전 state의 정보를 알아야 속도나 그런 것을 알아야하다. 즉 현재 state만으로 판단할 수 없어 마르코브 성질을 만족하지 않는다.

state에 time-sensitive information을 넣는다. → 마르코브 성질을 만족시키기 위해
state를 정의하면서 정보를 조금 더 넣는다. 현재 state에 이전에 어떻게 해왔는지 판단할 수 있는 정보가 포함되어 있다.
→ 이전 state를 모르더라도 현재 state만 보고 판단이 가능하다. = 현재 state에 이전에 어떻게 해왔는지 판단할 수 있는 정보들이 같이 들어가 있다
state가 반드시 현재 timestamp에 일어난 정보만 가지고 있을 필요는 없다.
이전 state가 가지고 있는 정보들을 잘 뭉개서 현재 state가 가지고 있어도 된다.
→ ex) 이전 frame 10개를 하나로 묶어서 하나의 state로 정의할 수도 있다

Markov property design

이전 frame 3개를 하나의 state로 포함되도록 함
→ movement information을 추출할 수 있음
이전 frame의 데이터를 사용한다는 것과 이전 state의 정보를 사용한다는 것은 같은 말이 아님.
→ 이전 frame을 현재 state를 정의하는데 쓴거지 이전 state의 정보를 포함했다는것은 아님.

⇒ 마르코브 체인 만족
$S_t$ : t에서 생성된 정보가 아니라 t 시점에 agent가 받는 정보를 나타낸다

이 글은 강형엽 교수님의 게임공학[GE-23-1] 수업을 수강하고 정리한 내용입니다.
[mdpw] https://en.wikipedia.org/wiki/Markov_decision_process
[sutton] Sutton, R. S., & Barto, A. G. (2018). Reinforcement learning: An introduction. MIT press

게임 개발자