[RL] 3. MDP - State Design

SYiee·2023년 7월 3일
0

Reinforcement Learning

목록 보기
3/5
post-thumbnail

State Design

There is no general method to check whether the Markov property is satisfied

  • 마르코브 성질이 잘 지켜졌는지 확인할 방법이 잘 없다.
  • 체스나 장기 같은 것은 만족하기 쉬울지 몰라도 현실문제에서는 잘 만족하지 않는다
  • EX) 슈퍼 마리오 : 마리오와 굼바가 있는 state.
    → 마리오는 위로 올라가고 있는지 내려가고 있는지 앞으로 가는지 뒤로 가는지 알 수가 없다.
    → 현재의 state만 가지고 판단을 하려 했더니 쉽지 않다.
    → 마리오가 앞으로 가거나 뒤로 가거나를 알려면 이전 state의 정보를 알아야 속도나 그런 것을 알아야하다. 즉 현재 state만으로 판단할 수 없어 마르코브 성질을 만족하지 않는다.

Therefore, we need more information.

  • state에 time-sensitive information을 넣는다. → 마르코브 성질을 만족시키기 위해

  • state를 정의하면서 정보를 조금 더 넣는다. 현재 state에 이전에 어떻게 해왔는지 판단할 수 있는 정보가 포함되어 있다.
    → 이전 state를 모르더라도 현재 state만 보고 판단이 가능하다. = 현재 state에 이전에 어떻게 해왔는지 판단할 수 있는 정보들이 같이 들어가 있다

  • state가 반드시 현재 timestamp에 일어난 정보만 가지고 있을 필요는 없다.
    이전 state가 가지고 있는 정보들을 잘 뭉개서 현재 state가 가지고 있어도 된다.
    → ex) 이전 frame 10개를 하나로 묶어서 하나의 state로 정의할 수도 있다

State Design Example – Super Mario

Markov property design

  • 이전 frame 3개를 하나의 state로 포함되도록 함
    → movement information을 추출할 수 있음

  • 이전 frame의 데이터를 사용한다는 것과 이전 state의 정보를 사용한다는 것은 같은 말이 아님.
    → 이전 frame을 현재 state를 정의하는데 쓴거지 이전 state의 정보를 포함했다는것은 아님.

    마르코브 체인 만족

  • StS_t : t에서 생성된 정보가 아니라 t 시점에 agent가 받는 정보를 나타낸다

🖇Reference

이 글은 강형엽 교수님의 게임공학[GE-23-1] 수업을 수강하고 정리한 내용입니다.
[mdpw] https://en.wikipedia.org/wiki/Markov_decision_process
[sutton] Sutton, R. S., & Barto, A. G. (2018). Reinforcement learning: An introduction. MIT press

profile
게임 개발자

0개의 댓글