Markov Decision Process

Human Being·2022년 8월 10일

Reinforcement Learning

목록 보기

2/22

미래는 현재에 의해 결정된다

현재 state는 이미 과거의 actions에 비해 축적된 결과이기에
모든 과거를 돌아보지 않고 현재만 고려하여 미래를 결정하자를 가정한다

배경지식으로...
조건부확률로 | 를 기준으로
오른쪽에 있는 일이 일어난 후에 왼쪽에 일어난 일이 발생할 확률

재활용 처리 로봇을 다음과 같이 표현했다
state high, low는 배터리의 현재 용량을 의미하며
action은 wait, search, recharge 3개다

$S$ : state 집합 전체. s는 현재 상태 s'는 다음 상태를 의미.
그림 속의 흰 동그라미
$A$ : agent가 취할 수 있는 action 집합 전체.
그림 속의 검은색 동그라미
state-transition probability: 어떠한 시점 t에 state s에서 action a를 취할 경우, 다음 시점 t+1에 state s'로 전이할 확률
- 각 state에서 다음으로 넘어갈 때 발생할 수 있는 모든 확률은 항상 총합이 1
$P_a(s, s') = Pr(s_{t+1}=s' | s_t=s, a_t=a)$
reward : state s에서 action a로 인해 state s'로 전이할 경우 받게되는 즉각적인 보상의 기댓값
그림 속의 빨간 글씨

$R^a_s = E[R_{t+1} | S_t = s, A_t = a]$