Markov 성질
Markov chain
Transition
Transition probability
Markov Decision Process MDP
MDP 5 요소
states
actions
transaction probability (probability가 정의된 것은 모델링이 잘 되었다는 의미)
- s -> s' 로 state를 움직일때 action을 함으로써 transition 될 확률
reward probability
- s -> s' 로 state를 움직일때 s'로 갔다면 받을 수 있는 reward의 확률
discount factor
반환확률, S t+1 : ~일 확률 , | = 조건
Reward
Return
: 0번째 state에서 0 번째 Action을 하면 1번째 Reward가 적립됨
A0 액션을 취할 때 당장 R1을 Maximize하는 것이 목표가 아니고 total reward를 maximize 하는 것이 목표
왜냐하면 하나의 에피소드가 끝났을때 최종적으로 SUCCESS State에 가 있기를 원하므로
ex) 미로 -> goal 에 도착
Episodic and Continuous
Episodic
Continuous
Discount factor
discount factor는 time step t 에 대해 가까운 return과 미래 return 중 어느 것을 더 중요하게 생각하는지를 정의
γ = 0 : 바로 다음 return이 가장 중요, γ = 1이면 미래가 중요
γ은 풀고자 하는 문제에 따라 달라짐
ex) Chess 게임의 경우 바로 다음 return을 중요하게 생각하면 졸병을 잡음 (γ=0)
미래의 king 을 잡는 것을 중요하게 생각하면 (γ=1)
Policy π
Value function
Policy π에 기반해서 특정 state가 agent에 얼만큼 좋은지를 의미
time step t 에서 agent가 state S 에 있을때 policy π를 따르면 기대되는 return의 값
Policy π 기반 계산되므로 Policy π가 바뀌면 value도 바뀐다
Value funtion table
State 2에서 value가 더 높으므로 state 2를 선택하게 된다
value란 : 특정 Policy π 에서 해당 state S 에 있는 것이 얼마나 좋은지를 표현, 즉 state로 부터 얻을 것으로 기대되는 return의 값 (높을수록 좋음, maximize 하는것이 목표)
State Action value function
Value function은 해당 state에 있는 것이 얼마나 좋은지
Q function은 해당 state에서 어떤 action을 하는게 얼마나 좋은지
value function은 재귀적 특성을 만족한다