Markov Decision Process
1. 모든 State와 Action은 Random Variable이다
p(a1∣s0,a0,s1)
- s1일때 a1을 구하려면 굳이 s0과 a0는 알 필요가 없다.
- 왜? 이미 s1에 반영이 되어있으니까. 따라서 아래와 같이 다시 표현할 수 있다
p(a1∣s1)
- 그럼 아래와 같은 경우 어떨까
p(s2∣s0,a0,s1,a1)
- s2를 알기 위해서는 s1과 a1이 모두 필요하다
- s1에는 s0, a0는 이미 반영이 되어있다
- 따라서 아래와 같이 다시 표현할 수 있다
p(s2∣s1,a1)
2. Policy
p(at∣st):Policy
- 상태 s에서 어떤 행동 a를 하는 분포
p(st+1∣st,at):Transtition | 전이
강화학습에서는 Return을 Maximize한다 -> 정확히는 Expected Return
Retrun Gt=Rt+γRt+1+γ2Rt+2+⋯
- Action at를 했을때 넘어간 State에서 받는 Reward : Rt
- 따라서
Expected ReturnE[Gt]을 Maximize하는 Policy를 찾는다
원본 출처[혁펜하임 유튜브] : https://www.youtube.com/watch?v=DbbcaspZATg&list=PL_iJu012NOxehE8fdF9me4TLfbdv3ZW8g&index=3