[강화학습] 1-3. Markov Decision Process

KBC·2025년 5월 1일
0

강화학습

목록 보기
13/13

Markov Decision Process

1. 모든 State와 Action은 Random Variable이다

p(a1s0,a0,s1)p(a_1|s_0,a_0,s_1)
  • s1s_1일때 a1a_1을 구하려면 굳이 s0s_0a0a_0는 알 필요가 없다.
  • 왜? 이미 s1s_1에 반영이 되어있으니까. 따라서 아래와 같이 다시 표현할 수 있다
p(a1s1)p(a_1|s_1)
  • 그럼 아래와 같은 경우 어떨까
    p(s2s0,a0,s1,a1)p(s_2|s_0,a_0,s_1,a_1)
  • s2s_2를 알기 위해서는 s1s_1a1a_1이 모두 필요하다
  • s1s_1에는 s0s_0, a0a_0는 이미 반영이 되어있다
  • 따라서 아래와 같이 다시 표현할 수 있다
p(s2s1,a1)p(s_2|s_1,a_1)

2. Policy

p(atst):Policyp(a_t|s_t):\text{Policy}
  • 상태 ss에서 어떤 행동 aa를 하는 분포
p(st+1st,at):Transtition | 전이p(s_{t+1}|s_t,a_t) : \text{Transtition | 전이}
  • 얘는 Trainsition or 전이

강화학습에서는 Return을 Maximize한다 -> 정확히는 Expected Return

Retrun Gt=Rt+γRt+1+γ2Rt+2+\text{Retrun }G_t=R_t+\gamma R_{t+1}+\gamma^2 R_{t+2}+\cdots
  • Action ata_t를 했을때 넘어간 State에서 받는 Reward : RtR_t
  • 따라서 Expected ReturnE[Gt]E[G_t]을 Maximize하는 Policy를 찾는다

원본 출처[혁펜하임 유튜브] : https://www.youtube.com/watch?v=DbbcaspZATg&list=PL_iJu012NOxehE8fdF9me4TLfbdv3ZW8g&index=3

profile
AI, Security

0개의 댓글