강화학습 (2) - Marcov Decision Process

이석영·2021년 5월 18일
0

강화학습

목록 보기
2/2

마코브 의사결정 과정(Marcov Decision Process, MDP)

강화학습은 지난번에 작성했던 것처럼 미래에 얻게될 보상의 평균을 최대로하는 policy 함수를 찾는 과정이다. 연구자들은 이러한 강화학습을 설명하기위해 마코브 의사결정 과정(MDP)이라는 수학모델을 차용하였고 그 내용은 다음과 같다.

MDP는 (S,A,{Psa},γ,R)의 변수를 가진다.

  • S : state들의 유한집합

  • A : agent가 취할 수 있는 action들의 유한집합

  • Psa (st,at) : 상태 st에서 행동 at로 인해 다음 상태인 st+1가 될 확률이다.

    MDP는 확률계(stochastic system)를 가정한다. 예를들어 로봇을 앞으로 이동하기 위해 제어했을 때 무조건 앞으로 이동한다면 이것은 확률계를 따르는 것이 아니다.(이런 경우를 결정론적이라고한다) 확률계를 따른다는 의미는 앞으로의 이동을 명령으로 내려도 예외적으로 좌우나 뒤로 이동할 수 있는 확률이 존재함을 말한다.

  • γ : discount factor라고하며 위에서 설명한 것처럼 MDP는 확률계를 가정하기 때문에 빨리 받는 보상일수록 가치있다고 여기며 늦은 보상에는 [0,1] 값인 γ값을 곱해줌으로써 그 가치를 낮춘다.

  • R: 보상함수(reward function)을 말한다.

다시한번 강화학습에 대해 정리하자면,
현재상태에서 어떤 행동을 취했을 때 다음상태가 확률적으로 결정된다. 이때 정책(어떤 판단기준)에 따라 그 다음상태에대한 보상이 주어진다. 그리고 최종상태에 도달할 때가지 이러한 과정은 반복되며 최종적으로 보상의 평균(기대값)을 최대로하는 정책함수를 찾는 것이 강화학습의 목적이다.

방금 작성한 설명을 수학적으로(MDP의 변수들로) 나타내면 다음과 같으며 이를 이해한다면 마코브 의사결정 과정으로 강화학습을 설명할 수 있다.

𝔼[R(s0,a0)+γR(s1,a1)+γ2R(s2,a2)+…].

profile
원하는 대로 살자

0개의 댓글