들어가기 전, 에이전트가 행동 A를 선택하는 방법에 대해 먼저 알아보고 갔다.
이전에 배웠던 벨만 방정식에서 나오는 그 A다.
결정론적 탐색(Deterministic Search)
에이전트가 같은 상태에서 100% 확정된 선택을 하는 방식이라고 한다.
그러나 현실세계에서는 예상하지 못한 다른 요소들이 작용하기 때문에 결정론적 탐색은 이런 예측불가능한 것들을 반영하지 못한다.
그 예시로 팩맨 게임에서는 팩맨이 같은 곳으로 움직이더라도 거기에 유령이 있을 수도 있고, 사탕이 있을 수도 있고, 아무것도 없을 수도 있기 때문에 모두 다른 상태가 된다.
비결정론적 탐색(Non-Deterministic Search)
에이전트가 상태에서 확률적으로 행동을 선택하는 방식이라고 한다.
마르코프 과정(Markov Process)과 마르코프 의사결정 과정(Markov Decision Process)은 다른 개념이다.
마르코프 확률 과정은 현재에 대한 조건부로 과거와 미래가 서로 독립인 확률 과정이다. 즉, 마르코프 확률 과정은 '기억하지 않는'확률 과정이다. 마르코프 확률과정에서 미래를 유추하려 한다면, 오직 현재의 값만이 쓸모가 있으며, 과거의 값들은 아무 추가 정보를 제공하지 못한다.
[출처, 위키백과]
현재 상태만이 미래 상태에 영향을 주고, 과거 상태는 미래 상태에 영향을 미치지 않는다는 말이다.
이 마르코프 과정을 확장한 개념이 마르코프 의사결정 과정이라고 한다.
마르코프 결정 과정은 의사결정 과정을 모델링하는 수학적인 틀을 제공한다.
(중략)
마르코프 결정과정은 (S, A, P(s,s'), R(s,s'), γ)의 5중쌍으로 표현되며 각 원소의 의미는 다음과 같다.
- S 는 상태의 유한집합이다.
- A는 의사결정자가 취할 수 있는 행동의 유한집합이다. (상태 s에서 취할 수 있는 행동의 유한 집합 As로 표현할 수도 있다.)
- Pa(s,s') = Pr(st+1 = s' | st = s, at = a)는 어떠한 시점 t에 상태 s에서 행동 a를 취할 경우 다음시점 t+1에 상태 s'으로 전이할 확률이다.
- Ra(s,s')는 상태 s에서 행동 a로 인해 상태 s'로 전이할 경우 받게 되는 즉각적인 보상(혹은 즉각적인 보상의 기댓값)이다.
- γ(0과 1사이의 값)는 할인인자(discount factor)로서, 현재 얻게 되는 보상이 미래에 얻게 될 보상보다 얼마나 더 중요한지를 나타내는 값이다.
[출처, 위키백과]
마르코프 과정에 행동과 보상이라는 개념을 추가하여 에이전트가 각 상태에서 어떤 행동을 선택해야 할지 의사결정을 할 수 있게 만든 모델이라고 한다.
강의에서는 에이전트 로봇이 환경에서 장애물을 피해 목적지까지 이동하는 과정을 모델링하는 예시를 들어 설명을 했다.
그리고 벨만 방정식과 유사한 개념이라고도 설명했다.
실제로 구성하는 요소가 P(s,s')를 제외하고 동일하다
[벨만 방정식 공부일지]