
이번 강의에서는 각 state에 따른 action을 결정하는 policy distribution에 대해 배운다.

Deterministic policy notaion은 다음과 같다.

아래에 집을 찾아가기 위한 방향키 조절하는 예시가 나타나져 있다.

Stochastic policy notation은 로 표기한다.


만약 Left와 Right의 선택지가 존재하고 각 probability가 50%의 확률을 가질 때, action을 선택하는 상황은 아래와 같을 수 있다.

Summary


이번 강의에서는 state-value function과 action-value function을 정의한다.

State-value function의 notation은 다음과 같다.

Action-value function의 notation은 다음과 같다.


Chess를 두는 상황을 가정해보자.
정책 를 따를 경우, 상태 가치는 단순히 이길 확률 이다.
처음 로부터 다음 으로 transition될 때, 아무런 reward를 받지 못하여 value 가 감소하였다.
남은 게임 동안 정책 를 계속해서 따르게 된다면 게임을 지고 말 것이다.

아래와 같은 board판이 있고, 상태 A와 B 그리고 reward가 주어진다고 해보자.
A에서 A'로 이어지는 구간 이후, 맨 아래 행의 values를 보면 음수 값을 가진다는 것을 알 수 있다.

반면 시작 지점 A에서의 value는 높은 편이나 reward +10에 비해 작다.

그러나 B 지점에서의 value는 reward +5보다 높은 값을 가질 수 있다.

Summary



State-value function은 로 정의했다.
는 현재 reward 과 의 합으로 분해되며 전체 expectation을 전개하면 다음과 같다.

는 그 다음 state인 에서 기대할 수 있는 미래 가치()를 의미한다.


Action-value function은 로 전개됐었다.
이는 로 전개된다.
이 때 는 action distribution(policy) 와 value 곱으로 전개할 수 있다.

Summary



아래와 같은 Grid 판에 state가 A, B, C, D로 주어지고, 각 state에서의 전이 확률이 고려된 경우의 수가 화살표로 그려졌다고 하자.

다른 state에서는 보상이 없지만 B state에서의 보상이 +5로 주어지는 환경(environment)이라고 가정하자.

는 0.7로 설정하고, state-value function은 각 state마다 구한다.

State A에서 시작한 는 를 계산하면 된다.
A에서 B로가는 state, A에서 C로 가는 state, A에서 A로 가는 state가 전체 경우의 수라는 사실은 Markov Process probaility를 고려하여 얻어진다.



위와 같은 small MDP는 linear한 solution으로 해결이 가능하다.




아래와 같은 두 policies 과 를 비교해보자.


Optimal policy란 다른 모든 policy와 비교하였을 때 모든 states에서 항상 best인 policy를 의미한다.

교차점을 기준으로 과 의 policy를 비교하여, 이 큰 states에서는 을 채택하고 가 큰 states에서는 를 채택한 policy를 라고 하자.


아래와 같은 MDP process가 존재한다고 가정해보자.

이면 미래 가치를 전혀 고려하지 않고 당장의 reward만을 계산한다.
따라서 , 이다.



면 미래 가치를 감쇄하여 더한 reward의 평균을 계산한다.
Policy 을 따르는 value는 1 → 0 → 1 → 0, ...의 연쇄에 를 제곱배하여 더한 급수로 표현된다.


Policy 를 따르는 value는 0 → 2 → 0 → 2, ...의 연쇄에 를 제곱배하여 더한 급수로 표현된다.
Geometric function으로 구하면 이다.


위 예제는 매우 간단한 MDP process였기 때문에 Brute-force 알고리즘으로 optimal value&policy를 찾아낼 수 있었다.



모든 states에서 policy 을 따르는 value가 항상 크다면 이 보다 크다고 말할 수 있었다.

는 policy 가 결정되었을 때의 value를 계산하여 구할 수 있다.

는 해당 state에서 action이 이미 결정된 상태에서, policy 가 결정되었을 때의 value를 계산하여 구할 수 있다.

기존 Bellman Equation은 linear equation으로 풀 수 있었으나 optimality가 포함되면 non-linear system이 되어 linear equation으로 풀 수 없다.




이전에 다뤘던 예제에서의 board values가 오른쪽과 같이 계산되었다고 하자.
이전에는 맨 밑의 row가 -값의 reward를 받았으나, optimal value로 계산한 결과 다소 높은 +값의 value를 획득했다는 것을 알 수 있다.


Optimal Policy를 결정하는 것은 optimal value일 때의 argmax로 알 수 있다.
즉, 어떠한 action을 취하였을 때 value가 max값을 가진다면, 해당 action을 선택하는 것이 무엇인지를 알아내는 것(argmax)이 optimal policy인 것이다.

아래와 같이 , , 의 action을 선택하였을 때 얻어지는 value가 각각 5, 10, 7의 값이라면 는 를 action으로 취하였을 때 얻어지는 value인 것이다.

만약, 초록색으로 색칠된 부분에서 initial state를 갖게 되었다고 해보자.

이제 initial state에서 상하좌우로 움직여 각 움직임에서 얻어지는 value를 계산해보자.





이번에는 다른 state에서 계산해보자.


A state의 경우는 어떤 행동을 취하든지에 상관없이 +10의 reward를 받는 A' state로 전환된다.




Optimal policy의 결정은 어떠한 action을 취했을 때의 value가 가장 높은(optimal value를 갖는) 선택지를 찾아내는 것이다.

