강화학습 개념정리(2) - rl problem, 벨만 방정식, Q 함수, advantage function, value function

JTDK·2021년 7월 18일

RL advantage function bellman equation q function q 함수 reinforcement learning rl problem value function 강화학습 벨만방정식

RL from zero to hero

목록 보기

2/7

Intro

1편에 이어 2편도 바로 작성하게 됐다. 기본적으로 내 머릿속 정리를 위해 쓰는거라 다소 배려가 부족하긴 하지만, 그래도 최대한 보는사람도 도움을 얻을 수 있게끔 쓰도록 노력하겠다.

RL Problem

정책의 종류나 리턴 측정의 종류에 상관없이, RL의 목표는 기대수익(Expected Return)을 극대화 하는 정책을 찾는것이다.

Expected Return 에 대해 얘기하기 위해서는 먼저 Trajectory의 확률 분포에 대해 알아야 한다.

Environment transition과 policy가 모두 확률적(Stochastic)인 상황에서 T-step Trajectory의 확률은 다음과 같다.

$P(\tau|\pi)=\rho_0(s_0)\displaystyle\prod_{t=0}^{T-1}P(s_{t+1}|s_t,a_t)\pi(a_t|s_t)-(1)$

$\rho_0(s_0)$ : start-state distribution 으로부터 sampling된 $s_0$ 의 확률값 (처음 상태가 $s_0$ 이 될 확률)

$\displaystyle\prod_{t=0}^{T-1}P(s_{t+1}|s_t,a_t)$ : $s_t$ 와 $a_t$ 가 주워졌을때, 다음 state가 $s_{t+1}$ 이 될 확률들의 곱

$\pi(a_t|s_t)$ : 정책 $\pi$ 를 따를때, $s_t$ 에서 고른 액션이 $a_t$ 일 확률

수식이 좀 어려운데, 일단 정책이 확률적이란것에 주목해보자. 정책이 확률적이라는 말은 곧 같은 정책으로도 만들어 질 수 있는 Trajectory가 여러개라는 것이다. 이 많은 trajectories 중 하나의 특정 trajectory $(s_0,a_0,s_1,a_1,...)$ 가 나올 확률이 위 수식이다.

그렇다면 기대수익은 그 각각의 Trajectory와 거기서 산출된 cumulative reward, 즉 Return을 곱한 값을 적분한것이 된다. 문장으로 쓰니 굉장히 복잡한데, 일단 수식으로 쓰면 다음과 같다.

$J(\pi) = \int_\tau P(\tau|\pi)R(\tau) =E_{\tau\sim\pi}[R(\tau)]-(2)$

예를 들어보자.

앞이 보이지 않는 깜깜한 환경이 있다. 이 환경에서는 앞, 뒤, 좌, 우로 움직일 수 있고, 한걸음을 내딛을 때마다 reward를 1씩 받지만, 무작위로 설치된 함정에 빠지면 하나의 Trajectory가 종료된다.
Agent의 Policy는 네 방향으로 걸어갈 확률이 모두 같은 무작위 이동 정책이다. 이런 환경에서 Agent를 움직이게 하였더니 {앞,우,우,앞,뒤,좌}의 행동을 한 후 함정에 빠져 Trajectory가 종료됐다.

이 환경은 한걸음 내딛으면 무조건 그 방향으로 나아간다
$P(s_{t+1}|s_t,a_t) = 1$

이 환경의 시작점은 정해져있다
$\rho_0(s_0) = 1$

위 예에서 Agent는 (네가지 행동을 할 확률이 0.25로 같은) 고정된 정책을 이용하고 있지만, 같은 정책으로 다시 Agent를 움직인다면 앞서 행동한것과는 다르게 행동할 것이다(엄밀히 말하면 아주 낮은 확률로 같은 수 있지만.) 이는 우리가 사용한 정책이 확률적 정책(Stochastic Policy)이기 때문이다.
여기서 {앞,우,우,앞,뒤,좌} 라는 특정한 trajectory가 나올 확률을 계산하는게 위 (1)번 식이다.

$P(\tau|\pi)=\rho_0(s_0)\displaystyle\prod_{t=0}^{T-1}P(s_{t+1}|s_t,a_t)\pi(a_t|s_t)=1*1*(0.25)^6$

{앞,우,우,앞,뒤,좌} 라는 하나의 특정한 Trajectory에서 얻은 return 값은 6이다. 기댓값의 정의에 의해 다른 모든 Trajectories에 대하여 그 trajectories가 나올 확률과 각각의 return 값을 곱해준걸 모두 더해준다면, 이는 곧 Policy의 expected return값이라고 할 수 있을것이다. 이것이 위 (2)번 적분식의 의미인것이다(!)

그렇다면 결국 RL Problem의 궁극적인 목표는 다음과 같이 표현될 수 있다.

$\pi^*=arg\displaystyle\max_\pi J(\pi)$

여기서 $\pi^*$ 를 Optimum Policy 라고 부른다.

Value Function

특정 state(혹은 state-action pair)에서의 Value는 그 state에서 시작해서 끝까지 Policy대로 움직였을때의 기대수익(Expected Return)이다. Value Function은 RL 거의 모든 영역에서 쓰이는데, 대표적으로 크게 네가지 종류가 있다.

On-Policy Value Function $V^\pi(s)$ 은 s에서 시작해서 끝까지 정책 $\pi$ 로 움직였을때의 기대수익(Expected Return)이다.

$V^\pi(s)=\displaystyle\Epsilon_{\tau\sim\pi}[R(\tau)|s_0=s]$

On-Policy Action-Value Function $Q^\pi(s,a)$ 은 s에서 (정책이 정하지 않았을 수도 있는) 액션 a를 취한 후, 끝까지 정책 $\pi$ 로 움직였을때의 기대수익(Expected Return)이다.

$Q^\pi(s,a)=\displaystyle\Epsilon_{\tau\sim\pi}[R(\tau)|s_0=s, a_0=a]$

Optimal Value Function $V^*(s)$ 은 s에서 시작해서 끝까지 최적정책(Optimal Policy)으로 움직였을때의 기대수익(Expected Return)이다.

$V^*(s)=\displaystyle\max_\pi\Epsilon_{\tau\sim\pi}[R(\tau)|s_0=s]$

Optimal Action-Value Function $Q^*(s,a)$ 은 s에서 (정책이 정하지 않았을 수도 있는) 액션 a를 취한 후, 끝까지 최적정책으로 움직였을때의 기대수익(Expected Return)이다.

$Q^*(s,a)=\displaystyle\max_\pi\Epsilon_{\tau\sim\pi}[R(\tau)|s_0=s, a_0=a]$

Value Function과 Action-Value Function의 관계성

$V^\pi(s) = \Epsilon_{a\sim\pi}[Q^\pi(s,a)]-(1)$
$V^*(s) = \displaystyle\max_aQ^*(s,a)-(2)$

위 개념을 제대로 숙지했다면 두 수식은 따로 설명이 필요없이 V와 Q의 정의에 의해 자연스럽게 이해가 될것이다.

The Optimal Q-Function and the Optimal Action

$Q^*(s,a)$ 와 $a^*(s)$ 사이에는 중요한 관계가 있다. $Q^*(s,a)$ 의 정의는 상태 s에서 임의의 액션 a를 취한 후 Optimal Policy로 움직였을때의 기대수익이다. 그런데 상태 s에서도 Optimal Policy로 움직인다면, s에서의 reward값이 최대가 될것이고, $Q^*(s,a)=r(s,a)+V^*(s+1)$ 이라고 표현이 가능하므로, 자연스레 $Q^*(s,a)$ 값도 최대가 될것이다. 따라서 다음과 같은 식이 성립한다.

$a^*(s)=\displaystyle\argmax_aQ^*(s,a)$

Optimal Action은 반드시 한개 이상 존재한다. 즉, 여러개 일수도 있지만 없을 수는 없다.

Bellman Equations

위에 말한 네가지 Value Function 들은 모두 벨만방정식이라는 자기일관적(self-consistency)인 방정식을 따른다. 벨만 방정식의 기본 아이디어는 다음과 같다.

시작점의 Value는 그곳에 있으므로써 얻는 reward와 다음 state의 Value의 합과 같다.

그닥 어려운 개념은 아니고, 재귀함수를 생각하면 이해하기 용이하다.

On-policy function에서의 벨만 방정식은 다음과 같다.

$V^\pi(s)=\Epsilon_{a\sim\pi, s'\sim P}[r(s,a)+\gamma V^\pi(s')]$
$Q^\pi(s,a)=\Epsilon_{s'\sim P}[r(s,a)+\gamma\Epsilon_{a'\sim\pi} [Q^\pi(s',a')]$

$s'\sim P$ 는 s의 다음상태 s'이 Environment의 transition rule에 의해 샘플링 된다는 의미이다.

Optimal Value Function에서의 벨만 방정식은 다음과 같다.

$V^*(s)=\displaystyle\max_a\Epsilon_{s'\sim P}[r(s,a)+\gamma V^*(s')]$
$Q^*(s,a)=\Epsilon_{s'\sim P}[r(s,a)+\gamma\displaystyle\max_{a'}\Epsilon [Q^*(s',a')]$

On-policy 와 Optimal 벨만 방정식의 가장 큰 차이점은 액션을 정할때 $\max$ 의 유무이다. 이는 다시말해 Agent가 Optimal하게 움직이기 위해 action을 정할때는 반드시 Value값을 극대화 하는 방향으로 정해야 한다는 것이다. 솔직히 당연한 얘기 같은데 뭘 이리 장황하게 수식까지 써가며 설명해놓은건지는 잘 모르겠다(intro에서 밝혔듯이, 원문은 내가 쓴게 아니고 무려 Microsoft 산하에 OpenAi에서 쓴거임)

벨만 방정식은 실제 알고리즘 코딩할때도 매우 매우 많이 나오므로 익숙해지길 추천한다

Advantage Functions

RL에서는 가끔(사실은 꽤 빈번하게) 어떤 액션이 '절대적으로 좋은가(absolute)' 보다는 '다른거 보다 얼마나 좋은가(relative)'에 초점을 맞춘다. 우리는 이러한 개념을 advantage function 이라고 표현한다.

Advantage Function $A^\pi(s,a)$ 는 state s에서 특정한 액션인 a를 뽑는게 정책 $\pi$ 를 따라서 임의로 뽑는것 보다 얼마나 좋은지를 표현하는 용어이다. 수식으로 표현하자면 다음과 같다.

$A^\pi(s,a)=Q^\pi(s,a)-V^\pi(s)$

나는 이게 처음에 이해가 잘 안갔는데, 당시 했던 생각은 이랬다.

어떻게 $Q(s,a)$ 가 $V(s)$ 보다 클수가 있지? $Q(s,a)$ 는 상태 s에서 특정한 a를 뽑았을때의 밸류이고, $V(s)$ 는 a를 포함한 다른 액션들을 뽑았을때까지 포괄하는 의미 아닌가?

언뜻 보면 맞는말 같은데, 당연히 틀렸다. 이러한 오해는 개념이 확실히 정립되지 않아서 생긴 것이었다.

두가지 액션을 선택할 수 있는 state s에서 정책 $\pi$ 는 무작위선택을 한다고 해보자. 1번 액션을 선택했을때의 보상은 10이고 2번 액션을 선택했을때의 보상은 20이다.

여기서 $V^\pi(s)$ 는 $30+\gamma V^\pi(s')$ 일까? 당연히 아니다. 단순히 $10+20$ 을 하는게 아니라, $\pi$ 가 각 액션을 고를 확률을 곱해줘야한다. 즉,

$V^\pi(s)=10*\frac{1}{2}+20*\frac{1}{2}+\gamma V^\pi(s')=15+\gamma V^\pi(s')$

가 되는것이다. 이는 2번 액션만 고르는 $Q(s,a_2)$ 보다 값이 작다.

Advantage Function은 Policy Gradient에서 매우 중요한 개념이므로 추후 다시 다룰것이다.

Conclusion

이제 기본 개념정리는 어느정도 끝낸것 같다. 비록 대부분 아는 내용이었지만, 중간중간 까먹었던 내용이나 정확히 이해하지 못했던 내용들을 정리할 수 있어서 뜻깊은 시간이었다. 다음 포스트 부터는 실제로 어떤 알고리즘으로 RL Agent를 학습시키는지에 대해 알아보자~

JTDK

RL, 퀀트 투자 공부 정리

이전 포스트

강화학습 개념정리(1) - 강화학습 정의, state, observation, action space, policy, trajectory, reward, return

다음 포스트

강화학습 개념정리(3) - 알고리즘 종류, on-policy, off-policy, Q러닝, Policy Gradient, Model-Free, Model-Based

1개의 댓글

statduck

2024년 7월 30일

Advantage function은 음수나 0이 될 수도 있을 듯 합니다!

답글 달기