어떤 정책 π에 대해서 많은 상태의 밸류를 구하는 방법은 어려운 일이기 때문에, 임의로 초기화되어 있는 값들에 시행착오를 거쳐 밸류를 구하게 되는데, 이 과정에서 벨만 방정식을 사용한다.

벨만 방정식은 자기 자신과의 관계를 이용해 자기 자신을 표현하는 재귀관계에 있으며, 벨만 기대 방정식과 벨만 최적 방정식으로 구별된다

3.1 벨만 기대 방정식

0단계 수식

0단계 수식은 리턴의 정의를 이해하면 어렵지 않게 이해할 수 있다.
시간 t를 기준으로, 리턴의 기댓값이므로,
정책함수(π)가 존재할때, 상태 가치 함수 vπ (s_t)는
t+1일때의 보상과 감쇠함수와 상태 가치함수 v
π(s_t+1)의 곱
다시말해 t+1 이후의 리턴의 기댓값으로 이루어져있다고 할 수 있다.

1단계 수식

1단계 수식은 상태 밸류 vπ(s)와 액션 밸류 qπ(s,a)를 서로 표현하는
두 가지 식으로 구성되어 있다.

1번식

s에서 상태가치 함수는, 각각 모든 액션 A의 원소 a에 대하여
정책함수 π(a|s) : s상태에서 액션 a를 할 확률과 q_π(s,a)
s상태에서의 각 액션 a들의 행동 가치 함수의 곱으로 이루어 진다.
이는 확률과 가치함수(스칼라)의 곱이므로 기댓값의 정의에 부합한다.

2번식

액션 밸류 함수는 상태 s에서 액션 a를 했을때의 밸류를 아웃풋으로 내는 함수로, 당연히 액션 a에 대한 리워드인 r^a_s를 받은 후,
이후 변화할 상태들의 집합 S의 원소인 s'에 대하여, 각 s'으로 이동할 전이확률 P^a_ss'과 각 s'상태가치 함수, 감쇠인자의 곱으로 나타낼 수 있다.

상태 -> 액션 -> 상태 -> 액션이 반복되는 구조를 생각해봤을때
특정 상태 s에서 가능한 액션들의 가치함수의 가중합이 상태 가치함수가 되는 것은 당연한 것이며, 마찬가지로 액션의 결과로 얻어지는 리워드+ 상태함수들의 가중합이 액션 가치함수가 되는것도 이해하기 어렵지 않다.

2단계 수식

0단계 수식에 1단계 수식을 대입하거나
1단계 수식에 0단계 수식을 대입하면 끝

0단계 수식에 1단계 수식을 대입한 값.
상태 가치함수는 (특정 액션을 취할 확률)의 가중합(특정 액션에 대한 보상 +감쇠인자(다음 상태로 변화할 확률)(다음 상태 가치함수)의 가중합으로 나타낼 수 있다.
vπ(s)와 vπ(s')의 재귀함수를 확인 가능하다.

1단계 수식에 0단계 수식을 대입한 값
행동 가치함수는 행동에 대한 리워드+
(감쇠인자)(상태가 변할 확률)의 가중합(변화한 상태에서 다음 액션을 할 확률)(다음 액션의 행동가치함수)의 가중합으로 나타낼 수 있다.
마찬가지로 qπ(s,a)와 qπ(s',a')의 재귀함수로 나타난다.

재귀함수로 나타낼수 있다 = 코드로 짜기 용이하다. 

재귀함수는 수식만 정리한 후에, 그냥 while혹은 for loop를 돌리면 알아서 initial state에서 terminal state까지, 자동으로 구해지므로 코드짜기 매우 편리할 것으로 예상된다.

그렇지만 2단계 재귀함수를 계산하기 위해서는
r^a_s(액션에 대한 보상), P^a_ss'(액션 선택에 따른 다음 상태의 확률분포) 두 값을 알아야 하는데, 이 정보는 환경의 일부이기 때문에 알 수 있는 경우도 있으나, 모르는 경우가 더 많다.

때문에 직접 환경에서 액션을 해보고 보상과 상태가 어떻게 변할지를 경험에 의해 학습하는 경우를 모델-프리 접근법.
두 정보를 아는 상황(MDP를 안다)인 경우 모델 기반 접근법이라고 한다.

3.2 벨만 최적 방정식

가치를 수치화 한다 = 측정할 수 있다.
그렇다면 측정한 가치 중 가장 최적의 가치(optimal value)를 가지는 함수를 찾을 수 있으며, 이는 다음과 같이 수식으로 정리할 수 있다.

수식상 가장 높은 가치를 가지는 함수가 최적 밸류를 가질 것이고, 이 경우 다양한 정책 중 가장 좋은 최적 정책(optimal policy)을 가진다고 할 수 있을 것이다.

정책은 다양한 행동을 결정하지만, 어느 MDP라도 항상 최적의 정책이 존재함이 증명되어 있고, 단순히 벨만 방정식에 max값 가치를 대입하는 것으로 벨만 최적 방정식을 구할 수 있다.

결과적으로 학습에 따라 최적 정책과 최적 함수를 강화학습의 궁극적인 목표라고 할 수 있을 것이다.

0개의 댓글