Off-Policy: Importance Sampling

Human Being·2022년 8월 17일

off policy 방법에 대해 알아본다

Predicton 문제를 고려하여
target policy와 action policy가 고정된 상태로 가정한다
다시 말해, $v_{\pi}$ 또는 $q_{\pi}$ 를 추정하지만
$b≠{\pi}$ 인 또다른 policy b를 따르는 에피소드가 있다고 가정한다

target policy : ${\pi}$ (optimal policy)
behavior policy : $b$

coverage 보증의 가정

policy b로부터의 에피소드를 활용하여 policy ${\pi}$ 의 value를 추정하려면
policy ${\pi}$ 하에서 취해지는 모든 action이
최소한 조금씩이라도 policy b 하에서 취해질 필요가 있다

즉, policy ${\pi}(a|s) > 0$ 이 $b(a|s)>0$ 을 암시하는 것

coverage의 가정에 따르면
$b≠{\pi}$ 일 때 policy b는 무조건 확률론적이다
반면에 ${\pi}$ 는 결정론적일 수 있다.

control에서 target policy는
전형적으로 action value function의 현재 추정값에 대해
결정론적인 탐욕적 정책이다
예를 들어, epsilon greedy policy같은 behavior policy가
확률론적 policy으로 남아있고 좀 더 탐험적인 반면에,
target policy는 결정론적인(deterministic) optimistic이 된다.

하지만 이 절에서는
정책 ${\pi}$ 가 변하지 않고 고정된 상태에서
Prediction 문제를 다룬다