Off-Policy Monte Carlo

이정운·2022년 2월 8일
0

강화학습

목록 보기
6/8

강화학습 시리즈는 패스트캠퍼스 박준영 강사님의 수업과 Sergey Levine의 Deep Reinforcement Learning 그리고 서튼의 강화학습 교재를 참고하여 만들어졌고 어떤 상업적 목적이 없음을 밝힙니다.

Introduction

Monte CarloTD 방식으로 가치함수를 추정하는 방식은 PssaP_{ss`}^a에 대한 정보가 필요 없기 때문에 Model-Free 방식이라고 부른다. 상태 천이 함수를 추정할 필요없이 환경과 지속적인 상호작용으로 오는 데이터를 이용하여 가치함수를 추정한다. 하지만 Model-Free 방식은 Sample-efficient가 매우 낮다고 알려져 있다.

왜냐하면 어떤 정책으로 만들어진 데이터로 정책 개선을 하면 이전 데이터를 모두 버려야 하기 때문이다.이런 방법을 On-Policy 방법이라고 하며 A2C,PPO,A3C,Policy-Gradient같은 알고리즘들이 On-Policy 이다.

이미 사용한 데이터를 재활용할 수는 없을까? 물론 가능하다.이런 방식을 Off-Policy 방법이라고 한다.

이번 시간에는 Off-Policy에서 Monte Carlo와 TD 방식을 소개할 것이다. 여기서 Off-Policy와 TD방식을 조합하여 만들어진 알고리즘이 그 유명한 Q-Learning 알고리즘이다.

직관적으로 우리는 Off-Policy 방식으로 학습한다. 최근의 기억뿐만 아니라 먼 과거의 경험까지 끌어다 사용하기 때문이다. 그럼 점에서 Off-Policy는 우리의 직관에 더 잘 들어맞는다.

Importance Sampling

가치 함수는 Expectation으로 정의된다. 즉,

E[f]=xXp(x)f(x)=xXq(x)(p(x)q(x))f(x)E[f]=\sum\limits_{x \in X}p(x)f(x)=\sum\limits_{x \in X}q(x)(\frac {p(x)}{q(x)})f(x)

random variable에 두 확률 밀도 함수의 ratio(weight라고 부른다)를 곱하면 q라는 확률밀도 함수를 이용해서 p 확률밀도 함수에 대한 expectation을 구할 수 있다. Off-Policy Monte Carlo도 이 방법을 이용하여 Off-Policy 방식을 사용할 수 있다.

Ratio of Policy

MDP에서 확률 밀도 함수를 정의해 보자.
p(st,at,st+1,.....)=p(st)π(atst)p(st+1st,at)π(at+1st+1)......=p(st)k=tT1π(aksk)p(sk+1sk,ak)p(s_t,a_t,s_{t+1},.....)=p(s_t)\pi(a_t|s_t)p(s_{t+1}|s_t,a_t)\pi(a_{t+1}|s_{t+1})......=p(s_t)\prod\limits_{k=t}^{T-1}\pi(a_k|s_k)p(s_{k+1}|s_k,a_k) 가 된다.

정책 π\pi에 의해 만들어지는 확률 밀도 함수를 p(st)k=tT1π(aksk)p(sk+1sk,ak)p(s_t)\prod\limits_{k=t}^{T-1}\pi(a_k|s_k)p(s_{k+1}|s_k,a_k)라고 하고

정책 μ\mu에 의해 만들어지는 확률 밀도 함수를
p(st)k=tT1μ(aksk)p(sk+1sk,ak)p(s_t)\prod\limits_{k=t}^{T-1}\mu(a_k|s_k)p(s_{k+1}|s_k,a_k) 라고 하자

그럼 두 확률 밀도 함수의 ratio는

ratio=k=tT1π(aksk)μ(aksk)ratio=\prod\limits_{k=t}^{T-1}\frac{\pi(a_k|s_k)}{\mu(a_k|s_k)} 가 된다.

Off-Policy MC

우리는 radom-variable에 확률 밀도 함수의 ratio를 곱해주면 Importance Sampling에 의해 Off-Policy 방식을 사용할 수 있음을 알고 있다. 그럼 이것을 이용해 Incremental Policy Evalutation식을 수정하면

Gtπμ=k=tT1π(aksk)μ(aksk)GtG_t^{\frac{\pi}{\mu}}=\prod\limits_{k=t}^{T-1}\frac{\pi(a_k|s_k)}{\mu(a_k|s_k)}G_t

Q(st,at)Q(st,at)+α(GtπμQ(st,at))Q(s_t,a_t) \leftarrow Q(s_t,a_t)+\alpha(G_t^{\frac{\pi}{\mu}}-Q(s_t,a_t))

하지만 Importance Sampling의 경우 분산이 더 커진다고 알려져 있다. 그러면 Importance Sampling 없어도 Off-Policy가 가능할까? 다음 시간에 알아보자.

profile
헬스 ,강화학습,3D Vision,Robotics를 좋아하는 엔지니어 입니다.

0개의 댓글