Meta-RL Chapter 1-2

대화·2023년 2월 14일
1

Meta-RL 파고들기

목록 보기
3/3

본 Thesis review는 Carnegie Mellon University(CMU) Ph.D student Emillio Parisoto님의 Meta Reinforcement Learning through MemoryThesis를 바탕으로 작성하였습니다.

POMDP

POMDP는 Partially Observable Markov Decision Process의 줄임말로,

한국어로 풀이하면, 부분적으로 관찰 가능한 MDP입니다.

MDP와 가장 큰 차이점은 agent가 완벽하게 자신의 state를 볼 수 없다는 점입니다.

예를 들어, 로봇이 특정 작업을 수행하는 환경에서 각 상황마다 확률적으로 다른 상태에 놓이고, 카메라와 센서 등으로만 일부 정보를 관측할 수 있는 상황이라면 POMDP 문제로 모델링할 수 있습니다. 에이전트는 현재 상태를 정확히 알 수 없기 때문에 가능한 상태들에 대한 확률을 추정하고, 이를 기반으로 최적의 행동을 선택해야 합니다.

Meta Learning은 distributions of environments를 해결하기 위한 것이라고 하였습니다.

이를 식으로 표현하면

p:M[0,1]p: \mathcal{M} \rightarrow [0,1]
MT={M1,...,MN}\mathcal{M}^{\mathcal{T}} = \{\mathcal{M}_{1}, ...,\mathcal{M}_{N}\}

우리가 원하는 것은 MTM^{\mathcal{T}}에서 어떤 것이든 environment를 샘플링하고 최대한 빨리 학습하는 것을 원합니다.

그러면 목적함수는

minθMi  Eπ(θ)[LMi]\underset{\theta}{\min} \underset{M_{i}}{\sum}\; \mathbb{E}_{\pi_{\vartriangle(\theta)}}[\mathcal{L}_{M_{i}}]

다음과 같이 쓸 수 있다. 아 어렵다.

특이한 점은 아무래도 저 (θ)\vartriangle(\theta)부분일 텐데, 이건 Mi\mathcal{M}_{i} 에서 경험을 쌓으면서 계속해서 θ\theta를 업데이트 한다는 뜻이다.

우리는 이것을 few-shot update라고 한다.

Meta-learning setting은 특별한 구조와 함께 POMDPs로 formalize할 수 있는데,

다시 한번, 우리의 meta-RL의 목적은 MDP들에게 노출되면서 environment의 맥락을 파악하는 것이다.

이때 우리의 meta-RL에게는 제약이 있는데

  1. 각 environment와의 상호작용 수가 제한된다.
  2. 전체 training 횟수가 제한된다.

Embodied Environments

profile
코딩을 즐기는 대학생입니다 :)

0개의 댓글