학습한 dynamics로, 다양한 task나 환경에 transfer 할 수 있음
(우리 domain을 생각해보면, 학습시 없었던 센서 배치의 로봇에 알고리즘을 탑재시켜도, zero-shot으로 적응하거나, 적은 fine-tuning으로 주행 가능할 수 있음)image based task에서, latent space만을 가지고 planning을 진행했는데 실험 결과가 좋음.
Recurrent State Space Model
위 model-based planning의 극복과제 1번, 2번, 3번을 개선.
확률적인 dynamics를 배울 수 있으면서도, 이로 인해 장기 기억 손실로 인해 학습이 망가지는 것을 막아, 좋은 성능 확보 가능
"Latent overshooting"
equation3을 최대화 하는 방향으로 학습하는 과정
을 C번 반복Training objective (equation3)
그림 을 보면, 잘 이해할 수 있으니 지금 이해 못해도 괜찮다.planning algorithm
그림의 출력값을 기반으로 움직이면서 모아짐.데이터의 압축과 복원과정에서 볼확실성을 다룬다는 것이 핵심
encoder가 데이터를 압출할 때, 그 압축한 데이터의 (불)확실한 정도까지 함께 고려
O_1~O_t
+ a_1 ~ a_t_1
을 이용해서, 어떻게 s_t
를 생성하는지에 대한 딥러닝 네트워크state posterior을 오직 바로 이전의 observation과 action
의 곱으로 가정.agent가 가지는 현재 상태에 대한 확신
이 오직 바로 이전에 에이전트가 관찰한 것
과 그가 취한 행동
에만 기반한다고 가정위 filtering 가정을 통해, 우리는 variational encoding 과정을 수행합니다.
"actions 를 기반으로 행동했을 때 예측한 observations"이 "실제 observations"와 같아질 확률을 최대화하는 목표
를 풀기 위한, objective function 을 구하는 과정observation model
을 supervised learning으로 학습!variational encoder(o,s,a 이용, 전체 시간)을 이용해서 예측한 state 확률 분포
와, transition model(s, a 이용, 바로 전 시간만)을 이용해서 예측한 state 확률 분포
를 유사하게 가져가는 방향으로 (복잡성 낮추기) + mutual information 극대화하기encoder
와 transition model
을 유사하게 학습!actions 를 기반으로 행동했을 때 예측한 reward가, 실제 reward와 같아질 확률을 최대화하는 목표
를 풀기 위한, objective function도 똑같이 구하면 된다.reward model
이 학습된다.확률적인 변수를 다루는 대신에, 변수를 결정론적인 형태로 변환하여 샘플링 과정을 최적화할 수 있도록(reparameterized trick)
하여 latent variable 분포에 대한 평균
을 구하는 것은non-linear latent variable model의 파라미터를 최적화하기 위한 목적 함수
)을 제공gradient ascent를 이용하여 최적화할 수 있으므로 효율적이라는 뜻.
확률적인 dynamics를 배울 수 있으면서도, 이로 인해 장기 기억 손실로 인해 학습이 망가지는 것을 막아, 좋은 성능 확보 가능