학습한 dynamics로, 다양한 task나 환경에 transfer 할 수 있음 (우리 domain을 생각해보면, 학습시 없었던 센서 배치의 로봇에 알고리즘을 탑재시켜도, zero-shot으로 적응하거나, 적은 fine-tuning으로 주행 가능할 수 있음)image based task에서, latent space만을 가지고 planning을 진행했는데 실험 결과가 좋음.Recurrent State Space Model 위 model-based planning의 극복과제 1번, 2번, 3번을 개선.확률적인 dynamics를 배울 수 있으면서도, 이로 인해 장기 기억 손실로 인해 학습이 망가지는 것을 막아, 좋은 성능 확보 가능"Latent overshooting"equation3을 최대화 하는 방향으로 학습하는 과정을 C번 반복Training objective (equation3) 그림 을 보면, 잘 이해할 수 있으니 지금 이해 못해도 괜찮다.planning algorithm 그림의 출력값을 기반으로 움직이면서 모아짐.



데이터의 압축과 복원과정에서 볼확실성을 다룬다는 것이 핵심encoder가 데이터를 압출할 때, 그 압축한 데이터의 (불)확실한 정도까지 함께 고려
O_1~O_t + a_1 ~ a_t_1 을 이용해서, 어떻게 s_t를 생성하는지에 대한 딥러닝 네트워크
state posterior을 오직 바로 이전의 observation과 action의 곱으로 가정.agent가 가지는 현재 상태에 대한 확신이 오직 바로 이전에 에이전트가 관찰한 것과 그가 취한 행동에만 기반한다고 가정위 filtering 가정을 통해, 우리는 variational encoding 과정을 수행합니다."actions 를 기반으로 행동했을 때 예측한 observations"이 "실제 observations"와 같아질 확률을 최대화하는 목표를 풀기 위한, objective function 을 구하는 과정observation model을 supervised learning으로 학습!variational encoder(o,s,a 이용, 전체 시간)을 이용해서 예측한 state 확률 분포와, transition model(s, a 이용, 바로 전 시간만)을 이용해서 예측한 state 확률 분포를 유사하게 가져가는 방향으로 (복잡성 낮추기) + mutual information 극대화하기encoder와 transition model을 유사하게 학습!
actions 를 기반으로 행동했을 때 예측한 reward가, 실제 reward와 같아질 확률을 최대화하는 목표를 풀기 위한, objective function도 똑같이 구하면 된다.reward model이 학습된다.확률적인 변수를 다루는 대신에, 변수를 결정론적인 형태로 변환하여 샘플링 과정을 최적화할 수 있도록(reparameterized trick)하여 latent variable 분포에 대한 평균을 구하는 것은non-linear latent variable model의 파라미터를 최적화하기 위한 목적 함수)을 제공gradient ascent를 이용하여 최적화할 수 있으므로 효율적이라는 뜻.


확률적인 dynamics를 배울 수 있으면서도, 이로 인해 장기 기억 손실로 인해 학습이 망가지는 것을 막아, 좋은 성능 확보 가능

이 오직 한 step에 대해서만 reconstruction loss와 complexity loss를 계산했었음.