학습한 dynamics로, 다양한 task나 환경에 transfer 할 수 있음 (우리 domain을 생각해보면, 학습시 없었던 센서 배치의 로봇에 알고리즘을 탑재시켜도, zero-shot으로 적응하거나, 적은 fine-tuning으로 주행 가능할 수 있음)
Learning long-horizon behaviors by latent imaginationlatent dynamics models의 발전을 통해 가능해지고 있습니다.derivative-free optimization에 의존하였지,neural network dynamics가 제공하는 해석적인 gradients를 이용하지 않았습니다.world models can interpolate past experience and offer analytic gradients of multi-step returns for efficient policy optimization.Learning long-horizon behaviors by latent imagination모델 기반 에이전트는 유한한 상상 지평선을 사용할 경우 단기적일 수 있습니다. 우리는 행동과 상태 가치를 모두 예측함으로써 이 제한을 해결합니다.Training purely by imagination in a latent space lets us efficiently learn the policy by propagating analytic value gradients back through the latent dynamics.





최대화




