계획(planning)을 위한 계산 예산(computational budget)이 증가함에 따라 더 나은 성능을 제공
task-oriented latent dynamics model
을 사용하여 learned terminal value function
를 사용하여,temporal difference learning
에 의해 공동으로 학습 학습된 모델을 사용하여 생성된 롤아웃
에서 학습함으로써, model-free 방법의 샘플 효율성을 향상시키려고 함.value function
함수를 사용하여 전역적으로 최적의 해를 근사화할 수 있음task-oriented latent dynamics model
과 learned terminal value function
를 사용하여 temporal difference(TD) 학습을 통해 공동으로 학습하는 것 학습된 모델이 생성한 short-term reward estimates 를 사용하여 궤적 최적화를 수행
task-oriented latent dynamics model
을 사용하여 정확한 관절 움직임을 계획하는 것이 유익할 수 있으며, learned terminal value function
에 따라 안내될 수 있습니다.상태나 비디오 예측을 통해 모델을 학습
하는 반면, 우리는 모든 것을 모델링하는 것이 효율적이지 않다고 주장
quantities and visuals 요소
를 포함하여 환경 전체를 모델링하는 것은 모델의 부정확성과 오차의 누적을 야기하기 때문latent representation of the dynamics model
purely from rewards
, ignoring nuances unnecessary for the task at hand. reward and value predictions을 향상
시킴.시간적 일관성을 강제
하는, modality-agnostic(비구체적) latent space에서의 prediction loss
을 제안modality-agnostic prediction loss in latent space
that enforces temporal consistency in the learned representation without explicit state or image prediction.