Temporal Difference Learning for Model Predictive Control

About_work·2023년 8월 29일

강화학습

목록 보기

5/19

Data-driven Model Predictive Control 이 model-free 보다 나은점
- 모델 학습을 통한 개선된 샘플 효율성(sample efficiency)의 잠재성
- 계획(planning)을 위한 계산 예산(computational budget)이 증가함에 따라 더 나은 성능을 제공
그러나 오랜 시간 범위에 걸쳐 계획하는 것은 비용이 많이 들며, 환경의 정확한 모델을 얻는 것은 어려운 과제
이 작업에서는 model-free 및 model-based 방법의 강점을 결합
우리는 task-oriented latent dynamics model을 사용하여
- 짧은 시간 범위 내의 local trajectory optimization를 수행
learned terminal value function를 사용하여,
- 장기적인 보상을 추정
이 두 가지 요소는 temporal difference learning에 의해 공동으로 학습
- temporal difference learning: https://velog.io/@jk01019/temporal-difference-learning
TD-MPC는 우수한 샘플 효율성과 점진적인 성능을 달성

대신에 model-based 계획을 model-free 학습의 강점으로 보강할 수 있을까요?
오랜 시간 범위의 계획이 매우 비용이 많이 들기 때문에
- 모델 예측 제어(Model Predictive Control, MPC)는 더 짧은 유한 시간 범위 내에서 궤적을 최적화하며, 이는 시간적으로 지역적인 최적해만을 얻게 됨
MPC는 계획 범위를 넘어선 discounted return을 추정하는 value function 함수를 사용하여 전역적으로 최적의 해를 근사화할 수 있음
그러나 정확한 model과 value function를 얻는 것은 어려울 수 있습니다.

본 연구에서는 Temporal Difference Learning for Model Predictive Control (TD-MPC)라는 데이터 기반 MPC 프레임워크를 제안
이 프레임워크는 task-oriented latent dynamics model과 learned terminal value function를 사용하여 temporal difference(TD) 학습을 통해 공동으로 학습하는 것
각 결정 단계에서 우리는
- 학습된 모델이 생성한 short-term reward estimates 를 사용하여 궤적 최적화를 수행
- long-term return estimates에는 learned value function를 사용
예를 들어 Figure 1에 나타난 Humanoid 이동 작업에서는
- task-oriented latent dynamics model을 사용하여 정확한 관절 움직임을 계획하는 것이 유익할 수 있으며,
- 더 높은 수준의 목표인 달리기 방향은 장기적인 learned terminal value function에 따라 안내될 수 있습니다.

주요 기술적 기여는 모델 학습 방식
- 이전 연구에서는 상태나 비디오 예측을 통해 모델을 학습하는 반면,
- 우리는 모든 것을 모델링하는 것이 효율적이지 않다고 주장
- 이는 관련 없는 (그림자와 같은) 관련없는 quantities and visuals 요소를 포함하여 환경 전체를 모델링하는 것은 모델의 부정확성과 오차의 누적을 야기하기 때문

새로운 것이 들어오면 이미 있는 것과 충돌을 시도하라.