MPC VS Multi-modal trajectory IL VS Diffusion

ad_official·2025년 3월 26일

diffusion planning

목록 보기

18/19

-1. trajectory prediction + MPC VS diffusion model

-1.1. trajectory prediction + MPC

장점
- 1. 안전성 및 설명가능성
  - 명시적으로 cost function과 Constraint를 걸 수 있다.
단점
- 성능 극대화의 이론적 한계
  - 주변 agent trajectory prediction 모듈과, MPC의 cost function이 다르기 떄문에,
    - 각 모듈의 성능을 극대화하는 것이, 전체 시스템의 성능을 극대화하는 방향이라고 볼 수 없다.
- 복잡한 상황으로 갈수록 -> 계산 요구량이 증가
  - MPC 로직의 예측 단계에서 경로 생성 후보군의 개수가 더 많이 필요해질 수 있음
  - 제약 조건을 만족하는 최적의 제어 입력을 찾는 것이 어려워짐
  - 주변 환경이 복잡해지면 -> 비선형성이 증가하고 -> 더 많은 계산 시간 필요
    - 비선현성을 단순화하거나 무시한 모델은 -> 정확도가 떨어질 수 있음

-1.2. Diffusion Model

복잡한 환경에서 뛰어난 성능 기대 가능
장점
- 1. 데이터 기반 학습이기 때문에, 복잡한(어려운) 환경에서의 높은 성능을 기대할 수 있다.
  - trajectory prediction 처럼 명시적인 주변환경 모델링이 필요 없을 수 있고, 데이터로부터 환경의 특징을 자동으로 학습한다.
단점
- 1. 전문가 데이터 의존성
- 1. 설명 가능성 X
- 1. 느린 FPS가 문제였는데 해당 논문에서는 상당히 해결한듯

why diffusion?

두괄식 결론: Multi-modal trajectory IL는 이론적으로 Diffusion 기반 플래닝처럼 다중 모달 특성을 잘 학습할 수 있는 잠재력을 가지고 있음. 다만 아래 3가지가 잘 갖춰져야 함.
- 충분하고 다양한 훈련 데이터
  - 모델이 다중 모드를 학습하기 위해서는, 다양한 상황에서 전문가가 취한 여러 행동이 데이터에 충분히 포함되어야 합니다.
- 대규모 궤적 후보 집합의 품질
  - 후보 집합이 현실적이고 다양한 궤적들을 포함한다면, 모델은 그 후보들 사이에서 올바른 확률 분포를 학습할 수 있습니다.
- 확률 분포의 정확한 캘리브레이션
  - 모델이 각 후보의 상대적 가능성을 정확하게 예측해야 하며,
  - 그렇지 않으면 하나의 모드로 확률이 집중되는 문제(모드 붕괴)가 발생할 수 있음

항목	Diffusion 기반 플래닝	VADv2 (Probabilistic Planning)
멀티모달 표현	- 연속적인 확률 분포를 암시적으로 모델링하여 이론적으로 무한한 다양성을 생성할 수 있음 - 노이즈 제거(denoising) 과정을 통해 다양한 모드를 자연스럽게 캡처	- 대규모 이산 궤적 후보 집합(trajectory vocabulary)을 사용하여, 각 후보에 대한 확률 분포를 학습 - 후보 집합 내에서 다양한 모드를 표현하려 함
확률적 샘플링 및 다양성	- 반복적인 denoising 단계에서 내재된 확률성을 통해 매 실행마다 서로 다른 궤적을 생성 - 매우 다양한 행동 모드를 자연스럽게 샘플링 가능	- 한 번의 순전파로 후보 궤적에 대한 확률 분포를 출력하고, 그 중 하나를 샘플링 - 후보 집합의 크기와 캘리브레이션에 따라 다양성 한계가 있을 수 있음
추론 속도	- 다단계 iterative 샘플링이 필요하여 계산 비용이 높고, 실시간 적용에는 다소 느림	- 단일 순전파로 확률 분포를 출력하므로 빠른 추론이 가능, 실시간 주행 플래닝에 유리
제약 조건 통합	- 물리적/안전 제약을 명시적으로 반영하기 어려워 추가적인 guidance 메커니즘이 필요할 수 있음	- 미리 정의된 후보 궤적이 물리적으로 실행 가능한 범위 내에 구성되어 있어, 제약 조건(예: 충돌 회피, 차선 준수 등)을 쉽게 반영할 수 있음
표현력 및 유연성	- 연속적이고 세밀한 행동 변화까지 모델링할 수 있어 매우 높은 표현력을 가짐 - 다양한 상황에서 미세한 차이를 반영할 수 있음	- 후보 집합의 크기와 품질에 따라 표현력이 결정됨 - 후보 집합에 포함되지 않은 미세한 변화는 표현하기 어려울 수 있음
데이터 의존성	- 전체 데이터 분포를 학습하기 위해 매우 다양한 대규모 데이터가 필요함 - 데이터가 부족하면 모드 붕괴의 위험이 있음	- 다중 모달 분포 학습 역시 충분한 다양성의 데이터에 의존 - 후보 집합이 데이터 내 모드를 충분히 반영하지 못하면, 제한된 모드만 표현될 위험이 있음
확률 분포 캘리브레이션	- 최대우도 기반 학습으로 자연스럽게 확률 분포를 캘리브레이션함	- 각 후보에 대한 확률을 정확히 학습해야 함 - 한 모드에 확률이 과도하게 집중되면, 다중 모달성이 제대로 표현되지 않을 위험이 있음

표현력 면에서는
- diffusion 모델이 이론적으로 무한히 많은 다양한 궤적을 생성할 수 있는 반면,
- VADv2는 후보 집합 내에서만 표현이 가능
- 그러나 후보 집합의 크기가 매우 크다면 VADv2도 충분한 다양성을 가질 수 있습니다.
또한,
- diffusion 모델은 내재된 확률적 샘플링으로 인해 매번 다르게 생성되는 반면,
- VADv2는 주어진 입력에 대해 고정된 확률 분포를 예측하므로, 모델이 학습한 분포의 정확한 캘리브레이션에 의존하게 됩니다.

다음 토픽

이제 imitation learning에서 발생하는 multi-objective conflicts와 학습 신호 부족 문제를 논리적이고 전문적으로 설명해 드리겠습니다.
또한, diffusion-based planning이 이러한 단점을 어떻게 극복하는지도 비교 분석하겠습니다.

1. IL에서의 Multi-Objective Conflict 발생 원인

여러 목표의 충돌:
- 자율주행 분야의 모방 학습(IL)은 안전성, 주행 효율성 등 여러 목표를 동시에 만족해야 합니다.
- 그러나 이러한 목표들은 상충되기 쉽습니다. 예를 들어 “빠른 주행”(효율성)과 “충돌 회피”(안전성)는 트레이드오프 관계에 있습니다.
- 이렇듯 IL 정책이 둘 다 만족하도록 학습하기는 어려워, 한 목표를 충족하면 다른 목표가 희생되는 충돌 상황이 발생합니다.

보조 손실(auxiliary loss)의 영향:
- 이러한 다목적 상황을 다루기 위해 IL 모델에 보조 손실 함수를 추가하는 접근이 있습니다.
- 예를 들어, 전문가 시연 데이터를 모방하는 기본 손실 외에 안전 위반에 대한 패널티 손실을 추가해 충돌이나 이탈을 벌점으로 주는 것입니다.
- 그러나 이러한 다중 손실 최적화는 모델 학습을 어렵게 만듭니다.
- 보조 손실이 도입되면 IL 모델은 여러 학습 목표 간의 균형을 맞춰야 하는데, 자칫하면 한쪽 손실을 줄이려다 다른 쪽 손실이 늘어나는 문제가 생깁니다
- 요약하면, IL에서 여러 목적을 동시에 최적화하려다 보면 각 목적의 요구사항이 충돌하여 학습 및 정책의 품질 저하로 이어집니다.

2. 실수로부터의 회복 학습 신호 부족 문제 분석

데이터 분포 및 일반화 한계:
- 모방 학습은 훈련 데이터 분포 내에서만 최적화되기 때문에 분포 밖(out-of-distribution, OOD) 상황에 대한 일반화가 취약
- 다시 말해, IL 에이전트는 전문가 시연이 담긴 경로만 따라 배우므로, 그 범위를 벗어난 상태나 상황에 직면하면 적절한 대응을 알지 못합니다.
- 이는 Covariate Shift 문제로도 알려져 있는데,
  - 작게 시작된 오류가 시간이 지날수록 상태 분포를 점점 전문가의 분포와 다르게 만들면서 오류가 누적되는 현상
- 예를 들어 자율주행 IL 모델이 한 번 핸들을 잘못 틀어 차선을 살짝 이탈하면, 그 이후 상태는 훈련 때 본 적 없는 이탈된 위치가 됩니다.
- 이 상태에서 모델은 전문가 데이터에 없는 동작을 해야 하지만, 어떤 행동이 바람직한지 학습된 신호가 없기 때문에 엉뚱한 출력을 내거나 추가 실수를 범하기 쉽습니다.
- 결국 한 번의 실수가 자체 교정되지 않고 연쇄적인 실패로 이어질 수 있습니다.

“회복(recovery)” 행동 학습의 부재:
- 일반적인 IL은 전문가의 올바른 행동 시퀀스만 학습하므로, 실수를 저지른 후 이를 만회하는 전략을 배울 기회가 없습니다.
- 훈련 데이터에 실수 후 복구하는 사례가 거의 없기 때문에, 에이전트는 잘못된 상태에서 무엇을 해야 다시 정상 상태로 돌아올지 알지 못합니다.
- 보조 손실을 통해 일부 잘못된 행동에 패널티를 준다고 해도, 이는 그 행동을 피하도록 벌주는 것일 뿐 어떻게 복구할지 가르쳐주는 구조적 신호는 아닙니다
- 예컨대 차선 이탈 상태 자체에 큰 벌점을 주는 손실을 추가하면, 모델은 “이탈하지 말라”는 것은 배우지만 이미 이탈한 경우 다시 차선으로 복귀하는 조향 방법은 배우지 못합니다.
- 요컨대, IL의 지도학습 구조는 실패 후 보상에 대한 정보가 없어서 “잘못된 상태에서 옳은 상태로 복귀”하는 행동을 학습시키기가 어렵습니다.

IL 대비 RL의 회복 학습:
- 강화학습(RL)은 환경으로부터 보상(reward) 신호를 받아 실수 이후의 결과까지 고려하며 학습합니다.
- RL 에이전트가 잘못된 행동으로 불이익을 받았다가도 다시 목표를 달성하면 보상을 획득하므로, 시간에 걸친 누적 보상을 극대화하는 과정에서 자연스럽게 오류 이후에 상황을 수습하는 행동까지 학습됩니다.
- 반면 IL에는 이러한 환경 상호작용 신호가 없고, 오직 정답 행동 모방만 있으므로 실수 이후 전략을 터득하기 어렵습니다
- 요약하면, IL의 한계는 “실수 예방”에만 초점이 있고 “실수한 이후 어떻게 정상으로 돌아오는지” 가르칠 방법이 없다는 점입니다.
- 그 결과 IL로 학습된 정책은 안전 장치나 추가 규칙 없이는 실수가 발생할 경우 복구하지 못하고 실패로 이어질 가능성이 높습니다.

3. Diffusion 기반 플래닝을 통한 문제 해결

(1) Multi-Modal 주행 데이터 학습:
- Diffusion 모델 기반 플래닝은 다중 모드의 주행 행동 분포를 자연스럽게 학습할 수 있습니다.
- Diffusion 모델은 데이터를 생성하는 확률 분포 자체를 모델링하므로, 주어진 상황에서 나올 수 있는 여러 가지 행동 경로(모드)를 모두 포괄적으로 학습합니다.
- 예를 들어 동일한 교차로 상황에서 좌회전, 우회전, 직진 같은 복수의 합리적 선택지가 있다면,Diffusion 기반 모델은 표본 샘플링을 통해 좌회전, 우회전 각각의 가능성을 명확히 표현할 수 있습니다.
- 그 결과 모델은 인간 운전자가 보이는 복잡한 다중 양상 행동까지도 모사할 수 있고, 특정 상황에서 안전을 우선시하는 행동과 효율을 우선시하는 행동 모두를 잠재적으로 생성할 수 있습니다.
- 이는 하나의 결정만 내리는 일반적인 정책과 달리 여러 목표를 충족하는 다양한 정책 공간을 학습한 것으로 볼 수 있어, multi-objective 갈등을 줄여줍니다.

(2) 안전 및 복구 메커니즘 (Classifier Guidance):

Diffusion Planner에서는 분류기 기반 가이드(classifier guidance) 메커니즘을 활용하여 안전한 계획을 달성
구체적으로, 추가 학습 없이도 주행 경로의 안전도나 쾌적성에 관한 분류기를 통해 생성 과정을 실시간으로 제어
이 가이드 분류기는 일종의 “즉각적인 피드백” 역할을 하여, 샘플링 중 위험도가 높아지는 방향으로 가면 비용을 높이고 안전한 방향으로 생성되도록 확률 분포의 경사(gradient)를 조정
그 결과 Diffusion Planner는 학습 단계에서 별도의 안전 손실을 두지 않고도도 추론 단계에서 안전 목표를 달성할 수 있습니다.
이는 곧 훈련 시 다중 목적 충돌을 피하면서도 실행 시에는 안전을 확보하는 방법입니다.
예를 들어 Diffusion Planner의 출력 경로 중 충돌 가능성이 보이는 경로는 분류기 가이드에 의해 확률이 낮아지고, 대신 장애물을 피하거나 속도를 줄이는 대체 경로가 선택됩니다.
이러한 구조적 메커니즘 덕분에 에이전트가 실시간으로 위험을 감지하고 경로를 수정하여 실수를 미연에 방지하거나, 작은 실수가 발생해도 즉각 경로를 보정할 수 있습니다.
요컨대, Diffusion 모델은 직접 “복구” 행동을 별도로 학습하지 않았더라도,
- 생성 과정 내에 내재된 피드백 루프를 통해 실수로 치우친 경로를 안전한 방향으로 끌어오는 효과를 얻습니다.

(3) 학습 분포 밖 상황에 대한 유연한 대응:

Diffusion 기반 플래닝은 훈련된 분포를 약간 벗어난 행동이 필요한 경우에도 상대적으로 유연하게 대응합니다.
일반 IL 모델이 전혀 보지 못한 상황에서는 출력 품질이 급격히 저하되지만, Diffusion Planner는 생성 모델의 풍부한 표현력과 가이드 메커니즘 덕분에 드문 상황도 비교적 그럴듯한 행동을 만들어낼 수 있습니다.
분포를 벗어난 행동이 요구되는 극단 상황에서, 분류기 가이드에 새로운 제약이나 목표를 주입하면 모델은 이를 반영해 기존 데이터에는 없던 해결책도 모색합니다.
예를 들어 데이터에는 거의 없었던 긴급 차량 양보 상황이 발생해도, “정지 상태 유지”와 같은 안전 우선 목표를 분류기 신호로 주면 모델은 안전하게 정차하는 경로를 생성할 수 있습니다.
이는 사후 조정이 어려운 기존 IL 정책과 달리, Diffusion 모델이 추론 시의 조건 변화에 따른 행동 수정을 가능하게 함을 의미합니다 .
실제 연구에서도 Diffusion Planner가 학습 때 사용하지 않은 주행 스타일에도 강인하게 일반화함을 보였고

요약:

Diffusion 기반 플래닝은 다중모달 행동생성 능력과 유연한 제어 메커니즘을 통해 IL의 한계를 보완합니다.
훈련 시에는 보조 손실 없이도 복잡한 운전자 행동 분포를 학습하여 다목적 충돌 문제를 완화하고,
실행 시에는 분류기 지침을 통한 실시간 피드백으로 안전한 경로 선택과 오류 수정을 가능케 합니다.

Probabilistic IL Planning은 Out-of-Distribution(OOD)에 강인한가? Diffusion 기반 Planning과 비교

✅ 두괄식 결론
- VADv2와 같은 Probabilistic Planning은 단순한 BC보다 OOD에 강인하지만, Diffusion 기반 Planning보다는 OOD 일반화 능력이 낮을 가능성이 큽니다.
- Diffusion 기반 Planning은 연속적인 분포를 모델링할 수 있어 OOD 상황에서 더 유연한 대처가 가능
Probabilistic Planning의 OOD 강인성 분석:
- 이 방식은 단순한 deterministic behavior cloning보다 더 나은 일반화 성능을 보일 수 있습니다.
- 예를 들어, VADv2가 보지 못한 도로 환경에서 실행될 경우, 여러 개의 후보 궤적을 평가하고 확률적으로 가장 적절한 선택지를 샘플링할 수 있습니다.
Probabilistic Planning의 OOD 성능의 주요 한계
- VADv2는 여전히 학습 데이터 내의 후보 궤적 집합에 의존
- 따라서 학습 데이터에서 경험하지 못한 극단적인 OOD 상황에서는 비현실적인 궤적을 출력하거나 모드 붕괴(mode collapse)가 발생할 가능성이 있음
Diffusion 기반 Planning과 비교:
- Diffusion 모델은 OOD 상황에서 더 유연하게 대응
- 이는 단순한 후보 궤적 집합을 선택하는 방식보다 연속적인 일반화 능력을 제공
- Diffusion 모델은 데이터 분포를 직접 모델링하는 생성적 접근법을 사용하므로, 학습되지 않은 OOD 상황에서도 기존 데이터 분포에 가깝게 샘플링할 가능성이 높습니다.
- Diffusion 기반 Planning의 OOD 한계:
  - 학습 데이터에 포함되지 않은 완전히 새로운 환경에서는 Diffusion 모델도 여전히 제한적인 성능을 보일 수 있습니다.
  - 하지만, classifier guidance와 같은 보조 신호를 이용하면, OOD 상황에서 안전하고 일관된 행동을 강화할 수 있습니다.

2. Hydra-MDP가 Multi-Objective Conflict를 해결할 수 있는가?

✅ 두괄식 결론:
- Hydra-MDP는 Multi-Objective Conflict 문제를 완화할 수 있지만, 완전히 해결하지는 못함.
- 특히 inference 단계에서 여러 head의 출력을 적절히 결합하는 방식이 필요하며, 단순한 Multi-Head 구조만으로는 완벽한 해결책이 될 수 없음.

Hydra-MDP가 MOC를 해결하는 방식:
- Hydra-MDP는 여러 개의 학습 목표를 개별 head에 할당하여 학습하는 Multi-Target Learning 접근 방식을 사용합니다.
- 즉, 한 모델이 모든 목표를 동시에 최적화하는 것이 아니라, 각 head가 특정 목표를 전담하여 학습함으로써, 다중 목표 충돌을 완화할 수 있습니다.
Hydra-MDP의 강점:
- 각 head가 특정 목표를 담당하여 학습하기 때문에, 하나의 네트워크에서 모든 목표를 동시에 최적화하려고 할 때 발생하는 손실 함수 간의 충돌을 줄일 수 있음.
- 예를 들어, 하나의 head는 안전한 주행을 학습하고, 다른 head는 효율적인 주행을 학습하는 방식으로 학습이 진행되면,
  - 개별적으로 최적화가 이루어져 MOC 문제가 완화될 수 있음.
Hydra-MDP의 한계:
- Multi-Head 구조를 사용하더라도, inference 시에는 결국 하나의 행동을 선택해야 하므로 다중 목표 간 충돌이 완전히 해소되는 것은 아님.
- Head 간 학습이 독립적이지만, inference 시 어떤 head를 선택할지 결정하는 방식이 적절하지 않다면,
  - 여전히 모순된 목표를 반영하는 행동이 선택될 위험이 존재함.

3. Diffusion 기반 Planning이 Multi-Objective Conflict 문제를 피할 수 있는 이유

✅ 두괄식 결론:
- Diffusion 기반 Planning은 훈련 시 Multi-Objective Conflict 문제를 피하고, 추론 시 목표를 주입하는 방식으로 유연한 조정이 가능하므로, 학습 단계에서 여러 목표를 한꺼번에 최적화하면서 생기는 충돌을 피할 수 있습니다.
- Diffusion은 Signle Objective Function(인간 모방)만으로 학습해도, 어느 정도 Multi-Objective를 달성할 수 있습니다.

이유 1: Diffusion은 Signle Objective Function(인간 모방)만으로 학습해도, 어느 정도 Multi-Objective를 달성할 수 있습니다. 그 이유는
- 인간 시연 자체가 다양한 양상(multi-modal)을 가지는데, 행동 모방 기법은 이러한 복잡한 분포를 완전히 학습하지 못하기 쉽습니다.
- IL은 diffusion과 다르게, 비 연속적인 확률 분포를 학습하기 때문
- 즉, diffusion은 데이터에 내재된 바람직한 연속적인 행동 분포를 그대로 학습하도록 해줍니다.
이유 2: guidance
- 무엇보다도 가이던스는 추론 단계에서 적용되므로, 학습 단계에서 여러 목표를 한꺼번에 최적화하면서 생기는 충돌을 피할 수 있습니다.
- 또한 inference시, 별도의 추가 학습 없이
  - 각 목표(승차감, 목표속도, 충돌위험도)에 대한 가이드 강도를 가중치로 조절할 수 있으므로,
  - 다중 목표 간 트레이드오프를 세밀하게 조정할 수 있습니다. (다만 이 이유는 Hydra-MDP 도 공통으로 가질 수 있는 장점임.

ad_official

다음 포스트

MPC VS Multi-modal trajectory IL VS Diffusion

diffusion planning

-1. trajectory prediction + MPC VS diffusion model

-1.1. trajectory prediction + MPC

-1.2. Diffusion Model

why diffusion?

다음 토픽

1. IL에서의 Multi-Objective Conflict 발생 원인

2. 실수로부터의 회복 학습 신호 부족 문제 분석

3. Diffusion 기반 플래닝을 통한 문제 해결

다음

Probabilistic IL Planning은 Out-of-Distribution(OOD)에 강인한가? Diffusion 기반 Planning과 비교

2. Hydra-MDP가 Multi-Objective Conflict를 해결할 수 있는가?

3. Diffusion 기반 Planning이 Multi-Objective Conflict 문제를 피할 수 있는 이유

DiffusionDrive VS Diffusion Planner

0개의 댓글

MPC VS Multi-modal trajectory IL VS Diffusion

diffusion planning

-1. trajectory prediction + MPC VS diffusion model

-1.1. trajectory prediction + MPC

-1.2. Diffusion Model

why diffusion?

Diffusion Planning VS Multi-modal trajectory IL

다음 토픽

1. IL에서의 Multi-Objective Conflict 발생 원인

2. 실수로부터의 회복 학습 신호 부족 문제 분석

3. Diffusion 기반 플래닝을 통한 문제 해결

다음

Probabilistic IL Planning은 Out-of-Distribution(OOD)에 강인한가? Diffusion 기반 Planning과 비교

2. Hydra-MDP가 Multi-Objective Conflict를 해결할 수 있는가?

3. Diffusion 기반 Planning이 Multi-Objective Conflict 문제를 피할 수 있는 이유

DiffusionDrive VS Diffusion Planner

0개의 댓글