MPC VS Multi-modal trajectory IL VS Diffusion

ad_official·2025년 3월 26일
0

diffusion planning

목록 보기
18/19

-1. trajectory prediction + MPC VS diffusion model

-1.1. trajectory prediction + MPC

  • 장점
      1. 안전성 및 설명가능성
      • 명시적으로 cost function과 Constraint를 걸 수 있다.
  • 단점
    • 성능 극대화의 이론적 한계
      • 주변 agent trajectory prediction 모듈과, MPC의 cost function이 다르기 떄문에,
        • 각 모듈의 성능을 극대화하는 것이, 전체 시스템의 성능을 극대화하는 방향이라고 볼 수 없다.
    • 복잡한 상황으로 갈수록 -> 계산 요구량이 증가
      • MPC 로직의 예측 단계에서 경로 생성 후보군의 개수가 더 많이 필요해질 수 있음
      • 제약 조건을 만족하는 최적의 제어 입력을 찾는 것이 어려워짐
      • 주변 환경이 복잡해지면 -> 비선형성이 증가하고 -> 더 많은 계산 시간 필요
        • 비선현성을 단순화하거나 무시한 모델은 -> 정확도가 떨어질 수 있음

-1.2. Diffusion Model

  • 복잡한 환경에서 뛰어난 성능 기대 가능
  • 장점
      1. 데이터 기반 학습이기 때문에, 복잡한(어려운) 환경에서의 높은 성능을 기대할 수 있다.
      • trajectory prediction 처럼 명시적인 주변환경 모델링이 필요 없을 수 있고, 데이터로부터 환경의 특징을 자동으로 학습한다.
  • 단점
      1. 전문가 데이터 의존성
      1. 설명 가능성 X
      1. 느린 FPS가 문제였는데 해당 논문에서는 상당히 해결한듯



why diffusion?

Diffusion Planning VS Multi-modal trajectory IL

  • 두괄식 결론: Multi-modal trajectory IL는 이론적으로 Diffusion 기반 플래닝처럼 다중 모달 특성을 잘 학습할 수 있는 잠재력을 가지고 있음. 다만 아래 3가지가 잘 갖춰져야 함.
    • 충분하고 다양한 훈련 데이터
      • 모델이 다중 모드를 학습하기 위해서는, 다양한 상황에서 전문가가 취한 여러 행동이 데이터에 충분히 포함되어야 합니다.
    • 대규모 궤적 후보 집합의 품질
      • 후보 집합이 현실적이고 다양한 궤적들을 포함한다면, 모델은 그 후보들 사이에서 올바른 확률 분포를 학습할 수 있습니다.
    • 확률 분포의 정확한 캘리브레이션
      • 모델이 각 후보의 상대적 가능성을 정확하게 예측해야 하며,
      • 그렇지 않으면 하나의 모드로 확률이 집중되는 문제(모드 붕괴)가 발생할 수 있음

항목Diffusion 기반 플래닝VADv2 (Probabilistic Planning)
멀티모달 표현- 연속적인 확률 분포를 암시적으로 모델링하여 이론적으로 무한한 다양성을 생성할 수 있음
- 노이즈 제거(denoising) 과정을 통해 다양한 모드를 자연스럽게 캡처
- 대규모 이산 궤적 후보 집합(trajectory vocabulary)을 사용하여, 각 후보에 대한 확률 분포를 학습
- 후보 집합 내에서 다양한 모드를 표현하려 함
확률적 샘플링 및 다양성- 반복적인 denoising 단계에서 내재된 확률성을 통해 매 실행마다 서로 다른 궤적을 생성
- 매우 다양한 행동 모드를 자연스럽게 샘플링 가능
- 한 번의 순전파로 후보 궤적에 대한 확률 분포를 출력하고, 그 중 하나를 샘플링
- 후보 집합의 크기와 캘리브레이션에 따라 다양성 한계가 있을 수 있음
추론 속도- 다단계 iterative 샘플링이 필요하여 계산 비용이 높고, 실시간 적용에는 다소 느림- 단일 순전파로 확률 분포를 출력하므로 빠른 추론이 가능, 실시간 주행 플래닝에 유리
제약 조건 통합- 물리적/안전 제약을 명시적으로 반영하기 어려워 추가적인 guidance 메커니즘이 필요할 수 있음- 미리 정의된 후보 궤적이 물리적으로 실행 가능한 범위 내에 구성되어 있어, 제약 조건(예: 충돌 회피, 차선 준수 등)을 쉽게 반영할 수 있음
표현력 및 유연성- 연속적이고 세밀한 행동 변화까지 모델링할 수 있어 매우 높은 표현력을 가짐
- 다양한 상황에서 미세한 차이를 반영할 수 있음
- 후보 집합의 크기와 품질에 따라 표현력이 결정됨
- 후보 집합에 포함되지 않은 미세한 변화는 표현하기 어려울 수 있음
데이터 의존성- 전체 데이터 분포를 학습하기 위해 매우 다양한 대규모 데이터가 필요함
- 데이터가 부족하면 모드 붕괴의 위험이 있음
- 다중 모달 분포 학습 역시 충분한 다양성의 데이터에 의존
- 후보 집합이 데이터 내 모드를 충분히 반영하지 못하면, 제한된 모드만 표현될 위험이 있음
확률 분포 캘리브레이션- 최대우도 기반 학습으로 자연스럽게 확률 분포를 캘리브레이션함- 각 후보에 대한 확률을 정확히 학습해야 함
- 한 모드에 확률이 과도하게 집중되면, 다중 모달성이 제대로 표현되지 않을 위험이 있음

  • 표현력 면에서는
    • diffusion 모델이 이론적으로 무한히 많은 다양한 궤적을 생성할 수 있는 반면,
    • VADv2는 후보 집합 내에서만 표현이 가능
    • 그러나 후보 집합의 크기가 매우 크다면 VADv2도 충분한 다양성을 가질 수 있습니다.
  • 또한,
    • diffusion 모델은 내재된 확률적 샘플링으로 인해 매번 다르게 생성되는 반면,
    • VADv2는 주어진 입력에 대해 고정된 확률 분포를 예측하므로, 모델이 학습한 분포의 정확한 캘리브레이션에 의존하게 됩니다.

다음 토픽

  • 이제 imitation learning에서 발생하는 multi-objective conflicts와 학습 신호 부족 문제를 논리적이고 전문적으로 설명해 드리겠습니다.
  • 또한, diffusion-based planning이 이러한 단점을 어떻게 극복하는지도 비교 분석하겠습니다.

1. IL에서의 Multi-Objective Conflict 발생 원인

  • 여러 목표의 충돌:
    • 자율주행 분야의 모방 학습(IL)은 안전성, 주행 효율성 등 여러 목표를 동시에 만족해야 합니다.
    • 그러나 이러한 목표들은 상충되기 쉽습니다. 예를 들어 “빠른 주행”(효율성)과 “충돌 회피”(안전성)는 트레이드오프 관계에 있습니다.
    • 이렇듯 IL 정책이 둘 다 만족하도록 학습하기는 어려워, 한 목표를 충족하면 다른 목표가 희생되는 충돌 상황이 발생합니다.

  • 보조 손실(auxiliary loss)의 영향:
    • 이러한 다목적 상황을 다루기 위해 IL 모델에 보조 손실 함수를 추가하는 접근이 있습니다.
    • 예를 들어, 전문가 시연 데이터를 모방하는 기본 손실 외에 안전 위반에 대한 패널티 손실을 추가해 충돌이나 이탈을 벌점으로 주는 것입니다.
    • 그러나 이러한 다중 손실 최적화는 모델 학습을 어렵게 만듭니다.
    • 보조 손실이 도입되면 IL 모델은 여러 학습 목표 간의 균형을 맞춰야 하는데, 자칫하면 한쪽 손실을 줄이려다 다른 쪽 손실이 늘어나는 문제가 생깁니다
    • 요약하면, IL에서 여러 목적을 동시에 최적화하려다 보면 각 목적의 요구사항이 충돌하여 학습 및 정책의 품질 저하로 이어집니다.

2. 실수로부터의 회복 학습 신호 부족 문제 분석

  • 데이터 분포 및 일반화 한계:
    • 모방 학습은 훈련 데이터 분포 내에서만 최적화되기 때문에 분포 밖(out-of-distribution, OOD) 상황에 대한 일반화가 취약
    • 다시 말해, IL 에이전트는 전문가 시연이 담긴 경로만 따라 배우므로, 그 범위를 벗어난 상태나 상황에 직면하면 적절한 대응을 알지 못합니다.
    • 이는 Covariate Shift 문제로도 알려져 있는데,
      • 작게 시작된 오류가 시간이 지날수록 상태 분포를 점점 전문가의 분포와 다르게 만들면서 오류가 누적되는 현상
    • 예를 들어 자율주행 IL 모델이 한 번 핸들을 잘못 틀어 차선을 살짝 이탈하면, 그 이후 상태는 훈련 때 본 적 없는 이탈된 위치가 됩니다.
    • 이 상태에서 모델은 전문가 데이터에 없는 동작을 해야 하지만, 어떤 행동이 바람직한지 학습된 신호가 없기 때문에 엉뚱한 출력을 내거나 추가 실수를 범하기 쉽습니다.
    • 결국 한 번의 실수가 자체 교정되지 않고 연쇄적인 실패로 이어질 수 있습니다.

  • “회복(recovery)” 행동 학습의 부재:
    • 일반적인 IL은 전문가의 올바른 행동 시퀀스만 학습하므로, 실수를 저지른 후 이를 만회하는 전략을 배울 기회가 없습니다.
    • 훈련 데이터에 실수 후 복구하는 사례가 거의 없기 때문에, 에이전트는 잘못된 상태에서 무엇을 해야 다시 정상 상태로 돌아올지 알지 못합니다.
    • 보조 손실을 통해 일부 잘못된 행동에 패널티를 준다고 해도, 이는 그 행동을 피하도록 벌주는 것일 뿐 어떻게 복구할지 가르쳐주는 구조적 신호는 아닙니다
    • 예컨대 차선 이탈 상태 자체에 큰 벌점을 주는 손실을 추가하면, 모델은 “이탈하지 말라”는 것은 배우지만 이미 이탈한 경우 다시 차선으로 복귀하는 조향 방법은 배우지 못합니다.
    • 요컨대, IL의 지도학습 구조는 실패 후 보상에 대한 정보가 없어서 “잘못된 상태에서 옳은 상태로 복귀”하는 행동을 학습시키기가 어렵습니다.

  • IL 대비 RL의 회복 학습:
    • 강화학습(RL)은 환경으로부터 보상(reward) 신호를 받아 실수 이후의 결과까지 고려하며 학습합니다.
    • RL 에이전트가 잘못된 행동으로 불이익을 받았다가도 다시 목표를 달성하면 보상을 획득하므로, 시간에 걸친 누적 보상을 극대화하는 과정에서 자연스럽게 오류 이후에 상황을 수습하는 행동까지 학습됩니다.
    • 반면 IL에는 이러한 환경 상호작용 신호가 없고, 오직 정답 행동 모방만 있으므로 실수 이후 전략을 터득하기 어렵습니다
    • 요약하면, IL의 한계는 “실수 예방”에만 초점이 있고 “실수한 이후 어떻게 정상으로 돌아오는지” 가르칠 방법이 없다는 점입니다.
    • 그 결과 IL로 학습된 정책은 안전 장치나 추가 규칙 없이는 실수가 발생할 경우 복구하지 못하고 실패로 이어질 가능성이 높습니다.

3. Diffusion 기반 플래닝을 통한 문제 해결

  • (1) Multi-Modal 주행 데이터 학습:
    • Diffusion 모델 기반 플래닝은 다중 모드의 주행 행동 분포를 자연스럽게 학습할 수 있습니다.
    • Diffusion 모델은 데이터를 생성하는 확률 분포 자체를 모델링하므로, 주어진 상황에서 나올 수 있는 여러 가지 행동 경로(모드)를 모두 포괄적으로 학습합니다.
    • 예를 들어 동일한 교차로 상황에서 좌회전, 우회전, 직진 같은 복수의 합리적 선택지가 있다면,Diffusion 기반 모델은 표본 샘플링을 통해 좌회전, 우회전 각각의 가능성을 명확히 표현할 수 있습니다.
    • 그 결과 모델은 인간 운전자가 보이는 복잡한 다중 양상 행동까지도 모사할 수 있고, 특정 상황에서 안전을 우선시하는 행동과 효율을 우선시하는 행동 모두를 잠재적으로 생성할 수 있습니다.
    • 이는 하나의 결정만 내리는 일반적인 정책과 달리 여러 목표를 충족하는 다양한 정책 공간을 학습한 것으로 볼 수 있어, multi-objective 갈등을 줄여줍니다.

(2) 안전 및 복구 메커니즘 (Classifier Guidance):

  • Diffusion Planner에서는 분류기 기반 가이드(classifier guidance) 메커니즘을 활용하여 안전한 계획을 달성
  • 구체적으로, 추가 학습 없이도 주행 경로의 안전도나 쾌적성에 관한 분류기를 통해 생성 과정을 실시간으로 제어
  • 이 가이드 분류기는 일종의 “즉각적인 피드백” 역할을 하여, 샘플링 중 위험도가 높아지는 방향으로 가면 비용을 높이고 안전한 방향으로 생성되도록 확률 분포의 경사(gradient)를 조정
  • 그 결과 Diffusion Planner는 학습 단계에서 별도의 안전 손실을 두지 않고도추론 단계에서 안전 목표를 달성할 수 있습니다.
  • 이는 곧 훈련 시 다중 목적 충돌을 피하면서도 실행 시에는 안전을 확보하는 방법입니다.
  • 예를 들어 Diffusion Planner의 출력 경로 중 충돌 가능성이 보이는 경로는 분류기 가이드에 의해 확률이 낮아지고, 대신 장애물을 피하거나 속도를 줄이는 대체 경로가 선택됩니다.
  • 이러한 구조적 메커니즘 덕분에 에이전트가 실시간으로 위험을 감지하고 경로를 수정하여 실수를 미연에 방지하거나, 작은 실수가 발생해도 즉각 경로를 보정할 수 있습니다.
  • 요컨대, Diffusion 모델은 직접 “복구” 행동을 별도로 학습하지 않았더라도,
    • 생성 과정 내에 내재된 피드백 루프를 통해 실수로 치우친 경로를 안전한 방향으로 끌어오는 효과를 얻습니다.

(3) 학습 분포 밖 상황에 대한 유연한 대응:

  • Diffusion 기반 플래닝은 훈련된 분포를 약간 벗어난 행동이 필요한 경우에도 상대적으로 유연하게 대응합니다.
  • 일반 IL 모델이 전혀 보지 못한 상황에서는 출력 품질이 급격히 저하되지만, Diffusion Planner는 생성 모델의 풍부한 표현력가이드 메커니즘 덕분에 드문 상황도 비교적 그럴듯한 행동을 만들어낼 수 있습니다.
  • 분포를 벗어난 행동이 요구되는 극단 상황에서, 분류기 가이드에 새로운 제약이나 목표를 주입하면 모델은 이를 반영해 기존 데이터에는 없던 해결책도 모색합니다.
  • 예를 들어 데이터에는 거의 없었던 긴급 차량 양보 상황이 발생해도, “정지 상태 유지”와 같은 안전 우선 목표를 분류기 신호로 주면 모델은 안전하게 정차하는 경로를 생성할 수 있습니다.
  • 이는 사후 조정이 어려운 기존 IL 정책과 달리, Diffusion 모델이 추론 시의 조건 변화에 따른 행동 수정을 가능하게 함을 의미합니다 .
  • 실제 연구에서도 Diffusion Planner가 학습 때 사용하지 않은 주행 스타일에도 강인하게 일반화함을 보였고

요약:

  • Diffusion 기반 플래닝은 다중모달 행동생성 능력유연한 제어 메커니즘을 통해 IL의 한계를 보완합니다.
  • 훈련 시에는 보조 손실 없이도 복잡한 운전자 행동 분포를 학습하여 다목적 충돌 문제를 완화하고,
  • 실행 시에는 분류기 지침을 통한 실시간 피드백으로 안전한 경로 선택과 오류 수정을 가능케 합니다.

다음

Probabilistic IL Planning은 Out-of-Distribution(OOD)에 강인한가? Diffusion 기반 Planning과 비교

  • ✅ 두괄식 결론
    • VADv2와 같은 Probabilistic Planning은 단순한 BC보다 OOD에 강인하지만, Diffusion 기반 Planning보다는 OOD 일반화 능력이 낮을 가능성이 큽니다.
    • Diffusion 기반 Planning은 연속적인 분포를 모델링할 수 있어 OOD 상황에서 더 유연한 대처가 가능
  • Probabilistic Planning의 OOD 강인성 분석:
    • 이 방식은 단순한 deterministic behavior cloning보다 더 나은 일반화 성능을 보일 수 있습니다.
    • 예를 들어, VADv2가 보지 못한 도로 환경에서 실행될 경우, 여러 개의 후보 궤적을 평가하고 확률적으로 가장 적절한 선택지를 샘플링할 수 있습니다.
  • Probabilistic Planning의 OOD 성능의 주요 한계
    • VADv2는 여전히 학습 데이터 내의 후보 궤적 집합에 의존
    • 따라서 학습 데이터에서 경험하지 못한 극단적인 OOD 상황에서는 비현실적인 궤적을 출력하거나 모드 붕괴(mode collapse)가 발생할 가능성이 있음
  • Diffusion 기반 Planning과 비교:
    • Diffusion 모델은 OOD 상황에서 더 유연하게 대응
    • 이는 단순한 후보 궤적 집합을 선택하는 방식보다 연속적인 일반화 능력을 제공
    • Diffusion 모델은 데이터 분포를 직접 모델링하는 생성적 접근법을 사용하므로, 학습되지 않은 OOD 상황에서도 기존 데이터 분포에 가깝게 샘플링할 가능성이 높습니다.
    • Diffusion 기반 Planning의 OOD 한계:
      • 학습 데이터에 포함되지 않은 완전히 새로운 환경에서는 Diffusion 모델도 여전히 제한적인 성능을 보일 수 있습니다.
      • 하지만, classifier guidance와 같은 보조 신호를 이용하면, OOD 상황에서 안전하고 일관된 행동을 강화할 수 있습니다.

2. Hydra-MDP가 Multi-Objective Conflict를 해결할 수 있는가?

  • ✅ 두괄식 결론:
    • Hydra-MDP는 Multi-Objective Conflict 문제를 완화할 수 있지만, 완전히 해결하지는 못함.
    • 특히 inference 단계에서 여러 head의 출력을 적절히 결합하는 방식이 필요하며, 단순한 Multi-Head 구조만으로는 완벽한 해결책이 될 수 없음.

  • Hydra-MDP가 MOC를 해결하는 방식:
    • Hydra-MDP는 여러 개의 학습 목표를 개별 head에 할당하여 학습하는 Multi-Target Learning 접근 방식을 사용합니다.
    • 즉, 한 모델이 모든 목표를 동시에 최적화하는 것이 아니라, 각 head가 특정 목표를 전담하여 학습함으로써, 다중 목표 충돌을 완화할 수 있습니다.
  • Hydra-MDP의 강점:
    • 각 head가 특정 목표를 담당하여 학습하기 때문에, 하나의 네트워크에서 모든 목표를 동시에 최적화하려고 할 때 발생하는 손실 함수 간의 충돌을 줄일 수 있음.
    • 예를 들어, 하나의 head는 안전한 주행을 학습하고, 다른 head는 효율적인 주행을 학습하는 방식으로 학습이 진행되면,
      • 개별적으로 최적화가 이루어져 MOC 문제가 완화될 수 있음.
  • Hydra-MDP의 한계:
    • Multi-Head 구조를 사용하더라도, inference 시에는 결국 하나의 행동을 선택해야 하므로 다중 목표 간 충돌이 완전히 해소되는 것은 아님.
    • Head 간 학습이 독립적이지만, inference 시 어떤 head를 선택할지 결정하는 방식이 적절하지 않다면,
      • 여전히 모순된 목표를 반영하는 행동이 선택될 위험이 존재함.

3. Diffusion 기반 Planning이 Multi-Objective Conflict 문제를 피할 수 있는 이유

  • ✅ 두괄식 결론:
    • Diffusion 기반 Planning은 훈련 시 Multi-Objective Conflict 문제를 피하고, 추론 시 목표를 주입하는 방식으로 유연한 조정이 가능하므로, 학습 단계에서 여러 목표를 한꺼번에 최적화하면서 생기는 충돌을 피할 수 있습니다.
    • Diffusion은 Signle Objective Function(인간 모방)만으로 학습해도, 어느 정도 Multi-Objective를 달성할 수 있습니다.

  • 이유 1: Diffusion은 Signle Objective Function(인간 모방)만으로 학습해도, 어느 정도 Multi-Objective를 달성할 수 있습니다. 그 이유는
    • 인간 시연 자체가 다양한 양상(multi-modal)을 가지는데, 행동 모방 기법은 이러한 복잡한 분포를 완전히 학습하지 못하기 쉽습니다.
    • IL은 diffusion과 다르게, 비 연속적인 확률 분포를 학습하기 때문
    • 즉, diffusion은 데이터에 내재된 바람직한 연속적인 행동 분포를 그대로 학습하도록 해줍니다.
  • 이유 2: guidance
    • 무엇보다도 가이던스는 추론 단계에서 적용되므로, 학습 단계에서 여러 목표를 한꺼번에 최적화하면서 생기는 충돌을 피할 수 있습니다.
    • 또한 inference시, 별도의 추가 학습 없이
      • 각 목표(승차감, 목표속도, 충돌위험도)에 대한 가이드 강도를 가중치로 조절할 수 있으므로,
      • 다중 목표 간 트레이드오프를 세밀하게 조정할 수 있습니다. (다만 이 이유는 Hydra-MDP 도 공통으로 가질 수 있는 장점임.



profile
ad_official

0개의 댓글