| 항목 | Val14 (전체 평가) | Test14-random (랜덤 샘플링) | Test14-hard (스트레스 테스트) |
|---|
| 시나리오 구성 | 14개 유형의 모든 시나리오 (약 1,118개) 사용 | 14개 유형에서 각 20개씩 무작위로 선택 | 14개 유형에서 각 100회 실행 후 최하위 20개 ("롱테일") 선택 |
| 평가 모드 | 반응형 (CLS-R) 및 비반응형 (CLS-NR) 평가 | 반응형 및 비반응형 평가 | 반응형 및 비반응형 평가 |
| 평가 목적 | 전체 데이터셋을 통한 종합 성능 평가 (샘플링 없음) | 일반적인 상황에서의 성능 평가 | 불리한 조건에서 플래너의 약점 및 극한 상황 평가 |
개요
Diffusion Planner 논문은 대규모 실제 주행 벤치마크인 nuPlan과 새로 수집한 200시간 분량의 delivery-vehicle 데이터셋에서 closed-loop 평가를 수행했습니다.
- nuPlan에서는 Val14, Test14 및 Test14-hard 세 가지 시나리오에 대해 non-reactive (NR) 모드와 reactive (R) 모드로 실험을 진행하고, 각 시나리오별 개별 메트릭을 계층적 가중평균으로 통합하여 0–100점 범위의 **최종 점수(Final Score)**를 산출했습니다 .
- delivery-vehicle 데이터셋에서는 총 6가지 메트릭을 비율(%)로 보고—Score, Collisions, TTC, Drivable, Comfort, Progress—Diffusion Planner의 전이성(transferability)을 평가했습니다 .
1. nuPlan 벤치마크 평가 메트릭
1.1 실험 설정
1.2 최종 점수 (Final Score)
- 산출 방식: 각 시나리오에서 개별 메트릭 점수를 계층적 가중평균으로 결합, 시나리오별 점수를 평균하여 0–1로 정규화 후 ×100 .
1.3 개별 메트릭 (Challenge 2 & 3)
아래 메트릭들은 closed-loop 환경에서 “scenario score”에 곱셈(multiplier) 또는 가중합(weighted average) 방식으로 통합됩니다 ([nuplan-devkit.readthedocs.io][1], [nuplan-devkit.readthedocs.io][1]):
- No At-Fault Collisions (At-Fault Collisions)
ego와 타 객체 경계 상자가 충돌한 횟수를 집계, ego 책임 충돌만 카운트하여 0 또는 1로 점수화 ([nuplan-devkit.readthedocs.io][1])
- Drivable Area Compliance
ego가 차선맵에 정의된 주행 가능 영역을 벗어나면 0, 아니면 1 ([nuplan-devkit.readthedocs.io][1])
- Driving Direction Compliance
oncoming traffic과 반대 방향 주행 시도량을 기준으로 0, 0.5, 1로 점수화 ([nuplan-devkit.readthedocs.io][1])
- Making Progress
ego가 expert 경로 대비 최소 20% 이상 전진했는지 여부를 boolean으로 평가 ([nuplan-devkit.readthedocs.io][1])
- Time to Collision (TTC)
ego와 타 객체의 예측 충돌 시간을 3초 이내에 계산, 0.95초 미만이면 0, 아니면 1 ([nuplan-devkit.readthedocs.io][1])
- Speed Limit Compliance
과속 정도를 위반적분(speed_violation_integral) 기반으로 0–1 연속값으로 평가 ([nuplan-devkit.readthedocs.io][1])
- Ego Progress Ratio
ego 전진 거리 ÷ expert 전진 거리로 계산, 0–1 범위로 클리핑 ([nuplan-devkit.readthedocs.io][1])
- Comfort
longitudinal/lateral acceleration, yaw rate, jerk 등 여러 물리량이 임계치 내에 있으면 1, 아니면 0 ([nuplan-devkit.readthedocs.io][1])
2. Delivery-Vehicle 데이터셋 메트릭
Delivery-vehicle 데이터셋 평가에는 아래 6개 메트릭을 퍼센트(%)로 보고하여, nuPlan의 same evaluation framework를 그대로 사용했습니다 :
- Score: nuPlan과 동일한 최종 점수(0–100)
- Collisions: ego 책임 충돌이 발생하지 않은 시뮬레이션 비율
- TTC: 충돌 예측 시간이 최소 0.95초 이상인 프레임 비율
- Drivable: 차선맵을 벗어나지 않은 프레임 비율
- Comfort: 모든 comfort 물리량이 임계치 내에 있는 프레임 비율
- Progress: expert 대비 ego 전진 거리 비율
각 메트릭은 nuPlan-devkit의 scenario score 집계 규칙을 따르며, 최종 Score와 함께 모델의 이식성(transferability) 및 강건성(robustness) 을 정량적으로 평가하는 데 사용되었습니다.