reactive closed-loop 평가 방법

ad_official·2025년 2월 26일

planner evaluation

목록 보기

1/1

항목	Val14 (전체 평가)	Test14-random (랜덤 샘플링)	Test14-hard (스트레스 테스트)
시나리오 구성	14개 유형의 모든 시나리오 (약 1,118개) 사용	14개 유형에서 각 20개씩 무작위로 선택	14개 유형에서 각 100회 실행 후 최하위 20개 ("롱테일") 선택
평가 모드	반응형 (CLS-R) 및 비반응형 (CLS-NR) 평가	반응형 및 비반응형 평가	반응형 및 비반응형 평가
평가 목적	전체 데이터셋을 통한 종합 성능 평가 (샘플링 없음)	일반적인 상황에서의 성능 평가	불리한 조건에서 플래너의 약점 및 극한 상황 평가

개요

Diffusion Planner 논문은 대규모 실제 주행 벤치마크인 nuPlan과 새로 수집한 200시간 분량의 delivery-vehicle 데이터셋에서 closed-loop 평가를 수행했습니다.

nuPlan에서는 Val14, Test14 및 Test14-hard 세 가지 시나리오에 대해 non-reactive (NR) 모드와 reactive (R) 모드로 실험을 진행하고, 각 시나리오별 개별 메트릭을 계층적 가중평균으로 통합하여 0–100점 범위의 **최종 점수(Final Score)**를 산출했습니다 .
delivery-vehicle 데이터셋에서는 총 6가지 메트릭을 비율(%)로 보고—Score, Collisions, TTC, Drivable, Comfort, Progress—Diffusion Planner의 전이성(transferability)을 평가했습니다 .

1. nuPlan 벤치마크 평가 메트릭

1.1 실험 설정

데이터셋: nuPlan Val14, Test14, Test14-hard
모드:
- Non-Reactive (NR): 타 차량은 로그 재생만 수행
- Reactive (R): Intelligent Driver Model(IDM)을 사용해 반응적 시뮬레이션 수행

1.2 최종 점수 (Final Score)

산출 방식: 각 시나리오에서 개별 메트릭 점수를 계층적 가중평균으로 결합, 시나리오별 점수를 평균하여 0–1로 정규화 후 ×100 .

1.3 개별 메트릭 (Challenge 2 & 3)

아래 메트릭들은 closed-loop 환경에서 “scenario score”에 곱셈(multiplier) 또는 가중합(weighted average) 방식으로 통합됩니다 ([nuplan-devkit.readthedocs.io][1], [nuplan-devkit.readthedocs.io][1]):

No At-Fault Collisions (At-Fault Collisions)
ego와 타 객체 경계 상자가 충돌한 횟수를 집계, ego 책임 충돌만 카운트하여 0 또는 1로 점수화 ([nuplan-devkit.readthedocs.io][1])
Drivable Area Compliance
ego가 차선맵에 정의된 주행 가능 영역을 벗어나면 0, 아니면 1 ([nuplan-devkit.readthedocs.io][1])
Driving Direction Compliance
oncoming traffic과 반대 방향 주행 시도량을 기준으로 0, 0.5, 1로 점수화 ([nuplan-devkit.readthedocs.io][1])
Making Progress
ego가 expert 경로 대비 최소 20% 이상 전진했는지 여부를 boolean으로 평가 ([nuplan-devkit.readthedocs.io][1])
Time to Collision (TTC)
ego와 타 객체의 예측 충돌 시간을 3초 이내에 계산, 0.95초 미만이면 0, 아니면 1 ([nuplan-devkit.readthedocs.io][1])
Speed Limit Compliance
과속 정도를 위반적분(speed_violation_integral) 기반으로 0–1 연속값으로 평가 ([nuplan-devkit.readthedocs.io][1])
Ego Progress Ratio
ego 전진 거리 ÷ expert 전진 거리로 계산, 0–1 범위로 클리핑 ([nuplan-devkit.readthedocs.io][1])
Comfort
longitudinal/lateral acceleration, yaw rate, jerk 등 여러 물리량이 임계치 내에 있으면 1, 아니면 0 ([nuplan-devkit.readthedocs.io][1])

2. Delivery-Vehicle 데이터셋 메트릭

Delivery-vehicle 데이터셋 평가에는 아래 6개 메트릭을 퍼센트(%)로 보고하여, nuPlan의 same evaluation framework를 그대로 사용했습니다 :

Score: nuPlan과 동일한 최종 점수(0–100)
Collisions: ego 책임 충돌이 발생하지 않은 시뮬레이션 비율
TTC: 충돌 예측 시간이 최소 0.95초 이상인 프레임 비율
Drivable: 차선맵을 벗어나지 않은 프레임 비율
Comfort: 모든 comfort 물리량이 임계치 내에 있는 프레임 비율
Progress: expert 대비 ego 전진 거리 비율

각 메트릭은 nuPlan-devkit의 scenario score 집계 규칙을 따르며, 최종 Score와 함께 모델의 이식성(transferability) 및 강건성(robustness) 을 정량적으로 평가하는 데 사용되었습니다.

ad_official