[24,5][12]SparseDrive: End-to-End Autonomous Driving via Sparse Scene Representation

ad_official·2025년 2월 11일

e2e planning

목록 보기

1/3

Parallel Motion Planner
- 주변 객체의 미래 경로 예측과 자차(ego) 주행 계획은 유사한 문제임을 고려해, 두 작업을 동시에 병렬로 처리
다중 모달(multi-modal) 접근:
- 여러 개의 주행 궤적 후보를 동시에 생성한 뒤,
- 계층적(planning hierarchical) 선택 전략과 충돌 위험을 반영한 collision-aware rescore 모듈을 통해 안전하고 합리적인 최종 주행 경로를 선택

Ego 관련 입력:
- Ego Instance Feature: ([1, F])
- Ego Anchor: ([1, A])
  - Ego 차량의 물리적 위치, 크기, 방향(heading) 및 (필요시) 초기 속도 등의 정보
- 보조 Ego 상태: ([1, S])
  - 현재 Ego의 속도, 가속도, 각속도, 조향각 등 추가 상태 정보를 예측하기 위한 입력
주변 객체 관련 입력:
- Agent Instance Features: ([N, F])
  - 주변 객체(동적 객체)들의 특징 정보를 나타내며, 인식 및 추적 모듈에서 추출됨
- Agent Anchor Boxes: ([N, A])
  - 각 객체의 위치, 크기, 방향 등 기하학적 정보를 포함
- Temporal Feature Memory (인스턴스 메모리 큐): ([N, Q, F])
  - 각 객체에 대해 과거 프레임의 특징(temporal cues)을 저장하여 시간적 일관성을 제공
정적 맵 요소 관련 입력:
- Map Instance Features: ([M, F_{map}])
  - 정적 맵 요소(차선, 경계선, 횡단보도 등)의 특징
- Map Anchor Polylines: ([M, L, 2])
  - 각 맵 요소를 나타내기 위한 다수의 점들(폴리라인)로 구성된 기하학적 표현
내부 쿼리 입력 (Planning/Motion Query):

planner의 디코더(또는 쿼리 모듈)의 입력으로 사용
- Planning Mode Queries: ([M_{mode}, d])
- (필요 시) Motion Prediction Queries: ([M'_{mode}, d])
  - 주변 객체에 대한 미래 궤적 예측을 위한 쿼리

다중 모달 주행 궤적 (Shape: ( $M \times T \times D$ )),
- 차량 1대를 기준으로 이야기 하고 있는 것
각 모드에 대한 신뢰도 스칼라 (Shape: ( $M$ )),
주행 명령 분류 결과 (Shape: ( $M \times C$ )),
- ( $C$ ): 주행 명령의 개수 (일반적으로 3, 즉 좌회전, 우회전, 직진)
그리고 Ego 차량의 현재 상태 정보 (Shape: ( $S$ ))
- Ego 차량의 현재 상태(예: 속도, 가속도, 각속도, 조향각 등)를 예측하여, Ego 차량의 특성을 보완하는 정보로 사용됩니다. 이는 특히 Ego 차량이 센서 사각지대에 있거나, 직접 관측할 수 없는 경우에 유용합니다.
- (S): 상태 정보의 차원 (예를 들어, 4차원 – 속도, 가속도, 각속도, 조향각 등)
부가설명
- 이러한 출력들은 후처리 단계에서 계층적 계획 선택 전략(collision-aware rescore 등)을 거쳐 최종적으로 안전하고 합리적인 주행 경로가 결정

기존의 엔드투엔드 방식은
- BEV(Bird’s Eye View)와 같이 밀집한(dense) 표현에 의존하여 계산 비용이 높고,
- 예측 및 계획 설계가 다소 단순해 안전성 측면에서 한계
이에 본 논문에서는 희소 표현(sparse representation) 개념을 도입하여,
- 자율주행의 다양한 하위 작업을 희소한 표현을 기반으로 통합하여,
- 계산 효율과 주행 안전성을 동시에 개선

통합적 접근:
- 객체 검출, 트래킹, 온라인 맵핑을 하나의 대칭적인 네트워크 아키텍처로 통합
희소 표현 학습:
- 이미지와 다중 뷰 정보를 입력받아 중요한 인스턴스(동적 객체 및 정적 맵 요소)만을 선택적으로 추출
- 이들을 희소한 형태의 표현으로 학습
시간적 정보 활용:
- 과거 프레임의 정보(temporal cues)를 활용하여 객체의 일관성(tracking)과 맵 정보를 보완

예측과 계획의 병렬 처리:
- 주변 객체의 미래 경로 예측과 자차(ego) 주행 계획은 유사한 문제임을 고려해, 두 작업을 동시에 병렬로 처리
다중 모달(multi-modal) 접근:
- 여러 개의 주행 궤적 후보를 동시에 생성한 뒤,
- 계층적(planning hierarchical) 선택 전략과 충돌 위험을 반영한 collision-aware rescore 모듈을 통해 안전하고 합리적인 최종 주행 경로를 선택
Ego 정보 보완:
- Ego 차량은 카메라 사각지대에 해당하므로, 전면 카메라의 저해상도 피처를 보완 입력으로 사용하여,
  - 자차의 상태(위치, 방향, 속도 등)를 효과적으로 반영