[24,5][12]SparseDrive: End-to-End Autonomous Driving via Sparse Scene Representation

ad_official·2025년 2월 11일

e2e planning

목록 보기
1/3

논문을 읽는 목적

  • instance_feature 와 anchor_embed 어떻게 만드는지 알아야함
    • det_output 와 map_output 모두
  • agent, map 정보를 기반으로, 어떻게 하면 traffic modeling할 수 있는지 파악하기
  • 첫번째 prediction 구조에 대해, 완벽히 파악하기
    • 목적: 자차와 주변 장애물의 미래 위치 예측
    • TODO: input/output이 어떤 네트워크에 들어가서 나오는지 파악
      • 목적:
        • 이 구조가 정말 장점이 있는가?
        • 어떤 input이 정말 필요한가?
  • 두번째 diffusion 구조에 대해, 완벽히 파악하기
  • decode network 의 목적이 무엇인지 파악하기



체크리스트

첫번째 prediction 구조에 대해, 완벽히 파악하기

  • Parallel Motion Planner
    • 주변 객체의 미래 경로 예측과 자차(ego) 주행 계획은 유사한 문제임을 고려해, 두 작업을 동시에 병렬로 처리
  • 다중 모달(multi-modal) 접근:
    • 여러 개의 주행 궤적 후보를 동시에 생성한 뒤,
    • 계층적(planning hierarchical) 선택 전략과 충돌 위험을 반영한 collision-aware rescore 모듈을 통해 안전하고 합리적인 최종 주행 경로를 선택

input

  1. Ego 관련 입력:

    • Ego Instance Feature: ([1, F])
    • Ego Anchor: ([1, A])
      • Ego 차량의 물리적 위치, 크기, 방향(heading) 및 (필요시) 초기 속도 등의 정보
    • 보조 Ego 상태: ([1, S])
      • 현재 Ego의 속도, 가속도, 각속도, 조향각 등 추가 상태 정보를 예측하기 위한 입력
  2. 주변 객체 관련 입력:

    • Agent Instance Features: ([N, F])
      • 주변 객체(동적 객체)들의 특징 정보를 나타내며, 인식 및 추적 모듈에서 추출됨
    • Agent Anchor Boxes: ([N, A])
      • 각 객체의 위치, 크기, 방향 등 기하학적 정보를 포함
    • Temporal Feature Memory (인스턴스 메모리 큐): ([N, Q, F])
      • 각 객체에 대해 과거 프레임의 특징(temporal cues)을 저장하여 시간적 일관성을 제공
  3. 정적 맵 요소 관련 입력:

    • Map Instance Features: ([M, F_{map}])
      • 정적 맵 요소(차선, 경계선, 횡단보도 등)의 특징
    • Map Anchor Polylines: ([M, L, 2])
      • 각 맵 요소를 나타내기 위한 다수의 점들(폴리라인)로 구성된 기하학적 표현
  4. 내부 쿼리 입력 (Planning/Motion Query):

  • planner의 디코더(또는 쿼리 모듈)의 입력으로 사용
    • Planning Mode Queries: ([M_{mode}, d])
    • (필요 시) Motion Prediction Queries: ([M'_{mode}, d])
      • 주변 객체에 대한 미래 궤적 예측을 위한 쿼리


output

  • 다중 모달 주행 궤적 (Shape: (M×T×DM \times T \times D)),
    • 차량 1대를 기준으로 이야기 하고 있는 것
  • 각 모드에 대한 신뢰도 스칼라 (Shape: (MM)),
  • 주행 명령 분류 결과 (Shape: (M×CM \times C)),
    • (CC): 주행 명령의 개수 (일반적으로 3, 즉 좌회전, 우회전, 직진)
  • 그리고 Ego 차량의 현재 상태 정보 (Shape: (SS))
    • Ego 차량의 현재 상태(예: 속도, 가속도, 각속도, 조향각 등)를 예측하여, Ego 차량의 특성을 보완하는 정보로 사용됩니다. 이는 특히 Ego 차량이 센서 사각지대에 있거나, 직접 관측할 수 없는 경우에 유용합니다.
    • (S): 상태 정보의 차원 (예를 들어, 4차원 – 속도, 가속도, 각속도, 조향각 등)
  • 부가설명
    • 이러한 출력들은 후처리 단계에서 계층적 계획 선택 전략(collision-aware rescore 등)을 거쳐 최종적으로 안전하고 합리적인 주행 경로가 결정




논문 요약

1. 개요 및 동기

  • 기존의 엔드투엔드 방식은
    • BEV(Bird’s Eye View)와 같이 밀집한(dense) 표현에 의존하여 계산 비용이 높고,
    • 예측 및 계획 설계가 다소 단순해 안전성 측면에서 한계
  • 이에 본 논문에서는 희소 표현(sparse representation) 개념을 도입하여,
    • 자율주행의 다양한 하위 작업을 희소한 표현을 기반으로 통합하여,
    • 계산 효율과 주행 안전성을 동시에 개선

2. 제안된 방법

2.1. Symmetric Sparse Perception

  • 통합적 접근:
    • 객체 검출, 트래킹, 온라인 맵핑을 하나의 대칭적인 네트워크 아키텍처로 통합
  • 희소 표현 학습:
    • 이미지와 다중 뷰 정보를 입력받아 중요한 인스턴스(동적 객체 및 정적 맵 요소)만을 선택적으로 추출
    • 이들을 희소한 형태의 표현으로 학습
  • 시간적 정보 활용:
    • 과거 프레임의 정보(temporal cues)를 활용하여 객체의 일관성(tracking)과 맵 정보를 보완

2.2. Parallel Motion Planner

  • 예측과 계획의 병렬 처리:
    • 주변 객체의 미래 경로 예측과 자차(ego) 주행 계획은 유사한 문제임을 고려해, 두 작업을 동시에 병렬로 처리
  • 다중 모달(multi-modal) 접근:
    • 여러 개의 주행 궤적 후보를 동시에 생성한 뒤,
    • 계층적(planning hierarchical) 선택 전략과 충돌 위험을 반영한 collision-aware rescore 모듈을 통해 안전하고 합리적인 최종 주행 경로를 선택
  • Ego 정보 보완:
    • Ego 차량은 카메라 사각지대에 해당하므로, 전면 카메라의 저해상도 피처를 보완 입력으로 사용하여,
      • 자차의 상태(위치, 방향, 속도 등)를 효과적으로 반영

4. 한계점 + 개선점

  • 더욱 복잡한 도로 상황 및 다양한 센서 융합 기법과의 결합, 그리고 실시간 클로즈드 루프(closed-loop) 평가를 통한 검증 필요



profile
ad_official

0개의 댓글