
자율 주행에서 HD 맵의 중요성과 구축의 어려움(높은 주석 비용, 유지 보수)기존 온라인 맵 학습 방식인 맵 요소 감지(기하학적 정보 중심)와 중심선 인식(위상학적 정보 중심)의 한계를 지적두 방식 모두 도로 구조에 대한 완전한 정보를 제공하지 못하며, 이를 보완하기

저자들은 기존 end-to-end autonomous driving(E2E-AD)이 open-loop에서는 좋아 보여도, 실제 주행 시뮬레이션에 가까운 closed-loop 평가 성능은 아직 부족하다고 본다. 이를 해결하기 위해 두 가지를 제안한다.첫째, multi-g

기존 스마트 에이전트 시뮬레이터는 대체로 과거를 인코딩하고 미래를 디코딩하는 encoder-decoder 구조를 쓰는데, 저자들은 이 방식이 구조를 복잡하게 만들고, history/future를 인위적으로 나누기 때문에 데이터 활용도도 낮다고 봄그래서 모든 시점을 대칭

이 논문은 대형 VLM을 그대로 자율주행에 쓰면 GPU 메모리 사용량과 latency가 너무 크고, 반대로 작은 모델을 단순 SFT (Supervised Fine-Tuning) 만으로 학습하면 capability gap이 잘 안 메워진다는 문제에서 출발함이를 해결하기

기존 방법들이 과거 정보를 활용하더라도 motion planning에 충분히 반영하지 못하거나, 각 query가 하나의 trajectory 단위로 구성되어 있어 미래 여러 시점을 세밀하게 다뤄야 하는 planning 특성과 맞지 않음을 지적함. 이를 해결하기 위해 Br

저자들은 모듈형 자율주행이 perception-prediction-planning 사이에서 정보 손실과 error accumulation을 만든다고 보고, end-to-end 방식이 더 planning-oriented 하게 최적화될 수 있다고 봄. 하지만 기존 E2E

0. Abstract 기존 Transformer 기반 자율주행 모델은 attention의 계산량이 sequence 길이에 대해 quadratic 이라서, LiDAR point cloud, multi-view image, temporal sequence처럼 token