dubbed(더빙된) BEVDepth
, for camera-based Bird’s-Eye-View (BEV) 3D object detection.camera-awareness depth estimation module
-> facilitate the depth predicting capability.a novel Depth Refinement Module
-> counter the side effects carried by imprecise feature unprojection.LSS (https://www.ecva.net/papers/eccv_2020/papers_ECCV/papers/123590188.pdf, ECCV, 300회 인용)
그러나 LSS 기반 인식 알고리즘의 성공에도 불구하고, 이 파이프라인 내에서 학습된 depth는 거의 연구되지 않았습니다.(Fig. 1 참조).
감지기는 nuScenes (Caesar et al. 2020) 벤치마크에서 30 mAP를 달성하였지만, 깊이는 놀랍도록 부족합니다.
이 관찰을 기반으로, 기존 Lift-splat에서의 깊이 학습 메커니즘이 다음과 같은 세 가지 결함을 가져온다고 지적합니다:
부정확한 깊이
Depth Module Over-fitting
Imprecise BEV Semantics
we introduce BEVDepth, a new multi-view 3D detector that leverages depth supervision derives from point clouds to guide depth learning.
우리는 깊이 품질이 전체 시스템에 미치는 영향을 철저히 분석한 최초의 팀.
동시에 we innovatively propose to encode camera intrinsics and extrinsics
into a depth learning module
In the end,a Depth Refinement Module
is introduced to refine the learned depth.
Efficient Voxel Pooling
+ Multi-frame Fusion technique
LSS
(2020)는 proposes a view transform method
that explicitly predicts depth distribution and projects image features onto a bird’s-eye view (BEV), which has been proved practical for 3D object detection.BEV-Former (Li et al. 2022b)
는 지역적인 어텐션과 그리드 형태의 BEV 쿼리를 사용하여 2D에서 3D로 변환합니다.segmentation head in LSS (2020)
with CenterPoint head(2021) for 3D detection.
Dpred
with a random initialized tensor the depth used for unprojecting features
가 심각하게 손상되었더라도, unproject to the right depth position
하는데 도움이 되어 -> 합리적인 mAP를 얻을 수 있다고 가정합니다. image sizes
, camera parameters
, etc.to model the camera intrinsics
into DepthNet. Squeeze-and-Excitation
(Hu, Shen, and Sun 2018) module. Existing Voxel Pooling in Lift-splat leverages a “cumsum trick” that involves a “sorting” and a “cumulative sum” operations.
by assigning each frustum feature a CUDA thread that is used to add the feature to its corresponding BEV grid.
우리는 다른 프레임의 frustum 특징의 좌표를 현재 ego 좌표 시스템으로 정렬하여 ego-motion 의 영향을 제거한 후 Voxel Pooling을 수행합니다.