Monocular 3D object detection (Image Based)
- 3D Object Detection from Images for Autonomous Driving: A Survey
Link
성능 및 git
- Delving into Localization Errors for Monocular 3D Object Detection
Link
어려운 점
- 2D 이미지에서 Depth를 뽑는게 쉽지 않음
Paper
- 이 분야 첫 논문들
[1] X. Chen, K. Kundu, Y. Zhu, A. G. Berneshawi, H. Ma, S. Fidler,
and R. Urtasun, “3d object proposals for accurate object class
detection,” in NeurIPS, 2015. 1, 2, 5, 17
[2] X. Chen, K. Kundu, Z. Zhang, H. Ma, S. Fidler, and R. Urtasun,
“Monocular 3d object detection for autonomous driving,” in CVPR,
2016. 1, 5, 17
- 2022 년 최신 논문
[3] Z. Chong, X. Ma, H. Zhang, Y. Yue, H. Li, Z. Wang, and W. Ouyang,
“Monodistill: Learning spatial features for monocular 3d object
detection,” in ICLR, 2022. 1, 9, 10, 12, 14, 15, 17
[4] L. Peng, S. Yan, B. Wu, Z. Yang, X. He, and D. Cai, “Weakm3d:
Towards weakly supervised monocular 3d object detection,” in
ICLR, 2022. 1, 17, 20
Dataset
- 이 분야 성능 측정할 때
- KITTI는 2D BBOX를 찾아야 하고
- nuScenes는 velocity/attribute도 알아야 함.
- 주로 KITTI 3D, nuScenes, Waymo 데이터 셋을 많이 사용
KITTI : front view / 1280 384 / train : 7481 (train 3712, val 3769), test : 7518
nuScenes : 360 ◦ / 1600 1280 / 28130 ( train 6019, val 6008)
Waymo : 360 ◦ / 1920 1280 / train : 122,200, val 30,407 test : 40,077 / nuScenes는 5배 빠른 주사율 사용
- 이 분야의 경우 auxiliary data를 쓰는 경우도 많음. (보조 데이터)
Evaluation Metrics
- AP
- r=TP/(TP+FN) = (맞은 것)/(GT) , p=TP/(TP+FP) = (맞은 것)/(예측) -
- KITTI : AOS(Average Orientation Similarity) 라는 지표. Orientation estimation의 정확도를 평가함. IOU만 비교하면 겹쳐진 것만 비교하기 때문에 3D BBox에서는 부적합. 카메라와의 틀어진? 각도까지 고려해서 평가함.
- Waymo : Average Precision weighted by Heading (APH)
- nuScenes : ATE, ASE, AOE, AVE, AAE