Monocular 3D object detection (Image Based)

jaeha_lee·2022년 4월 27일
0
  • 3D Object Detection from Images for Autonomous Driving: A Survey
    Link
    성능 및 git
  • Delving into Localization Errors for Monocular 3D Object Detection
    Link

어려운 점

  • 2D 이미지에서 Depth를 뽑는게 쉽지 않음

Paper

  • 이 분야 첫 논문들
    [1] X. Chen, K. Kundu, Y. Zhu, A. G. Berneshawi, H. Ma, S. Fidler,
    and R. Urtasun, “3d object proposals for accurate object class
    detection,” in NeurIPS, 2015. 1, 2, 5, 17
    [2] X. Chen, K. Kundu, Z. Zhang, H. Ma, S. Fidler, and R. Urtasun,
    “Monocular 3d object detection for autonomous driving,” in CVPR,
    2016. 1, 5, 17

  • 2022 년 최신 논문
    [3] Z. Chong, X. Ma, H. Zhang, Y. Yue, H. Li, Z. Wang, and W. Ouyang,
    “Monodistill: Learning spatial features for monocular 3d object
    detection,” in ICLR, 2022. 1, 9, 10, 12, 14, 15, 17
    [4] L. Peng, S. Yan, B. Wu, Z. Yang, X. He, and D. Cai, “Weakm3d:
    Towards weakly supervised monocular 3d object detection,” in
    ICLR, 2022. 1, 17, 20

Dataset

  • 이 분야 성능 측정할 때
    • KITTI는 2D BBOX를 찾아야 하고
    • nuScenes는 velocity/attribute도 알아야 함.
    • 주로 KITTI 3D, nuScenes, Waymo 데이터 셋을 많이 사용
      KITTI : front view / 1280 384 / train : 7481 (train 3712, val 3769), test : 7518
      nuScenes : 360 ◦ / 1600 1280 / 28130 ( train 6019, val 6008)
      Waymo : 360 ◦ / 1920 1280 / train : 122,200, val 30,407 test : 40,077 / nuScenes는 5배 빠른 주사율 사용

  • 이 분야의 경우 auxiliary data를 쓰는 경우도 많음. (보조 데이터)

Evaluation Metrics

  • AP
  • r=TP/(TP+FN)r = TP / (TP+FN) = (맞은 것)/(GT) ,   p=TP/(TP+FP)p = TP / (TP+FP) = (맞은 것)/(예측) -
  • KITTI : AOS(Average Orientation Similarity) 라는 지표. Orientation estimation의 정확도를 평가함. IOU만 비교하면 겹쳐진 것만 비교하기 때문에 3D BBox에서는 부적합. 카메라와의 틀어진? 각도까지 고려해서 평가함.
  • Waymo : Average Precision weighted by Heading (APH)
  • nuScenes : ATE, ASE, AOE, AVE, AAE

0개의 댓글