최근 센서 융합 3D 객체 검출은 point-level fusion을 기반카메라 이미지의 semantic features를 LiDAR 포인트 클라우드의 최전면에 칠하는 방법으로 LiDAR 기반 객체 검출을 수행camera-to-LiDAR projection은 각 형식의
최근 몇년간 large-scale vision transformer(ViT)의 연구에 큰 진전이 있었으나, CNN 기반 large-scale model은 초기 상태에 머뭄InternImage 새로운 large-scale CNN-based foundation model증