Camera와 LiDAR를 Calibration하는 방법에는 여러가지가 있습니다.
SLAM에서 센서의 장단점이 있기 때문에 함께 사용해야할 경우가 많습니다.
센서 출력을 직접 결합
LiDAR 포인트를 카메라 좌표계로 변환 후 색정보 매핑
장단점
장점: 정보 손실이 적음
단점: 노이즈에 취약, 실시간성이 떨어짐
각 센서에서 feature를 추출 후 결합
ex) 이미지에서는 CNN feature, LiDAR에서는 BEV/ voxel feature 추출
BEV 공간에서 두 feature map을 align하여 concat/attention
또는 voxel grid 기반에서 multimodal encoder 설계 (DeepFusion/VoxelFusion/MVXNet 등)
장단점
장점: 유연한 설계 가능, 시멘틱 정보 포함 가능
단점: feature alignment가 어려움(공간 해상도 차이 존재)
카메라와 LiDAR 각각 처리 그 결과를 결합
ex) LiDAR에서 bbox, 카메라에서 classification late fusion
대표 방식
NMS 후 결과 병합
카메라와 LiDAR의 예측 결과를 후처리로 통합
장단점
장점: 독립성 확보, 통합이 간단
정보 공유가 제한됨
보통 slam을 할 때는 low-level로 결합을 하는 것 같습니다.
실시간 성이 떨어진다고는 하는데 센서의 위치만 변하지 않는다면 한번 계산해놓고 계속 쓸 수 있어서
큰 문제가 될 것 같진 않습니다. 그럼 20000