면접 준비를 위해 Monocular Depth Esimaton (MDE)
과 Multi Obeject Tracking (MOT)
논문들을 읽으며 Camera 포즈를 구함으로 성능을 향상시키려는 노력들이 굉장히 많다는 것을 느꼈다.
MOT 데이터 셋으로 MOT17 MOT20 같은 MOT 챌린지 데이터 셋을 사용하며, 현재 BoT SORT 모델이 1등이다.
SORT 계열의 트랙커는 칼만필터와 헝가리안 알고리즘을 사용한다는 공통점이 있으며, Prediction과 Update에는 칼만필터를, t-1 시점의 결과와 t 시점의 결과를 매칭 시키는 data association에는 헝가리안 알고리즘을 사용한다.
보통 Objection Detection에서 사용되는 IOU 개념을 매칭하는데 사용하지만, 이 경우 급격하게 카메라 포즈가 달라지는 경우 매칭 fail이 발생하는 단점이 존재하여, Camera Motion까지 사용해 보정하는 Camera Motion Compensation (CMP)을 사용한다고 한다.
MDE 계열은 어텐션과 트랜스포머를 사용하는 움직임이 매우 강하다. 여기서 현재 SOTA 모델인 PixelFormer는 Skip connection 개념과 Attention 개념을 합친 Skip Attention Module을 사용해 인코더 디코더의 특징의 잘 합친 컨셉을 제시하였다.
하지만, ModeDEVSNet이나 MonoDepth 계열의 카메라 포즈를 추정해 뎁스 추정을 더 잘하려는 컨셉들도 제시 되 카메라 포즈도 결국 모든 컴퓨터 비전 도메인의 딥러닝 성능을 향상 시키는 것 같다.