

(Background)
현재, Tracking-by-detection은 MOT에서 most effective paradigm이다.
하지만 videos 내 complex scenarios 때문에, detector는 imperfect predictions을 만드는 경향이 있다.
SOTA MOT methods들은
low confidence detection boxes를 제거하기 위해
true positives / false positive trade-off 문제를 다뤄야 한다.
(motivation)
However, is it the right way to eliminate all low confidence detection boxes?
Our answer is NO: as Hegel said "What is reasonable is real; that which is real is reasonable."
이 관점에서, Low confidence detection boxes는 때때로 objects (occluded objects)의 existence를 나타내기도 한다.
low confidence detection boxes도 object에 대한 정보를 가지고 있으니, 이러한 boxes를 모두 filtering out하는 것은
irreversible errors for MOT와 non-negligible missing detection and fragmented trajectories를 유발하게 된다.
(proposition)

object detection의 빠른 발전으로 더 많고 powerful detectors가 high tracking performance를 달성하기 위해 활용되고 있다.
RetinaNet, CenterNet, YOLO series... 이러한 방법들은 tracking을 위한 a single image에 대한 detection boxes를 즉시 사용한다.
하지만, video sequence에서 발생하는 occlusion or motion blur가 발생하면
the number of missing detections and very low scoring detections이 증가하기 시작하여,
video object detection methods들도 제안되었다.
즉, previous frames들에 대한 정보는 보통 video detection performance를 향상시키기 위해 사용되기도 한다.
Location, motion and appearance는 association을 위한 useful cues이다.
SORT는 location과 motion cues를 아주 간단한 방식으로 결합한다.
SORT는 먼저 new frame에서 tracklets의 location을 predict하기 위해 Kalman filter를 적용하고
Kalman filter에 의해 predicted boxes와 detection boxes 간의 IoU를 similarity로 사용한다.
몇가지 최근 연구에서는 object motions을 학습하기 위한 networks를 design하고
large camera motion or low frame rate의 경우세어 more robust results를 달성했다.
location and motion similarity는 short-range matching에서 accurate하다.
Appearance similarity는 long-range matching에 유용하다.
어떤 한 object는 오랜 시간 동안 occluded된 후에도 appearance similarity를 활용하여 re-identified될 수 있다.
Appearance similarity는 Re-ID features의 cosine similarity에 의해 측정될 수 있다.
DeepSORT는 detection boxes로부터 appearance features를 extract하기 위한 stand-alone Re-ID model을 적용했다.
최근에, jointly detection and Re-ID models은 그들의 simplicity and efficiency로 인해 더 popular해지고 있다.
similarity computation 이후에, matching strategy는 objects에 identities를 할당한다.
이는 Hungarian Algorithm or greedy assignment에 의해 수행된다.
이러한 방법들은 how to design better association methods에 focus한다.
하지만 우리는 detection box를 어떻게 활용하느냐가 data association의 upper bound를 결정한다고 주장하고,
high scores부터 low scores까지의 모든 detection boxes를 matching process에서 어떻게 최대한 활용할지를 focus한다.









