Abstract
- 기존의 tracking-by-detection 방식은 re-identification, motion prediction, dealing with occlusion의 task를 포함한다.
- 본 논문에서는 bounding box regression을 활용하여 기존의 불필요한 task들을 없애고자 한다.
- Tracktor는 tracking data에 대해 학습이나 최적화가 불필요하다.
Introduction
- Tracking-by-detection에서는 1)각 프레임에서 독립적으로 객체의 위치를 탐지하고, 2)track을 상응하는 detection에 연결시켜주는 data association 과정을 거친다.
- 하지만 missing detection, occlusions 혹은 붐비는 환경에서의 타겟의 상호관계 등 때문에 MOT 분야는 지난 2년간 큰 발전을 이루지 못했다.
- 본 논문에서는 Faster-RCNN의 regressor를 사용하여 기존의 복잡한 방식이 불필요함을 보인다.
Contributions
- regression head를 사용하여 MOT를 해결하는 Tracktor를 제안하여 SOTA를 달성하였다.
- re-identification Siamese network와 motion model을 제안한다.
- 어려운 상황과 실패 케이스들에 대한 결과 다른 모델보다 우수한 성능을 보임을 증명한다.
- detector를 이용하는 새로운 tracking 패러다임을 제기한다.
A detector is all you need
본 논문에서는 detector만을 사용하며 이를 tracktor라 칭한다.
Object detector
- RPN을 활용하여 anchor box들을 생성한다.
- RoI로부터 피쳐맵을 뽑아 classification과 regression head로 보낸다.
- classification head에서는 score를 얻을 수 있으며, 이는 해당 영역이 보행자일 가능도를 나타낸다. regression head에서는 바운딩 박스의 좌표를 리턴한다.
- NMS를 통해 최종적인 detection을 얻는다.
Tracktor
Tk={bt1k,bt2k,⋯}: k객체에 대한 tn프레임에서의 바운딩 박스 trajectory
Bk={btk1,btk2,⋯}: t프레임에서의 모든 객체들에 대한 바운딩 박스
D0={d01,d02,⋯}: 0프레임에서의 Detections
- t=0일 때, D0=B0으로 tracker가 시작된다.
- t>0에서는 box regression과 track initialization이 모두 수행된다.
Bounding box regression
- bt−1k를 통해 btk를 regression한다.
- t−1 프레임에서의 좌표를 anchor box로 활용하여 Faster R-CNN의 RoI pooling을 거친 후 regression head로 보내준다.
- trajectory를 비활성화하는 두 가지 경우
- object가 화면에서 벗어나거나 non-object에 의해 가려지는 경우
- object 간의 occlusion이 발생하여 NMS를 적용하였을 때 삭제되는 경우
Bounding box initialization
- 새로 나타난 객체를 tracking 하기 위해 Dt가 주어진다.
- 이미 활성화된 btk와의 IOU가 λnew보다 작은 경우에만 추가된다.(기존에 tracking 된던 객체와는 무관함을 의미하므로)
Tracking extensions
기존의 ID를 유지하기 위한 알고리즘으로 motion model과 re-identification이 제안된다.
Motion model
- Regression을 위해 본 논문에서는 각 프레임에서 객체의 미세한 움직임만이 존재함을 가정하였다.
- 위 가정을 헤칠 수 있는 1)large camera motion과 2)low video frame rates라는 두 가지 시나리오에 대응하기 위해 motion model이 필요하다.
- 전자의 경우, ECC(Enhanced Correlation Coefficient) 최대화에 의한 CMC(Camera Motion Compensation)을 적용.
- 후자의 경우, CVA(Constant Velocity Assumption)을 적용.
* ECC(Enhanced Correlation Coefficient)
템플릿과 비교할 이미지의 상관계수를 최대화하는 transformation matrix를 추정하는 방법
Re-identification
- Siamese neural network에 의해 생성된 appearance 벡터를 기반으로 한 short-term re-identification(reID)
- 저장해두었던 비활성화된 객체와 새롭게 detection된 객체의 embedding space distance를 계산하여 reID를 수행한다.
- false reID를 방지하기 위해 두 객체의 IOU가 충분히 클 때만 고려한다.
* Siamese neural network
가중치가 공유되는 네트워크를 활용하여 두 이미지에서 임베딩 벡터를 추출한 뒤 거리를 비교하여 동일한 이미지인지 판단한다.
References