[논문 리뷰] Tracktor: Tracking without bells and whistles

김경준·2021년 9월 20일
0

논문

목록 보기
11/37

Abstract

  • 기존의 tracking-by-detection 방식은 re-identification, motion prediction, dealing with occlusion의 task를 포함한다.
  • 본 논문에서는 bounding box regression을 활용하여 기존의 불필요한 task들을 없애고자 한다.
  • Tracktor는 tracking data에 대해 학습이나 최적화가 불필요하다.

Introduction

  • Tracking-by-detection에서는 1)각 프레임에서 독립적으로 객체의 위치를 탐지하고, 2)track을 상응하는 detection에 연결시켜주는 data association 과정을 거친다.
  • 하지만 missing detection, occlusions 혹은 붐비는 환경에서의 타겟의 상호관계 등 때문에 MOT 분야는 지난 2년간 큰 발전을 이루지 못했다.
  • 본 논문에서는 Faster-RCNN의 regressor를 사용하여 기존의 복잡한 방식이 불필요함을 보인다.

Contributions

  1. regression head를 사용하여 MOT를 해결하는 Tracktor를 제안하여 SOTA를 달성하였다.
  2. re-identification Siamese network와 motion model을 제안한다.
  3. 어려운 상황과 실패 케이스들에 대한 결과 다른 모델보다 우수한 성능을 보임을 증명한다.
  4. detector를 이용하는 새로운 tracking 패러다임을 제기한다.

A detector is all you need

본 논문에서는 detector만을 사용하며 이를 tracktor라 칭한다.

Object detector

  1. RPN을 활용하여 anchor box들을 생성한다.
  2. RoI로부터 피쳐맵을 뽑아 classification과 regression head로 보낸다.
  3. classification head에서는 score를 얻을 수 있으며, 이는 해당 영역이 보행자일 가능도를 나타낸다. regression head에서는 바운딩 박스의 좌표를 리턴한다.
  4. NMS를 통해 최종적인 detection을 얻는다.

Tracktor

Tk={bt1k,bt2k,}T_k = \{b^k_{t_1}, b^k_{t_2}, \cdots\}: kk객체에 대한 tnt_n프레임에서의 바운딩 박스 trajectory
Bk={btk1,btk2,}B_k = \{b^{k_1}_t, b^{k_2}_t, \cdots\}: t프레임에서의 모든 객체들에 대한 바운딩 박스
D0={d01,d02,}D_0 = \{d^1_0, d^2_0, \cdots\}: 0프레임에서의 Detections

  • t=0일 때, D0=B0D_0 = B_0으로 tracker가 시작된다.
  • t>0에서는 box regression과 track initialization이 모두 수행된다.

Bounding box regression

  • bt1kb^k_{t-1}를 통해 btkb_t^k를 regression한다.
  • t1t-1 프레임에서의 좌표를 anchor box로 활용하여 Faster R-CNN의 RoI pooling을 거친 후 regression head로 보내준다.
  • trajectory를 비활성화하는 두 가지 경우
    • object가 화면에서 벗어나거나 non-object에 의해 가려지는 경우
    • object 간의 occlusion이 발생하여 NMS를 적용하였을 때 삭제되는 경우

Bounding box initialization

  • 새로 나타난 객체를 tracking 하기 위해 DtD_t가 주어진다.
  • 이미 활성화된 btkb_t^k와의 IOU가 λnew\lambda_{new}보다 작은 경우에만 추가된다.(기존에 tracking 된던 객체와는 무관함을 의미하므로)

Tracking extensions

기존의 ID를 유지하기 위한 알고리즘으로 motion model과 re-identification이 제안된다.

Motion model

  • Regression을 위해 본 논문에서는 각 프레임에서 객체의 미세한 움직임만이 존재함을 가정하였다.
  • 위 가정을 헤칠 수 있는 1)large camera motion2)low video frame rates라는 두 가지 시나리오에 대응하기 위해 motion model이 필요하다.
  • 전자의 경우, ECC(Enhanced Correlation Coefficient) 최대화에 의한 CMC(Camera Motion Compensation)을 적용.
  • 후자의 경우, CVA(Constant Velocity Assumption)을 적용.

* ECC(Enhanced Correlation Coefficient)
템플릿과 비교할 이미지의 상관계수를 최대화하는 transformation matrix를 추정하는 방법

Re-identification

  • Siamese neural network에 의해 생성된 appearance 벡터를 기반으로 한 short-term re-identification(reID)
  • 저장해두었던 비활성화된 객체새롭게 detection된 객체embedding space distance를 계산하여 reID를 수행한다.
  • false reID를 방지하기 위해 두 객체의 IOU가 충분히 클 때만 고려한다.

* Siamese neural network
가중치가 공유되는 네트워크를 활용하여 두 이미지에서 임베딩 벡터를 추출한 뒤 거리를 비교하여 동일한 이미지인지 판단한다.

References

0개의 댓글