Paper : https://arxiv.org/pdf/2004.01888v4.pdf
Github : https://github.com/ifzhang/FairMOT
MOT(Multi-Object Tracking)는 컴퓨터 비전 분야에서 longstanding goal 이다. MOT의 목적은 연속적인 프레임에서 여러 관심 객체의 궤적을 추정하는 것이다. 객체의 궤적을 잘 추적하게 되면 Action Recognition, Sport Videos Analysis, Elderly Care, Human Computer Interaction 와 같은 분야에서 널리 응용 될 수 있다.
이러한 최근의 Object Detection 및 Re-ID 기술들이 발전함에 따라 추적 성능이 향상되고 있지만 이러한 두 단계 끼리 특징을 공유하지 않기 때문에 실시간 성능을 보장할 수 없다는 문제를 가진다. 최근 멀티 태스킹 학습 방식이 떠오름에 따라 객체를 탐지하고, Re-ID 특징까지 학습하는 One-Shot 방법이 나타나기 시작했다. 대부분의 특징이 두 모델에 공유되기 때문에 추론 시간을 크게 줄일 수 있다. 그러나 이러한 One-Shot 방법의 정확도는 Two-step 방법에 비해 현저히 떨어진다는 단점을 갖는다. 그래서 이 두 작업을 결합할 때, "어떠한 트릭"을 사용하여 정확도를 높이는 방식으로 학습해야한다.
MOT 정확도에 영향을 미치는 세 가지 중요한 요소는 다음과 같다.
(1) Anchors don't fit Re-ID
현재 one-shot tracker 는 모두 객체 탐지기 기반이기 때문에 anchor 를 기반으로 하고있다. 그러나 anchor 는 Re-ID 특징을 학습하는데 적합하지 않다. 왜냐하면 서로 다른 이미지 패치에 해당하는 multiple anchors 가 동일한 객체의 identity 를 추정할 필요가 있는데, 이로 인해 신경망에 심각한 ambiguity 가 발생 하기 때문이다. 즉, 주변에 다른 객체를 나타내는 여러 anchor 들은 학습 시 모호성을 줄 수 있다. 또한 feature map은 일반적으로 정확도와 속도의 trade off 를 위해 8번씩 down-sampling 된다. 이는 객체 중심이 객체의 identity 를 예측하기 위해 coarse anchor 위치에서 추출된 특징과 align 되지 않을 수 있기 때문에 탐지에는 적합하지만, Re-ID 에는 너무 coarse 하다는 문제점을 가진다. 따라서 high-resolution feature map 의 top 에서 픽셀 방식의 keypoint estimation (object center) 추정 및 identity classification 를 통해 이러한 문제를 해결한다.
(2) Multi-Layer Feature Aggregation
Re-ID 특징은 small 및 large 객체들을 모두 accommodate 하기 위해 low-level 및 high-level 특징들을 모두 활용해야한다. 본 논문에서는 스케일 변화를 처리하는 능력을 향상 시켜 one-shot 방법 기반으로 identity switch 를 줄였다. two-step 방법의 경우 cropping 및 resizing 작업 후 물체의 스케일이 비슷해진 채로 적용되기 때문에 스케일 문제를 개선 시킬 필요가 없다.
(3) Dimensionality of the ReID Features
이전의 Re-ID 방법들은 일반적으로 high dimensional feature 들을 학습하고, 벤치마크에서 좋은 결과를 얻어왔다. 하지만 본 논문에서는 Re-ID 보다 학습 이미지가 적기 때문에(Re-ID 데이터 세트는 잘린 이미지 만 제공하기 때문) lower-dimensional feature 가 MOT에 실제로 더 좋다는 사실을 발견하였다. 이러한 lower-dimensional feature 를 사용하면 small data 에 대한 overfitting 을 줄이고, tracking robustness 를 향상 시킬 수 있다.
먼저, anchor-free obejct detection 방법을 통해 high-resolution feature map에서 object center 를 추정한다. anchor 를 제거하게 되면 ambiguity 문제가 완화되고, high-resolution feature map 을 사용하여 Re-ID 특징을 object center 에 더 잘 align 시킬 수 있다. 그 다음 객체의 identity 를 예측하는데 사용되는 픽셀 단위의 Re-ID 특징을 추정하기 위해 parallel branch 를 추가한다. 특히 계산 시간을 단축할 뿐만 아니라 feature matching 의 robustness 를 향상시키는 low-dimensional Re-ID 특징을 학습하게 된다. 본 논문에서는 backbone 에 Deep Layer Aggregation operator 를 사용하여 다양한 스케일의 객체를 처리하기 위해 여러 레이어의 특징들을 통합한다.
MOT Chanllenge 벤치 마크에 대해 평가 한 결과 2DMOT15, MOT16, MOT17, MOT20 데이터 세트에서 all online tracker 중에서 1위를 차지하였다. 또한, offline tracker 보다 성능이 뛰어나다. 이러한 접근 방식은 매우 simple 하며, 30 FPS 로 동작한다.
2.1 Backbone Network
정확도와 속도의 trade-off 를 위하여 ResNet-34 를 백본으로 설정하였다. 다양한 스케일의 객체를 수용하기 위해 Deep Layer Aggregation(DLA)이 백본에 적용된다. original DLA와는 달리, Feature Pyramid Network(FPN) 와 유사한 low-level 및 high-level feature 간에 더 많은 skip connection 이 존재한다. 또한 up-sampling 모듈의 모든 컨볼루션 레이어는 deformable convolution layer 로 대체되어 객체 스케일 및 포즈에 따라 receptive field 를 동적으로 조정할 수 있다. 이러한 변경 사항은 align 문제를 완화 하는데 도움을 줄 수 있다. 이 모델의 이름은 DLA-34 로 정한다. 입력 이미지의 크기를 H x W 라고 하면 output feature map 의 모양은 C x H' x W' 이며, 이 때 H' 는 H/4 이며, W'는 W/4 이다.
2.2 Object Detection Branch
객체 탐지는 high-resolution feature map 에서 center-based 의 bounding box regression task 를 수행한다. 특히 3개의 parallel regression head 가 백본 신경망에 추가되어 각각 heatmap, object center offset, bounding box size 를 추정한다. 각 head 는 3x3 conv(256 channel) 을 백본 신경망의 output feature map에 적용한 다음, final target 을 생성하는 1x1 conv 를 적용하여 구현된다.
Heatmap Head
Center Offset
Box Size Head
2.3 dentity Embedding Branch
identity embedding branch 의 목표는 다른 객체와 구별할 수 있는 특징을 생성하는 것이다. 이상적으로는 서로 다른 객체 사이의 거리가 같은 객체 사이의 거리보다 커야한다. 즉, 같은 객체는 다른 프레임 상에서의 위치가 가까이 붙어있는 편이 이상적이다. 다른 객체와 구별할 수 있는 특징을 생성하기 위해 백본 특징 위에 128개의 커널이 포함된 conv layer 를 적용하여 각 위치에 대한 identity embedding feature 를 추출한다. output feature map 인 E 는 128 x W x H 영역에 포함되며, Re-ID feature 인 x, y 에서의 E 는 128에 속하고, 객체의 x, y 는 feature map 으로부터 추출된다.
2.4 Loss Function
Heatmap Loss
Offset and Size Loss
Identity embedding Loss
2.5 Online Tracking
Network Inference
Online Box Linking
3.1 Implementation Details
Zhou, Xingyi, Dequan Wang, and Philipp Krähenbühl. "Objects as points." arXiv preprint arXiv:1904.07850 (2019).
위 논문에서 제안한 DLA-34 의 변형을 기본 백본 신경망으로 사용한다. COCO detection dataset 에서 사전 학습 된 모델 파라미터는 모델을 초기화 하는데 사용된다. 또한 Adam optimizer 를 통해 모델을 30 epoch 에 대해 learning rate 1e-4 로 설정하여 학습시켰다. 학습 속도는 20 and 27 epoch 에서 1e-5 및 1e-6 으로 감소한다. 배치 크기는 12로 설정되며, rotation, scaling 및 color jittering 을 포함한 augmentation 을 적용하였다. 입력 이미지의 크기가 1088 x 608 로 조정되고 feature map resolution 은 272 x 152 이다. 두 개의 RTX 2080 GPU를 이용한 학습은 약 30 시간이 소요된다.
3.2 Ablative Study
Anchor-based vs. Anchor-free
Evaluation of the anchor-based and anchor-free methods on the validation videos of the MOT15 dataset. The large training dataset is used and all models are trained for 10 epochs. ↑ means the larger the better and ↓ means the smaller the better. The best results are in bold.
Multi-Layer Feature Aggregation
The Re-ID Feature Dimension
이전 연구에서는 보통 ablation study 없이 512 dimensional feature 를 학습한다. 그러나 실험에서 feature dimension 이 중요한 역할을 한다는 것을 찾아냈다. 일반적으로 overfitting 을 피하기 위하여 high-dimensional Re-ID feature 를 학습하려면 대량의 학습 이미지가 필요하다. 이전의 two-step 접근 방식은 crop 된 이미지로 이루어진 대규모의 데이터 세트를 활용할 수 있기 때문에 이러한 문제가 덜 발생했으나, one-shot 방식은 자르지 않은 원본 이미지를 필요로 하기 때문에 이와 같은 데이터를 사용할 수 없다. 이를 위한 솔루션으로는 Re-ID 특징의 dimension 을 줄여 데이터에 대한 의존성을 줄일 수 있다.
3.3 The State-of-the-arts
One-Shot MOT Methods
One-shot MOT 방법인 JDE 및 TrackRCNN 의 방법과 비교한 결과는 아래와 같다. 추론 속도는 모두 실시간 성능을 보장한다.
- Wang, Zhongdao, et al. "Towards real-time multi-object tracking." arXiv preprint arXiv:1909.12605 (2019).
- Voigtlaender, Paul, et al. "MOTS: Multi-object tracking and segmentation." Proceedings of the IEEE conference on computer vision and pattern recognition. 2019.
Two-Step MOT Methods
two-step 기반 방법들과 비교한 결과는 다음과 같다. public detection result 를 사용하지 않기 때문에 "private detector" protocol 을 사용한다. 테스트 하기 전에 각 데이터 세트에서 10 epoch 에 대한 모델을 fine-tuning 한다. 모든 결과는 MOT challenge evaluation server 에서 얻고, 본 논문의 접근 방식은 2DMOT15, MOT16, MOT17, MOT20 데이터 세트에서 1위를 차지한다. 본 논문의 접근 방식이 매우 간단한 점을 고려해봤을 때 매우 좋은 결과를 나타낸다. 또한 RAR15 및 POI 와 같은 고성능 tracker 는 본 논문의 방법보다 느리다.
one-shot multiple object tracking 을 위한 simple baseline 을 제시하였다. 본 논문에서는 이전의 one-shot 방식에서 two-step 방식과 비교할만한 결과를 못얻는지에 대한 연구부터 시작하였으며, object detection 및 Re-ID 에 anchor 를 사용하는 것이 성능을 저하시킨다는 것을 발견하였다. 특히 객체의 다른 부분에 해당하는 여러개의 주변 anchor 들은 신경망 훈련에 모호성을 유발한다. 또한 본 논문의 tracker 는 30 fps 를 달성하며, anchor-free 방식의 SOTA tracker 를 제시하였다.
출처: https://eehoeskrap.tistory.com/447 [Enough is not enough]