(문제점 제기)
(제안)
(결과)
우리 method는 기존의 detector KD methods를 일관적으로 능가하며,
homogeneous and heterogeneous(동질적 및 이질적) student-teacher pair 모두에서 작동한다.
게다가, 더 빠르게 수렴한다.
MaskRCNN-Swin detector를 teacher로 사용하여,
ResNet-50 based RetinaNet과 FCOS는 COCO2017에서 각각 41.5%와 43.9%의 mAP를 달성했으며,
이는 각각 baseline보다보다 4.1%와 4.8% 높다.
(Our implementation is available at https://github.com/open-mmlab/mmrazor.)
이 논문에서는,
FPN feature imitation이 heterogeneous(이질적인) student-teacher detector pairs에서도 knowledge를 성공적으로 distill할 수 있음을 경험적으로 확인했다.
그러나 teacher와 student의 feature 사이에서 MSE를 직접 minimizing하는 것은 sub-optimal results이며, 이는 Table 5.에 나와있다.유사한 결론이 여러 연구에서도 도출되었었다.
MSE의 limitations을 탐구하기 위해서, 우리는 Figure 1에 나타난 대로 teacher와 student의 FPN feature response를 정교하게 시각화했다.
구체적으로, -th FPN stage의 output feature 에 대해서,
각 pixel에서 dimension 에서 maximum value를 선택하고 2-D matrix를 얻는다.
그런 다음, 이러한 2-D matrices의 maximum and minimum values에 따라 값을 0-255로 normalize한다.
이러한 비교를 통해, 우리는 다음과 같은 observations을 얻었다 :
위 observations들에 따라서,
우리는 teacher와 student의 features 간의 lienar correlation에 중점을 두는 Knowledge Distilation via Pearson Correlation Coefficient(PKD)
를 제안한다. (Figure 2)teacher-student detector pair 간의 서로 다른 FPN stages와 channel 내의 magnitude difference로 인한 부정적인 영향을 제거하기 위해,
먼저 feature map을 zero mean and unit variances로 normalize하고
normalized features 간의 MSE loss를 minimize한다.
수학적으로 이는 두 original feature vectors 간의 Pearson Correlation Coefficient ()을 계산하고 을 feature imitation loss로 사용하는 것과 동일하다.
이전 방법들과 비교했을 때,
우리의 방법은 다음과 같은 장점을 제공한다.
Knowledge Distillation(KD)는 teacher model이 student model로 knowledge를 transferring하는 model compression and acceleration approach이다.
이는 [16]에 의해 대중화되었으며, 이후 image classification에서의 효과가 후속 연구들에 의해 탐구되었었다.
그러나 KD를 object detector에 적용하는 것은 nontrivial하다. (간단하지 않다)
student model에게 limited performance 향상만을 가져오기 때문이다.
이러한 문제를 해결하기 위해 기존의 methods에서는 다음 세 가지 strategies를 주로 채택했다.
이 Part에서, 우리는 object detection에 대한 traditional knowledge distillation을 간단히 요약한다.
최근에는 detection을 위해 rich spatial information을 처리하기 위해 multi-scale features에 대한 feature-based distillation이 채택되었다.
서로 다른 imitation masks 은 foreground features에 대한 attention mechanism을 형성하고 background의 noise를 없애기 위해 제안되었다.
그 objective는 다음과 같이 formulated될 수 있다 :
은 FPN layers의 개수이고,
은 -th FPN layer를 나타내고,
은 width 와 height 를 갖는 feature map에 대응하는 location을 나타낸다.
과 는 각각 student와 teacher detector의 -th layer를 나타낸다.
는 만약 teacher와 studnet 간에 channel 개수 mismatch가 있다면 channel 개수를 upsample하기 위한 convolution layer이다.
의 정의는 다음의 methods들과는 다르다.
예를 들어,
FRS [50]에서는 FPN layer에서 aggregated된 classification score map을 사용하고,
FGD [44]에서는 spatial attention, channel attention, object size and foreground-background information을 동시에 고려한다.
대부분의 기존 연구는 FPN에서 distillation을 수행한다.
FPN은 backbone의 여러 layer를 통합하고 multi-scale objects의 풍부한 spatial information을 제공하므로,
student model이 동일한 detection head와 label assignmetn를 가진 homogeneous(동일한) teacher model로부터 FPN feature를 imitate하게 하는 것이 합리적이다.
이는 better features가 better performance로 이어질 수 있기 때문이다.
그러나 heterogeneous(두) detectors 간의 distillation에 대한 연구는 여전히 부족하다.
[44, 50]은 heterogeneous backbones을 가진 detector에 대한 실험을 수행했으나, heterogeneous detection head와 different label assignment를 가진 detector는 항상 제외되었다.
따라서 우리는 이러한 heterogeneous detector pairs에서도 FPN feature imitation이 여전히 유효한지 탐구하게 되었다.
세 가지 popular detectors(GFLS, FCOS, RetinaNet)에서 backbone과 neck 교체 실험을 수행했다.
먼저, FCOS의 backbone과 neck을 12 epoch 동안 well-trained된 GFL의 backbone과 neck으로 교체했다.
feature-based distillation methods의 main idea는 teacher와 student의 feature activation을 직접 align(정렬)하는 것이므로,
이는 FCOS와 GFL 간의 feature imitation의 extreme case(극단적인 사례)로 간주될 수 있다.
그런 다음, 교체된 GFL backbone과 neck을 frozen한 상태에서 FCOS head를 finetuned했다.
실험 결과, GFL의 backbone과 neck으로 교체함으로써 detector의 성능이 36.5에서 37.6으로 향상되었다.
이는 FPN feature imitation이 heterogeneous 간에도 어느정도 적용 가능함을 확인해준다.
반면, RetinaNet의 backbone과 neck을 FCOS의 것으로 교체했을 때, FCOS head에서 group normalization으로 인한 feature value 크기 차이 때문에 mAP가 36.3에서 35.2로 크게 감소했다.
이는 두 heterogeneous detectors 간의 knowledge distillation에서 feature value의 크기 차이가 방해 요소가 될 수 있음을 의미한다.
feature map의 activation magnitude 차이로 인해 두 detector 간의 feature imitation이 힘들다는 intuition만 얻고 논문 리뷰를 중단한다.