[RSH #2] Distilling Object Detectors with Fine-grained Feature Imitation

윤하은·2024년 1월 16일

CV machine learning

Robocup Soccer Humanoid

목록 보기

2/4

Paper: https://arxiv.org/abs/1906.03609

GitHub: https://github.com/twangnh/Distilling-Object-Detectors

💡 로 표시된 부분은 제가 이해한 내용을 적은 부분입니다. 오류가 있다면 댓글로 남겨주세요 🙏🏻

Abstract

KD(knowledge distillation)는 작은 학생 모델이 교사 모델의 출력을 모방하여 개선된 일반화를 얻도록 하는 것이다. 그러나 관련된 방법들은 주로 분류와 같은 간단한 작업에 중점을 두며 객체 검출과 같은 복잡한 작업을 고려하지 않는다.

검출 모델에서 지식을 증류하기 위해 feature response의 cross-location discrepancy를 이용한 미세한 특징 모방 방법을 제안한다. 직관은 검출기가 지역 근처의 객체 영역에 더 관심을 가진다는 것이다.

따라서 근처 객체 앵커 위치의 feature response의 차이는 교사 모델의 일반화 방식에 대한 중요한 정보를 나타낸다. 이러한 위치를 추정하기 위한 새로운 메커니즘을 설계하고 학생 모델이 성능을 향상시키기 위해 그곳에서 교사를 모방하도록 한다.

1. Introduction

이전 연구들은 quantization 및 pruning에 중점을 두었다. 그러나 이러한 접근 방식들은 실용적인 가속을 얻기 위해 전용 하드웨어 또는 소프트웨어 사용자 정의가 필요할 수 있다.

직접 작은 모델을 end-to-end로 배우기 위한 방법은 KD다. 학생 모델은 더 강력한 교사 네트워크의 행동을 학습하여 향상된 일반화를 얻는다. 그러나 이전의 KD에 관한 연구들은 주로 분류에 중점을 두며 객체 검출을 거의 고려하지 않았다. 검출 모델은 몇 개의 클래스만 포함할 수 있으며, 여기에서는 교사의 출력의 클래스 간 유사성에서 적은 양의 지식만 추출할 수 있다.

또한 검출은 분류에 추가로 신뢰성 있는 위치 지정이 필요하며, 일반적인 KD는 위치 지식을 증류하기에는 적합하지 않다. 뿐만 아니라 전경 및 배경 인스턴스의 극심한 불균형으로 바운딩 박스 주석이 적다. 본 논문에서 단순히 KD 손실을 추가하는 것은 학생에게는 소량의 향상만 주는 것을 발견했다.

KD와 유사하게 hint learning은 교사 및 학생 모델의 전체 고수준 특징의 차이를 최소화하여 학생 모델의 성능을 향상시킨다. 그러나 직접 힌트 학습을 검출 모델에 적용하면 성능이 저하되는 것을 발견했다.

이는 검출기가 지상 실제 객체와 겹치는 지역에 더 관심을 가지는 반면, 분류 모델은 전역 컨텍스트에 더 많은 주의를 기울이기 때문이다. 따라서 전체 특징 모방을 직접 수행하면 배경 인스턴스가 압도적이고 다양한 객체 검출과 관련이 없는 영역에서 많은 노이즈가 도입될 수밖에 없다.

fine-grained feature imitation

KD에서 다른 클래스 간의 상대 확률은 교사 모델이 일반화하는 방식에 대해 많은 정보를 제공한다. 마찬가지로 검출기는 지역 객체 영역에 대해 더 많은 관심을 가지기 때문에 객체 주변의 근처 앵커 위치에서 feature response의 차이도 복잡한 검출 모델이 객체 인스턴스를 감지하는 방식에 대한 중요한 정보를 전달한다.

객체 검출에서 이 위치 간 차이를 KD에 활용하기 위해 본 논문은 ground truth bounding boxes 및 anchor priors를 활용하여 이 정보가 풍부한 근처 객체 앵커 위치를 효과적으로 추정하고, 그런 다음 학생 모델에게 교사를 모방하도록 하는 새로운 메커니즘을 개발했다.

이는 위에서 언급한 도전 과제를 효과적으로 해결한다:

분류 모델의 기본 지식 증류에서와 같이 교사 모델의 소프트 출력에 의존하지 않고 교사의 고수준 feature response의 cross-location discrepancy에 의존한다.
분류 및 위치 지정 헤드 전에 미세한 특징 모방은 두 하위 작업을 모두 개선한다.
전체 특징 모방의 성능 하락으로 이어지는 소음이 많고 정보가 적은 배경 영역을 피한다.

2. Method

직관은 근처 객체 앵커 위치에서의 feature response의 차이가 대규모 검출기가 어떻게 일반화되는지에 대한 중요한 정보를 나타낸다는 것이다. 이를 통해 학습된 지식을 증류할 수 있다.

구체적으로, 근처 객체 인스턴스에 가까운 미세한 지역을 형성하는 앵커 위치를 추정하고, 학생 모델이 이러한 영역에서 교사 모델의 고수준 특징 응답을 모방하도록 하는 새로운 메커니즘을 제안한다.

이 직관적인 방법은 현재 최첨단 앵커 기반 검출 모델 (예: Faster R-CNN, SSD, YOLOV2)에 대해 일반적이며, 가지치기 및 양자화와 같은 다른 모델 가속화 방법과는 독립적이다.

2.1. Imitation region estimation

근처 객체 앵커 위치는 각 객체에 대한 지역 특징 영역을 형성한다. 지역 특징 영역을 공식적으로 정의하고 연구하기 위해 ground truth bounding boxes와 anchor priors를 활용하여 각 독립적인 이미지에 대해 해당 영역을 계산하고 임계치 요소 ψ로 영역의 크기를 제어한다. 이후, anchor prior가 정의된 마지막 특징에 대해 특징 맵을 참조한다.

각 ground truth bounding boxes 와 모든 anchor priors 간의 IOU를 계산하여 IOU 맵 m (W × H × K)을 얻는다.
가장 큰 IOU 값을 찾고 이를 임계치 요소 ψ와 곱하여 필터 임계값 F를 얻는다.
F를 사용하여 IOU 맵을 필터링하여 F보다 큰 위치를 유지하고 이를 결합하여 최종 마스크를 얻는다.

W, H : feature map의 width, height
K : 미리 설정된 anchor box 수
M : 가장 큰 IOU 값
ψ : 임계치 요소
F (ψ * M) : 필터 임계값

모든 ground truth bounding boxes에 대해 반복하여 마스크를 결합하면 fine-grained imitation mask I를 얻을 수 있다.

ψ가 0인 경우 생성된 마스크는 특징 맵의 모든 위치를 포함하고, ψ가 1일 때는 위치를 유지하지 않는다. ψ를 변화시켜 다양한 모방 마스크를 얻을 수 있다. 모든 실험에서는 상수 ψ = 0.5를 사용한다. ψ = 0.5가 세부적인 소거 연구에서 최상의 증류 성능을 제공함을 보여준다.

F의 고정된 값을 사용하지 않는 이유는 객체 크기가 일반적으로 큰 범위로 변하기 때문이다. 고정 임계값은 특정 스케일 및 비율의 객체에 대해 편향될 수 있다.

2.2. Fine-grained feature imitation

학생 모델에 해당하는 곳에 완전한 합성 적응 레이어를 추가한 후 학생과 교사의 특징 응답 간의 거리 측정을 계산한다. 거리 측정을 계산하기 전에 학생 모델에 대응하는 위치에 적응 레이어를 추가한다. 이 적응 레이어를 추가하는 이유는 두 가지다:

학생 특징의 채널 수가 교사 모델과 호환되지 않을 수 있다. 추가된 레이어는 거리 측정을 계산하기 위해 이를 조정할 수 있다.
학생과 교사가 호환되는 특징을 가지고 있더라도 학생을 강제로 교사 특징을 직접 근사하게 만드는 것은 적응된 대조군에 비해 얻을 수 있는 이득이 적다.

폭이 W이고 높이가 H인 특징 맵에서 각 근처 객체 앵커 위치 (i, j)에 대해 학생 모델은 다음 목적을 최소화하기 위해 훈련된다: