이 논문을 읽게 된 이유는 object detector의 knowledge distillation 관련한 연구를 진행하고 있는데 도움이 필요하기 때문...
teacher model의 bbox prediction을
student model이 유사하게 학습하도록 KL Divergence Loss를 사용하려고 하는데,
어떻게 해야 잘 training이 될 수 있는지 공부하기 위해서 관련 논문들을 찾다가 이 논문을 찾게 되었다.
model compression과 같은 노력은 더 적은 parameter로 compact model을 학습하지만,
이는 정확도가 크게 감소한다.
이 연구에서 knowledge distillation 및 hint learning을 사용
하여
개선된 accuracy를 가진 compact하고 빠른 object detection networks를 학습하는 새로운 framework를 제안할 것이다.
우리는
class imbalance를 해결하기 위한 weighted cross-entropy loss
,
regression component 처리를 위한 teacher bounded loss
및
intermediate teacher distribution에서 더 나은 학습을 위한 adaptive layer
와 같은
여러 혁신을 통해 이를 해결했다.
CNN으로 object detection에 많은 발전이 있었다.
하지만 many application을 위해서는 speed가 key component인데,
아직 real-time으로부터는 거리가 멀다.
model compression을 통한 classification works들은 매우 큰 speed-up을 보였지만,
여전히 original and compressed models 사이의 accuracy gap이 존재한다.
반면에 knowledge distillation에 대한 거시적인 연구들은 깊거나 복잡한 model의 행동을
모방하도록 훈련된 얕거나 압축된 model이 accuracy의 하락의 일부 또는 전체를 회복할 수 있다는 것을 보여줬다. [3, 20, 34]
하지만 이 결과는 모두 classification에서만 해당되는 내용이다.
distillation technique을 multi-class object detection에도 적용하는 것은 몇 가지 이유로 challenging하다.
위 challenge들을 처리하기 위해서,
우리는 knowledge distillation을 이용한 object detection을 위한 빠른 model을 train시키는 방법을 제안할 것이다.
우리의 contribution은 네 가지로 구성된다 :
knowledge distillation
을 통해weighted cross entropy
(Section 3.2)를 제안한다.knowledge distillation을 위한 teacher bounded regression loss
(Section 3.3) 및hint learning을 위한 adaptive layers
(Section 3.4)를 제안한다.Section 3 Summary >