이전 포스트에서, image-level에서 gaussian filter를 적용하여
blurring된 입력 이미지는 작은 지역적 특징(노이즈)들이 억제되어 큰 크기의 객체들을 더욱 잘 탐지하는 것을 보였다.
그리고 Canny Edge Detector의 결과인 흑백 엣지 이미지를 원본 이미지에 element-wise한 입력은 작은 지역적 특징(선, 명암)들이 강화되어 작은 크기의 객체들을 더욱 잘 탐지하는 것을 보였다.
문제 & 가설 & 제안 방법
문제
그런데 Object Detector는 학습 가능한 파라미터들로 이루어져 있기 때문에
고전적 필터의 blurring & sharpening이 갖는 장점을 feature-level에서 양립할 수 있도록 학습해야 한다.
가설
그래서 우리는 hierarchy를 갖는 backbone의 multi-scale feature map을 효과적으로 학습시키는 방법을 제안한다.
우리의 가설은 backbone의 초기 high resolution feature map은 small object를 detection하는 데에 유용하고,
backbone의 후기 low resolution feature map은 large object를 detection하는 데에 유용하기 때문에
high resolution feature map을 만드는 parameter들의 값을 경사지게(sharpening) 만들고,
low resolution feature map을 만드는 parameter들의 값을 완만하게(blurring) 만들면
각각 작은 객체와 큰 객체를 더욱 효과적으로 탐지하기 위한 강화된 feature map이 생성될 것이라는 가설을 세웠다.
제안 방법
그래서 Loss Function에 weight regularization term을 추가하였다. High resolution feature map을 생성하는 weight에는 서로 가파른 값을 갖도록 variance maximization regularization term을 적용하고, Low resolution feature map을 생성하는 weight에는 서로 완만한 값을 갖도록 L2 regularization term을 적용했다.
결과
small AP는 baseline보다 0.5 상승, large AP는 baseline보다 1.0 상승.
하지만 medium AP는 baseline보다 0.6 하락.
(future work) → small & large object를 위한 feature-level enhancement는 효과적으로 되었지만,
medium object를 위한 feature-level enhancement는 되지 않았다.
또한 상승폭이 작기 때문에 더 효과적인 방법을 고안해야 하고, 추가의 실험이 필요하다..