Grad-CAM 을 WSOD / WSOL 에 사용한 논문을 찾아봤었는데, 딱 Weakly Supervised Object Detection 에 적용한 논문이 바로 이 논문이였다.
이전에, weakly supervised object detection 과 weakly supervised object localization의 차이점을 확인해보자.
WSOD(Weakly Supervised Object Detection)
:
WSOD는 주어진 이미지 데이터 세트에서 객체의 존재 여부를 탐지하는 작업이다. 그러나 이 방법은 객체의 정확한 위치 정보를 제공받지 않고, 오직 이미지에 존재하는 객체의 클래스 레이블만을 사용한다.
즉, 이미지 내 객체의 위치를 정확히 지정하지 않고, 객체가 존재하는 영역만을 추정한다. 이를 통해 모델은 객체의 클래스 레이블과 객체가 존재하는 영역을 예측할 수 있다. 이는 레이블된 위치 주석(annotation)이 필요하지 않은 상황에서 객체 탐지 모델을 학습하는 데 유용하다.
WSOL(Weakly Supervised Object Localization)
:
WSOL은 Object detection과 유사하지만, 추가로 주어진 이미지에서 객체의 위치 정보를 추정한다.
이 방법은 이미지 내 객체의 존재 여부와 함께 객체의 위치를 한번에 예측하는 것이 목적 !
일반적으로 주어진 이미지에 대한 객체 위치 정보가 부분적으로 주석으로 제공한다. 이 주석은 객체가 존재하는 영역을 표시하는 바운딩 박스(bounding box) 로 제공되기도하는데, 이 주석을 활용하여 정확한 위치를 예측하려하는 것이다.
따라서, 감독 정보의 정도에 따라 약간 감독된 객체 탐지는 객체의 존재 여부를 예측하고, 약간 감독된 객체 위치 파악은 객체의 존재 여부와 함께 객체의 위치를 추정하려고 합니다.
본 논문에서 해결하고자 하는 Weakly Supervised Object Detection의 문제점은 객체 인스턴스를 복잡한 배경과 분리해서 어떻게 높은 수준의 proposal 을 만들어낼수 있느냐 였다.
(a)를 살펴보면, selective search 에서 IoU는 그다지 높지 않고, ground truth 의 기존 bbox 와 잘 맞지 않는 모습을 살펴볼 수 있다. 이러한 문제점을 해결하기 위한 내용들을 본 논문에서 제시하고 있다.
두번째 문제점은 WSOD 에서 proposal selection을 하는 방법 중 하나인 Online Instance Classifier Refinement (OICR)
의 정확성 오류인데,
Online Instance Classifier Refinement 는 약한 지도 학습 객체 탐지(WSOD)에서 proposal 선택을 위한 방법 중 하나로, proposal의 양성과 음성을 선택하는 과정에서 반복적으로 분류기를 개선하는 방법이다.
OICR은 초기에는 proposal의 confidence score를 기반 으로 proposal을 양성(positive)과 음성(negative)으로 분류한다.
이후, 양성으로 선택된 proposal과 그와 공간적으로 겹치는 proposal들을 양성 인스턴스로 선택하고, 나머지 proposal들을 음성 인스턴스로 선택한다. 이렇게 선택된 인스턴스들을 사용하여 분류기를 학습시킨다.
그러나 OICR은 초기에 proposal의 confidence score만을 사용하여 제안을 선택하기 때문에, false positive 제안이 포함될 수 있다는 문제점이 존재한다. 이러한 문제를 해결하기 위해 본 논문에서는 OICR에 새로운 접근 방식을 도입한다.
Online Instance Classifier Refinement (OICR)
와 Grad-CAM
을 결합하여 proposal 생성과 선택을 개선하는 방법이다.
proposal generation 방법은 selective search와 Grad-CAM을 결합하여 진행된다. selective search는 이미지의 다양한 위치와 크기에서 proposal을 생성하는 방법이다. 이를 통해 다양한 크기와 위치의 객체를 detect 할 수 있으며, Grad-CAM은 Convolutional Neural Network (CNN)의 feature map을 사용하여 proposal의 중요도를 계산하는 방법으로써 사용된다. 또한 Grad-CAM을 통해 proposal importance를 더 정확하게 뽑아낼 수 있고, false positive proposal 오류도 줄일 수 있다.
proposal selection 방법은 OICR을 기반으로 진행된다. (위의 내용과 동일)
거기다가 Grad-CAM 방식을 추가하여 false positive proposal의 오류를 줄인다는 것!
이 proposal selection 과정(Grad-CAM + OICR) 에서 양성 인스턴스와 음성 인스턴스를 조정하는 방법을 도입한다.
proposal selection 과정에서는 초기에 제안의 confidence score를 기반으로 양성 인스턴스와 음성 인스턴스를 선택한다. 이 방법은 모든 proposal들을 동등하게 취급하므로, 모델이 학습하는 동안 더욱 중요한 정보를 가진 proposal들이 무시될 수 있다. 따라서, 양성 인스턴스와 음성 인스턴스를 조정을 진행하는 것이다.
양성 인스턴스와 음성 인스턴스를 조정하는 방법은
이렇게 함으로써, 모델은 배경과 객체를 구분하는 데에 필요한 정보를 학습하게 된다. 양성 인스턴스와 음성 인스턴스의 비율을 조정함으로써, 모델은 더욱 균형있게 학습할 수 있고, 객체와 배경을 구분하는 능력을 향상시킬 수 있다는 것 !
본 논문에서 말하는 실험 결과는 PASCAL VOC 2007, PASCAL VOC 2012, MS COCO 데이터셋을 사용하였고, 기준 모델인 OICR과 비교하여 크게 개선되었음을 확인할 수 있다.
VOC 2007 데이터셋에서는 13.4%의 mAP와 11.6%의 CorLoc 개선을 보였으며, VOC 2012 데이터셋에서는 15.0%의 mAP와 8.9%의 CorLoc 개선을 확인할 수 있다. 또한, COCO 데이터셋에서는 6.4%의 mAP와 5.0%의 CorLoc 개선을 볼 수 있다.
Object Detector Refinement 모듈은 proposal 제작 방법 과정 중 하나로, 말 그대로 객체 인지를 점진적으로 개선하는 과정이라고 보면 된다.
1) 이 모듈에서는 이전 객체 탐지기를 사용하여 모든 입력 proposal에 대해 forward pass가 진행되는데, 이는 초기 방식 WSDDN(Weakly Supervised Deep Detection Network)과 같은 기본 object detector를 기반으로 한다는 것을 과정 이미지를 통해 확인할 수 있다.
2) 이 forward pass의 출력은 각 제안이 특정 객체 클래스의 양성 인스턴스인 가능성을 나타내는 점수 집합이다.
forward pass 이후, proposal selection 모듈이 사용되어 양성 proposal과 더욱 구별력 있는 음성 proposal을 선택한다. proposal selection 과정은 각각의 IoU를 양성 음성별로 계산해서 선택을 진행한다.
3) 선택된 양성 proposal과 그와 공간적으로 겹치는 proposal은 객체 탐지기 개선 네트워크의 양성 인스턴스로 사용된다. 이 네트워크는 선택된 양성 인스턴스와 구별력 있는 음성 인스턴스를 학습하여 객체 탐지기가 개선되도록 진행된다.
4) 객체 탐지기를 점진적으로 개선하고 학습에 사용되는 양성 및 음성 인스턴스를 업데이트함으로써, Object Detector Refinement 모듈은 객체 탐지기의 성능을 향상시킨다. 이것이 본 논문의 차별점이라고 볼 수 있다 !
위에서 확인해볼 수 있듯, 기존 Weakly Supervised Deep Detection Network 의 결과와, OICR 의 결과보다 훨씬 더 좋은 수준으로 bbox가 쳐지면서 object detection이 깔끔하게 된 모습을 볼 수 있다.
본 논문의 내용은 WSOL 의 과정보다는 좀 더 detect에 초점을 둔 기법이므로, localization 으로 만들어낸 bbox와 비교해서 정확도를 확인해보면 좋은 과정이 될 것같다.
논문출처 : IEEE - high quality proposal for weakly supervised object detection