3. Visualization, ablation, and modes of error
3.1. Visualizing learned features
이 논문에서는 non-parametric method를 이용한다.
3.2. Ablation studies
performance layer-by-layers, without fine-tuning
fine-tuning를 제외하고 CNN architecture의 마지막 세 레이어(pool5, fc6, fc7)를 확인해봤을 때 fc6, fc7이 없어져도 괜찮은 성능을 냄을 알 수 있었다.
이를 통해 fc가 아닌 CNN 자체에 힘이 있음을 알 수 있다.
Performance layer-by-layer, with fine-tuning
Table2를 보면, fine-tuning 했을 때 성능이 더 좋았음을 알 수 있다.
3.3. Network architectures
O-Net(VGG16) 사용 시 mAP(mean Average Precision: object detector의 정확도를 측정하는 평가지표)는 58.5%에서 66.0%까지 향상되지만 시간이 약 7배더 걸리는 단점이 존재한다.
Network Architecture의 선택이 object detection 성능에 영향을 크게 미친다.
AlexNet을 사용했는데 가장 성능이 잘 나온 Network Architecture는 VGG16이다.
3.4. Detection error analysis
3.5. Bounding-box regression
Bounding box regression을 통해 mAP를 약 3~4% 향상시킨다.
간단한 Bounding-box regression 단계를 통해 localization 성능을 개선한다. class 별 detection SVM을 통해 각 region proposal에 score를 매긴 후 class 별 bounding box regression을 사용하여 detection에 대한 새로운 bounding box를 예측한다.
Bounding-box regression을 진행하기 위해서는 ground truth와 transformation 된 box끼리 near해야 한다. 그래서 Bounding-box regression을 진행하기 전 IoU(객체 인식 모델의 성능 평가를 하는 과정에서 사용되는 도구) 0.6 이상인지 확인 한다.
3.6. Qualitative results