R-CNN 3

Hoon82의 velog·2022년 10월 21일
0

3. Visualization, ablation, and modes of error

  • 3.1. Visualizing learned features

    이 논문에서는 non-parametric method를 이용한다.

  • 3.2. Ablation studies

    performance layer-by-layers, without fine-tuning

    fine-tuning를 제외하고 CNN architecture의 마지막 세 레이어(pool5, fc6, fc7)를 확인해봤을 때 fc6, fc7이 없어져도 괜찮은 성능을 냄을 알 수 있었다.

    이를 통해 fc가 아닌 CNN 자체에 힘이 있음을 알 수 있다.

    Performance layer-by-layer, with fine-tuning

    Table2를 보면, fine-tuning 했을 때 성능이 더 좋았음을 알 수 있다.

  • 3.3. Network architectures

    O-Net(VGG16) 사용 시 mAP(mean Average Precision: object detector의 정확도를 측정하는 평가지표)는 58.5%에서 66.0%까지 향상되지만 시간이 약 7배더 걸리는 단점이 존재한다.

    Network Architecture의 선택이 object detection 성능에 영향을 크게 미친다.

    AlexNet을 사용했는데 가장 성능이 잘 나온 Network Architecture는 VGG16이다.

  • 3.4. Detection error analysis

  • 3.5. Bounding-box regression

    Bounding box regression을 통해 mAP를 약 3~4% 향상시킨다.

    간단한 Bounding-box regression 단계를 통해 localization 성능을 개선한다. class 별 detection SVM을 통해 각 region proposal에 score를 매긴 후 class 별 bounding box regression을 사용하여 detection에 대한 새로운 bounding box를 예측한다.

    Bounding-box regression을 진행하기 위해서는 ground truth와 transformation 된 box끼리 near해야 한다. 그래서 Bounding-box regression을 진행하기 전 IoU(객체 인식 모델의 성능 평가를 하는 과정에서 사용되는 도구) 0.6 이상인지 확인 한다.

  • 3.6. Qualitative results

profile
나는 킹고수다!!

0개의 댓글