[본 논문의 주요 목표]
네트워크 구조가 이미지에서 시계열 데이터를 인식하도록 특별히 설계된 새로운 신경망 모델 ⇒ Region proposals + CNN ⇒ R-CNN
[Deep Network를 활용한 Localizing Object]
Object detection은 이미지 내의 객체를 localizing 하는 것이 필요하다.
CNN localization 문제를 “recognition using regions”로 해결
2.1 Module Design
[R-CNN 프로세스를 위한 세가지 모듈]
Region proposal
Feature Extraction (CNN)
cnn의 입력 크기가 고정되어있지 않기 때문에 warp작업을 통해서 동일 input size를 만든다 ⇒ output 크기 고정
각각의 영역으로부터 고정된 크기의 Feature Vector 추출
2.2 Test-time Detection
[R-CNN의 프로세스]
(1) 이미지를 입력받는다.
(2) input image에 대해 region proposals를 약 2000개 추출
(3) 추출한 regional proposals를 모두 동일한 사이즈로 만들어주기 위하여 warp
(4)warped image에 cnn을 적용하여 일정한 길이를 가진 feature vector를 추출
(3) 선형 SVM을 이용하여서 각 region을 카테고리별로 분류
2.3 Training
Supervised pre-training.
Domain-specific Fine-Tuning
Object category classifiers
[Threshold 선정 방식]
2.4 Results on PASCAL VOC 2010-12
Table 1을 보면 R-CNN이 다른 방법들 보다 좋은 성능을 보이는 것을 확인할 수 있다. BB(Bounding Box regression)을 이용할 때, 성능이 더 올라감을 알 수 있다.
2.5 Results on ILSVRC2013 detection
PASCAL VOC에서 보다 분류해야 할 class가 더 많아서 mAP는 낮지만 다른 방법론들에 비해 R-CNN이 성능이 우수함.
3.1 Visualizing learned features
region proposals에 대한 unit activation 계산 → activation내림차순 정렬 → non-maximum suppression 수행 → 고득점 region 표시
3.2 Ablation studies
[Performance layer-by-layer, without fine-tuning]
1~3줄을 보면 fc7이 fc6보다 성능이 낮음 → mAP가 줄어들지 않더라도 CNN의 파라미터를 줄일 수 있음
[Performance layer-by-layer, with fine-tuning]
4~6줄을 보면 도메인별 학습을 한 후에 개선이 된다는 점을 볼 수 있음
3.3 Network architectures
O-Net을 이용한 R-CNN이 T-Net을 이용한 R-CNN의 성능보다 좋음을 볼 수 있음
3.4 Detection error analysis
3.5 Bounding-box regression