R-CNN

유승우·2022년 5월 12일

Computer Vision Object Detection paper-review

Abstract

object detection의 성능은 지난 몇 년 동안 정체되었다. 지금까지 최고의 성능을 나타내는 방법은 여러 low-level의 이미지 특징을 high-level 특징과 결합하는 복잡한 앙상블 시스템이었다.

논문에서는 이전 최고 결과와 비교하여 mAP를 30% 향상시켜 53.3%의 mAP를 달성하는 간단하고 확장 가능한 알고리즘을 제안한다.

이 방법은 두 가지 key insight를 결합했다.

region proposal로 object 위치를 알아내고 이를 CNN과 결합한다.
레이블된 훈련 데이터가 부족할 때, pre-trained model을 fine-tuning하여 사용한다.

따라서, region proposal과 CNN을 결합하여 R-CNN으로 부르게 되었다.

Intorduction

다양한 visual recognition task의 지난 10년간의 인식은 SIFT와 HOG에 기초해 왔다. 하지만 이 방법을 사용한 PASCAL VOC object detection 성능을 살펴보면 2010-2012 동안 진전이 더뎠다.

2012년 image classification이 큰 성공을 보이자 object detection에서도 CNN을 이용한 연구가 진행된다. 논문에서는 두 가지에 문제에 초점을 맞춰서 연구를 진행하였다.

심층신경망을 통해 객체 위치를 추정하는 것
오직 작은 양의 라벨링된 데이터만으로 높은 성능 모델을 훈련시키는 것

이미지 분류와 달리 탐지에서는 이미지 내의 개체의 위치를 조정해야 하는 localization 문제가 있다. 논문에서는 object detection과 semantic segmentation에서 성공한 지역 인식 패러다임을 사용하여 localization 문제를 해결했다고 한다.

R-CNN은 ILSVRC 2013에서 sliding window 방법을 적용한 overfeat model과 비교하여 높은 성능을 나타냈다.

R-CNN 알고리즘 단계

Region proposal 추출
- 입력 이미지를 selective search를 이용해 region proposal을 뽑아내기 💡 selective search - 후보 영역을 뽑아 내기 위한 방법 1. 색상,재질,크기 등 다양한 종류의 조건을 고려하여 작은 영역들을 뽑아낸다 2. 탐욕 알고리즘을 사용하여 작은 영역들을 반복적으로 큰 영역으로 합친다. 3. 합쳐진 영역들을 바탕으로 후보 영역을 생성한다

CNN 적용
- 추출한 region proposal을 CNN 모델에 넣기 위해 같은 size로 wrap(resize) 작업 수행
  - CNN의 마지막 레이어인 fc layer의 input값이 고정되어 있기 때문!
- CNN 모델 적용 후 feature vector 추출
linear SVM
- 추출된 feature vector를 linear SVM으로 classification을 수행
Bounding Box Regression
- 처음에 정답으로 주었던 레이블인 Bounding Box와 selective search로 추출한 region proposal의 차이를 줄이기 위해 Bounding Box Regression을 수행
- 이는 region proposal이 더 정확하게 물체를 감싸도록 하는 작업으로, Localization error를 줄여준다.

장/단점

장점 : CNN을 이용해 한 이미지 안에 있는 여러 물체의 클래스를 분류할 수 있다

단점 :

Selective search는 CPU를 사용하는 알고리즘이며, Selective Search로 추출한 region proposal마다 CNN을 수행해야 하기 때문에 속도가 매우 느리다.
SVM은 CNN을 적용한 feature map이 input이고, Bounding Box Regression은 CNN 적용 전 region proposal이 input이기 때문에 End-to-End방식으로 학습 할 수 없다.

Reference

https://arxiv.org/pdf/1311.2524.pdf

유승우

이전 포스트

ResNet

다음 포스트