R. Girshick, J. Donahue, T. Darrell and J. Malik, "Region-Based Convolutional Networks for Accurate Object Detection and Segmentation," in IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 38, no. 1, pp. 142-158, 1 Jan. 2016, doi: 10.1109/TPAMI.2015.2437384.
authors : Ross Girshick; Jeff Donahue; Trevor Darrell; Jitendra Malik
LeCun and colleagues는 backpropagation을 이용한 stochastic gradient descent이
real-world handwritten character recognition problems에서 훨씬
effective하다고 주장했었다.
➡️ 이러한 model들은 convolutional networks, CNNs, or ConvNets으로 알려짐.
CNNs은 1990년대에 사용하기에는 heavy했고,
support vector machine의 등장에 관심이 쏠렸었다.
2012년에 Krizhevsky가 ImageNet Large Scale Visual Recognition Challenge(ILSVRC)에서
CNNs을 사용한 image classification의 잠재력을 보여줌으로써
다시금 CNNs이 주목받기 시작했다.
여기서 드는 궁금증은
ImageNet에 대한 CNN classification result가
PASCAL VOC Challenge에 대한 object detection으로도
generalization될 수 있는가?
였다.
우리는 이 결과를 얻기 위해서,
우리는 두가지 Problems에 대한 solution을 개발함으로써
image classification과 object detection 사이의 gap을 줄였다.
How can we localize objects with a deep network?
(deep network로 object를 어떻게 localization할 것인가?)
recognition using regions
paradigm을 적용함으로써How can we train a high-capacity model with only a small quantity of annotated detection data?
(적은 data로 어떻게 큰 model을 train시킬 것인가?)
(skip)
Deep CNNs for object detection
Scalability and speed
Localization methods
Transfer Learning
R-CNN extensions
category-independent region proposal을 생성하는 방법에 대한
다양한 논문들이 있다.
예를 들어,
objectness[51], selective search[21], category-independent object proposal[52], constrained parametric min-cuts(CPMC)[22], multi-scale combinatorial grouping[25], ...
R-CNN은 prior detection work ([21], [54])와 비교를 가능하게 하기 위해 selective search를 사용했다.
우리는 CNN을 사용하여 each region proposal로부터
fixed-length feature vector를 extract했다.
(fixed length feature vector는 4096-dimension)
CNN architecture는 system hyperparameter이다.
우리는 대부분의 실험을 AlexNet으로 했다.
region proposal에 대한 feature를 compute하기 위해,
우리는 먼저 해당 region의 image data를 CNN에 호환되는 형식으로 변환해야 했다.
(CNN architecture는 fixed S x S pixel size의 input을 요구함)
우리는 가장 simple하게 candidate region의 size or aspect ration 관계 없이,
bounding box에 대한 모든 pixel을 required size에 맞게 warp했다.
(skip)