Our system (1) takes an input image, (2) extracts around 2000 bottom-up region proposals, (3) computes features for each proposal using a large convolutional neural network (CNN), and then (4) classifies each region using class-specific linear SVMs.
입력 이미지에 대해 CPU 기반의 selective search -> 시간 소요
end-to-end 방식 X = 정확도가 낮아짐
모든 RoI를 2000개를 CNN 연산을 해야해서 연산량이 많아짐
Selective Search 를 이용하면 물체가 존재할 법한 region proposal을 해주는 예측한 위치와 실제 위치를 가져와서 Regression 진행
-> R-CNN 에서 x,y,w,h 4개의 학습 파라미터를 통해 Linear Regression 진행 *