Localization은 1개의 사진에 1개의 객체를 인식하고 맞춘다. sliding Window은 box를 사용해서 맞춘다. Region Proposal은 객체의 색상, 행태, 재질, 크기 등을 고려해서 합친다. 그 후 object(box형태로)를 추천한다.
리뷰 요약 1. R-CNN 이전에는 SIFT와 HOG를 사용했다. 2. R-CNN은 CNN기술을 사용했다. 3. 효과는 굉장했다. 일부 클래스를 제외하고 대부분 10%이상 높았다
SPP는 입력 크기(input size)에 관계없이 고정 길이 출력을 생성할 수 있다.
Fast R-CNN은 1. RoI기법을 적용했고 2. 모델 처음부터 끝까지 end-to-end(딥러닝)가 가능하다 3. 이전 모델인 R-CNN과 SPP-net보다 정확하고 빠르다.
Faster R-CNN은 1. RPN + fast R-CNN이다(RPN이라는 모듈이 추가된느낌이다). 2. 순서는 RPN을 하고 train하고 RoI를 한다. 3. RPN과 RoI 각각의 딥러닝가능하다. 하지만 역전파를 할 때 통합한다.