여러가지 블로그, 유튜브, 논문을 읽고, 제가 느낀대로 써보았습니다. 틀린점이 있다면 댓글로 알려주세요!
::논문::
https://arxiv.org/pdf/1311.2524.pdf
특징
우리는 CNN을 사용했고 결과는 놀라웠다. VOC 2007에서 최종 mAP 48% 달성. 우리의 프레임워크는 상향식 영역 제안을 생성하기 위한 강력한 컴퓨터 비전 기술과 고용량 컨볼루션 신경망 학습의 최근 발전을 결합합니다.
(표는 나중에 나온다. 몇몇 클래스를 제외하고 압도적으 성능이 좋다는 걸 알 수 있다.)
R-CNN 이전에는 SIFT, HOG를 썼다. 그리고 이 둘은 bottle neck 현상으로 정확도가 늘어나지 못했다.
R-CNN은 다음과 같은 과정을 거친다.
CNN은 sliding window를 사용했다. 그러나 이는 너무 많은 계산을 해야해서 시간과 비용이 많이 든다. 그래서 우리는 region proposals를 사용했다. 이는 sliding window보다 1/2 적은 이미지window를 쓴다.
참고
window란? 위의 그림 2번에 노란색 box를 뜻한다.
위의 사진은 결과이다.
쓰고 싶었지만 제대로 해석할 수 없었다.
R-CNN이 CNN을 이용한 object detection의 시초라는 말은 많이 들었지만 segmentation이 가능할 줄은 처음 알았다. 나는 Mask R-CNN(Instance Segmentation)이후로 segmentation이 가능한 줄 알았다.
성공의 열쇠 중 하나는 대규모의 데이터 셋을 활용하는 것이다.
기존의 기술과 현대의 기술(CNN, 딥러닝)을 사용해서 이러한 결과를 얻었다.
기존의 기술과 현대의 기술은 대립하는 별개의 것이 아니다. 자연스러운 파트너다.