영역 기반 신경망 구조 중 가장 기본적인 구조지만, 모든 다중 물체 인식 알고리즘의 밑바탕이 되는 구조이다.
- ROI 추출기 : ROI는 물체를 포함하고 있을 가능성이 높은 이미지의 영역이다.
- 특징 추출 모듈 : 사전 학습된 합성곱 신경망에 ROI를 입력해서 특징을 추출한다.
- 분류 모듈 : 서포트 벡터 머신등 알고리즘으로 분류기를 학습한 후 물체가 무엇인지 분류한다.
- 위치 특정 모듈 : 경계 박스 회귀 모듈이라고 하며 경계 박스는(x,y,w,h)로 표현된다.
https://www.researchgate.net/figure/RCNN-architecture-17_fig4_341099304
R-CNN 학습
- 특징 추출 모듈로 사용할 합성곱 신경망을 학습한다. 사전된 학습된 신경망을 미세 조정해서 사용한다.
- SVM 분류기로 학습하며 딥러닝을 이용한 분류기와 마찬가지로 레이블링된 데이터를 학습한다.
- 경계 박스 회귀 모듈을 학습하며 K가지 클래스에 속하는 물체가 포함된 경계 박스를 나타낸다.
R-CNN 단점
- 사물 탐지 속도가 느리다. : 이미지 한 장당 2000개 이상의 ROI가 제안되고 ROI 하나마다 합성곱 신경망의 순방향 계산이 필요하기에 계산의 부하가 크다.
- 합습 과정이 다단계로 구성된다. : CNN 특징 추출기, SVM 분류기, 경계 박습 회귀 모듈까지 세 모듈을 학습해야 하며 과정이 복잡하고 각각 따로 진행해야 한다.
- 학습의 공간 및 시간 복잡도가 높다. : SVM 분류기와 경계 박스 회귀 모듈을 학습할 때 ROI에서 추출된 특징을 디스크에 저장해야 하기에 추출된 특징을 저장하기 위해 많은 디스크 용량이 필요하다.
[참고자료]
https://www.hanbit.co.kr/store/books/look.php?p_code=B6566099029