R-CNN

박용민·2023년 2월 20일
0

컴퓨터 비전

목록 보기
13/15

영역 기반 신경망 구조 중 가장 기본적인 구조지만, 모든 다중 물체 인식 알고리즘의 밑바탕이 되는 구조이다.

  • ROI 추출기 : ROI는 물체를 포함하고 있을 가능성이 높은 이미지의 영역이다.
  • 특징 추출 모듈 : 사전 학습된 합성곱 신경망에 ROI를 입력해서 특징을 추출한다.
  • 분류 모듈 : 서포트 벡터 머신등 알고리즘으로 분류기를 학습한 후 물체가 무엇인지 분류한다.
  • 위치 특정 모듈 : 경계 박스 회귀 모듈이라고 하며 경계 박스는(x,y,w,h)로 표현된다.

https://www.researchgate.net/figure/RCNN-architecture-17_fig4_341099304

R-CNN 학습

  1. 특징 추출 모듈로 사용할 합성곱 신경망을 학습한다. 사전된 학습된 신경망을 미세 조정해서 사용한다.
  2. SVM 분류기로 학습하며 딥러닝을 이용한 분류기와 마찬가지로 레이블링된 데이터를 학습한다.
  3. 경계 박스 회귀 모듈을 학습하며 K가지 클래스에 속하는 물체가 포함된 경계 박스를 나타낸다.

R-CNN 단점

  • 사물 탐지 속도가 느리다. : 이미지 한 장당 2000개 이상의 ROI가 제안되고 ROI 하나마다 합성곱 신경망의 순방향 계산이 필요하기에 계산의 부하가 크다.
  • 합습 과정이 다단계로 구성된다. : CNN 특징 추출기, SVM 분류기, 경계 박습 회귀 모듈까지 세 모듈을 학습해야 하며 과정이 복잡하고 각각 따로 진행해야 한다.
  • 학습의 공간 및 시간 복잡도가 높다. : SVM 분류기와 경계 박스 회귀 모듈을 학습할 때 ROI에서 추출된 특징을 디스크에 저장해야 하기에 추출된 특징을 저장하기 위해 많은 디스크 용량이 필요하다.

[참고자료]
https://www.hanbit.co.kr/store/books/look.php?p_code=B6566099029

0개의 댓글