🧐 Object Localization/Detection 개요
- Object Localization/Detection
- 원본 이미지에서 특정 Object의 위치를 찾는 것
- Image Classification + Bounding Box Regression
- Image Classification과 동일한 과정
- 원본 이미지 >> Feature Extrator >> Feature Map >> FC Layer >> Soft max Class scroe
- Bounding Box Regression
- Image Classification에 없는 과정
- Bounding Box 좌표값 구하는 과정
- Annotation = Ground Truth
- Localization과 Detection 차이
- Localization
- Detection
- 여러 개의 대상
- Object가 있을만한 위치를 찾는다
- Region Proposal
🧐 Sliding Window 방식과 Region Proposal 방식
- Sliding Window
- Region Proposal 이전에 사용되던 방식
- 특정한 size, shape의 window로 Object Detection
- 학습 시간과 변수의 문제
- 있을만한 위치를 자동으로 찾아주는 알고리즘 필요
- Region Proposal
- Selective Search
- 원본 이미지의 여러 특성을 기반으로 segmentation
- 유사한 segmentation 통합
🧐 Region Proposal 방식에 기반한 Object Detection - RCNN
- RCNN(Region with CNN features)
- Region Proposal 방식 적극 도입
- Region Proposal에서 예측이 된 Objcet를 CNN 모델에 적용
- RCNN 과정
- Region Proposal stage
- Selective Search
- 2000 개의 (Object가 있을만한)Region 영역 Proposal
- CNN Detection 과정
- 한 이미지로부터 나온 2000개의 이미지에 대한 CNN 방식으로 학습시킴
- Image Crop과 Warp 적용
- RCNN 모델의 Classification Dense layer를 위해 이미지 크기가 동일해야 함
- Region Proposal로 예측된 2000개 영역의 이미지 사이즈를 동일하게 가짐
- SVM Classifier
- RCNN에서는 기존 CNN의 softmax를 사용하지 않음
- 딥러닝 모델의 FC Layer에 SVM Classifier 적용
🧐 RCNN 개요
- RCNN 특징
- Compute CNN features
- CNN features에 적용되는 이미지 사이즈는 모두 동일해야 한다
- warped region
- 원본 이미지와 다른 해상도
- Classify regions
- Classification + Regression
- SVM(Soft Vector Machine)
- 3차원의 Feature Map을 1차원 Layer로 변환 후 SVM 적용
- RCNN의 문제점
- 네트워크를 학습시키는데 방대한 시간 소요
- 하나의 이미지에 대해 2000개의 Region Proposal을 분류
- 하나의 테스트 이미지에 소요되는 시간 약 47초
- 실제 사례에 적용할 수 없을 정도로 느린 시간
- 추론 시간도 느림
* 출처: 인프런 '딥러닝 컴퓨터 비전 완벽 가이드'