transformer 이전 object detection

FSA·2023년 8월 21일

Object detection

목록 보기

12/23

Regional Proposal과 Classification이 순차적으로
기존에는 이미지에서 object detection을 위해 sliding window방식을 이용
- Sliding window 방식은 이미지에서 모든 영역을 다양한 크기의 window (differenct scale & ratio)로 탐색하는 것
이런 비효율성을 개선하기 위해 '물체가 있을만한' 영역을 빠르게 찾아내는 알고리즘이 region proposal(대표적으로 Selective search)
- Selective search : 비슷한 질감, 색, 강도를 갖는 인접 픽셀로 구성된 다양한 크기의 window를 생성
RCNN (Selective search)
Fast R-CNN
- R-CNN과의 차이는 이미지를 Sliding Window 방식으로 잘라내는 것이 아니라 해당 부분을 CNN을 거친 Feature Map에 투영해, Feature Map을 잘라낸다는 것입니다.
Faster R-CNN
- Fast R-CNN은 반복되는 CNN 연산을 크게 줄여냈지만 region proposal 알고리즘이 병목
- Faster R-CNN에서는 기존의 Fast R-CNN을 더 빠르게 만들기 위해서 region proposal 과정에서 RPN(Region Proposal Network)라고 불리는 neural network를 사용
- Region proposal network를 통해 정확도는 낮지만 많은 candidate box들을 얻어냅니다.

Regional Proposal과 Classification을 한번에
YOLO
- 이미지를 grid로 나누고, Sliding window 기법을 Convolution 연산으로 대체해 Fully Convolutional Network 연산을 통해 grid cell별로 Bbox를 얻어낸 뒤, Bbox들에 대해 NMS를 한 방식
- 논문을 보면 이미지를 7x7 짜리 grid로 구분하고 각 grid cell마다 box를 두 개 regression 하고 class를 구분하게 합니다.
- YOLO의 output은 7x7x30의 크기를 가집니다.
- Bounding box를 표현하는데에는 object가 있을 확률과 x,y,w,h 4개로 총 5의 크기를 갖습니다. 이러한 Box를 두개를 인식하므로 Box를 예측하는데에 10의 크기를 가집니다. 나머지는 20가지의 Class를 의미합니다.

모든 의사 결정 과정을 지나칠 정도로 모두 기록하고, 나중에 스스로 피드백 하는 것