1-Stage Detector
- Region Proposals없이, Feature Extractor만을 이용한 Object Detection 수행
- Feature Extractor: 입력 이미지를 특성으로 변환, 해당 특성을 이용하여 추후 Classification 및 Bounding Box를 예측하는 작업 수행
YOLO : You Only Look Once
- CVPR 2016에 출판된 논문으로, 1-stage Detector 분야의 초기 모델
- Single Shot Architecture: YOLO는 객체 감지를 위한 단일 신경망 아키텍처를 사용
- 이미지를 그리드로 나누고, 그리드 셀 별로 Bounding Box와 해당 객체의 클래스 확률 예측
Grid Image
- 이미지를 SxS grid 이미지로 분할
- 객체의 중심 좌표가 특정 셀 안에 있으면 그 셀의 예측 박스 해당 객체를 검출해야함
- 각 셀은 Bounding Box와 Confidence, Class Probability Map을 예측하는데 사용
Backbone
- 학습 데이터의 이미지가 YOLO 모델로 입력
- Backbone은 CNN으로 구성
- 백본을 통과한 이미지에서 Feature Map 생성
Bounding Box + Confidence
- 각 셀마다 Bounding Box를 예측
- 각 셀은 여러 Bounding Box를 나타낼 수 있음
- 이후, Bounding Box의 Confidence를 예측
- Representation
Class Probability Map
Output
- 예측한 Bbox, Confidence, Class Probability로, Object Detection 결과 산출
- 낮은 Confidence의 Bbox를 지움
- 각 클래스마다 Non-Maximum Suppression을 진행
- 하나의 Bbox는 하나의 물체를 나타내게 함