2016년 웨이 리우의 논문에서 처음 제안되었다.
R-CNN에 비해 단일 단계 탐지기는 합성곱층에서 위치와 클래스를 한번에 예측한다.
물체 존재 확신도는 정답과 경계 박스의 중첩률을 계산해서 예측하며 50% 이상인 해당 영역에는 물체가 있을 확률이 높다고 판단한다.
피드포워드 합성곱 신경망 구조를 가지며, 여러 개의 고정 크기 경계 박스를 생성하고 각 박스에 클래스별 물체 존재 확시도를 부여한 다음 비최대 억제 알고리즘을 통해 최적 탐지 결과를 제외한 나머지를 배제한다.
- 특징 맵을 추출하는 기본 신경망 : 고해상도 이미지 분류에 사용되는 사전 학습된 신경망에서 분류기 부분을 제거한 것이다.
- 다중 스케일 특징충 : 기본 신경망 뒤에 배치된 일련의 합성곱 필터다. 이들 층은 점진적으로 필터 크기가 감소하며 둘 이상의 배율로 탐지를 시도한다.
- 비최대 억제 : NMS를 적용해서 중첩되는 경계 박스를 배제하고 물체별로 경계 박스를 하나만 남긴다.
[참고자료]
https://www.hanbit.co.kr/store/books/look.php?p_code=B6566099029