SSD(single shot detector)의 사진의 변형없이 한장으로 훈련, 검출하는 detector로 구조는 아래와 같다.
이미지가 입력으로 들어가면 여러개의 conv layer를 거쳐 특징을 추출한다. 각 layer에서 뽑힌 anchor box들은 마지막 이전 layer로 전달되므로 굉장히 많은 anchor box들이 모이게된다. 그 후 Non Max Suppression작업을 통해 겹치는 box들을 제거하고 최종적으로는 각 object에 대한 bounding box를 예측하게된다.
SSD에서 object를 detect하는 방법은 아래와 같은 한장의 사진이 주어졌을 때 사진의 feature map의 사이즈를 다양하게 가져감으로써 큰 사이즈에서는 작은 object(고양이)를 작은 사이즈에서는 큰 object(개)를 detect할 수 있다.