방법
Backbone : GoogLeNet 변형
24conv layers → Feature Map
입력 이미지를 SxS 그리드 영역으로 나누기 (S=7) → Feature map = 7x7
셀마다 B 개의 bounding box, confidence score 계산 (B=2)
→ [x,y,w,h,c] x B개
셀마다 C 개 클래스 확률 계산 (C=30)
⇒ 맨 마지막 예측 값 : 7x7x(B * 5 + C) = 49x30 = 1470
총 49x2 = 98개의 bbox에 대해서 class 예측
Threshold Cutting + NMS Pruning
Loss
단점
7x7 그리드로 나누어 bb regression 수행
→ 더 작은 크기의 크기 검출 불가능
신경망의 마지막 Feature만 사용
→ 정확도 하락