object detection 문제는 classification보다 더 어려운 문제로 multiple objects에서 각각의 object에 대해 classification + localization(객체의 위치를 bounding box로 찾는 것)을 수행하는 것이다.
기존의 RCNN은 뒤에 FC layer가 붙기 때문에 고정된 input size를 넣어줘야 했다.이 때문에 warping하는 부분이 있었는데 이 때문에 화질이 깨지거나 원하지 않는 모양으로 바뀌는문제가 있었다. 이를 해결하기 위해 위의 사진처럼 아이디어가 나왔다.사실
FAST RCNN은 SPPNet에서 많이 참고한 것을 확인할 수 있다.기존 SPPNet은 입력 이미지에 대해 CNN을 진행하고 입력 이미지에 대해 selective search 결과를 CNN을 거친 특징 맵에 매핑하고 SPP를 적용하여 고정된 크기의 feature ve