Contribution
- R-CNN은 모든 ROI에 대해 CNN을 수행하여 속도가 느리다는 단점
- SPPNet은 전체 이미지를 CNN에 통과시켜 feature map을 얻은 후 ROI별로 Max pooling을 거치는 방식을 통해 속도를 개선하였지만 여전히 여러 단계를 거친다는 한계점
-> CNN, classification, box regression을 전부 한 번에 수행하는 end to end 모델 개발
Process
- 전체 이미지를 CNN에 통과시켜 feature map을 얻는다.
- Selective search를 통해 얻은 ROI를 feature map에 투영하여 Pooling layer를 거쳐 고정된 특징벡터를 추출(하나의 피라미드만 사용된 SPP layer)
- 특징벡터는 fc layer에 전달되어 두 개의 branch로 분리된다.
- Classification(softmax)
- Box regression
Multi-task loss
하나의 모델에서 Classification과 Box regression을 모두 수행하기 때문에 두 가지 task에 대한 loss가 통합된다.
Classification에는 logloss가 사용되며 regression에는 L1 loss가 사용된다.