모델을 학습시키기 위해선 여러 단계를 거쳐야 하며, FC Layer만 학습 시킬 수 있다는 단점이 존재했습니다. 이를 보완하여 end-to-end 방식을 적용한 모델이 Fast R-CNN입니다.
이는 SPP Network보다 3배 빠른 학습 속도, 10배 빠른 Detection 속도를 보이며 Pascal VOC 2007 데이터셋을 기준으로 66%의 mAP을 기록합니다.
input 이미지의 크기와 feature map의 크기가 다를 때는 비율을 구해서 rol을 조절하여 rol pooling을 진행한다.