[Paper Review] Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition 요약리뷰

먼지감자·2022년 4월 6일
0

인공지능

목록 보기
12/25

Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition

Link (arXiv 2014)

Summary

  • Intro

    기존 R-CNN의 단점을 해결하기 위한 구조 제시

selective search를 이용한 R-CNN 단점

  1. selective search 를 사용하여 약 2000개의 ROI 추출 - 모두 CNN 연산해야 함
  2. FC Layer 의 입력 벡터 크기 고정으로 ROI 크기 고정용 강제 cropping/warping
  • Abstract
  1. CNN 연산 딱 한번
  2. SPPNet 으로 이미지 크기 고정하여 강제 cropping/warping 필요 없음

SPPNet의 구조

Bag-of-Words (BoW) 와 같은 원리를 사용, But feature map 내의 spatial information은 유지

feature map을 spatial binning으로 나누어서 pooling 진행 → output size 고정

Take-home Message

  • 기존의 R-CNN의 단점인 1. 많은 CNN 연산과  2. FC Layer의 고정된 input size를 위한 강제 cropping/warping 문제를 SPP-net (Spatial Pyramid Network) 구조로 해결할 수 있다.
profile
ML/AI Engineer

0개의 댓글