Object detection 지금까지의 기술은 영상을 인식하고 semantic segmentation까지 할 수 있었다. 여기서 더 advance된 기법은 자동차들 중에 같은 종류의 자동차가 있는지와 같은 인스턴스 구분이 가능해진 Instance segmentation과 panoptic segmentation이 있다. Object detection은 classification과 bounding box를 동시에 추정하는 문제 특정 객체들을 바운딩 박스 형태로 위치를 측정하고 해당 박스 안의 객체의 ca
YOLO Region proposal 단계가 없고, 전체 이미지에서 bounding box 예측과 classification을 동시에 예측한다. 따라서, 이미지 또는 물체를 전체적으로 관찰하여 추론하는 것으로 맥락적 이해가 높은 모델이다. | version | 특징 | | --- | --- | | Yolo v1 | 하나의 이미지의 Bbox와 classification 동시에 예측하는 1 stage detector | | Yolo v2 | 빠르고 강력하고 더 좋게 3가지 측면에서 model 향상 | | Yolo v3 | multi-scale feature maps 사용 | | Yolo v4 | 최신 딥러닝 기술 사용(BOF : Bag of Freebies , BOS: Bag of Specials) | | Yolo v5 | 크기별로 모델 구성(Small, Medium, Large , XLarge) | Abstract CNN의 정확도를 향상시키
Faster R-CNN Abstract Sota를 달성한 object detection network들은 객체 위치를 예측하기 위해 region proposal 알고리즘에 의존한다. SPPnet과 Fast R-CNN 같은 발전으로 네트워크 실행시간을 단축시킬 수 있었지만, region proposal을 계산에서 병목현상이 발생하였다. 따라서, 전체 이미지의 detection 네트워크와 전체 이미지의 convolution 특징을 공유하여 비용이 거의 들지 않는 RPN이라는 네트워크를 제안한다. RPN은 각 위치에서 객체의 경계와 객체성 점수를 동시에 예측하는 fully convolution convoultion 네트워크이며, 높은 퀄리티의 region proposal을 생성하기 위해서 end-to-end로 학습된다. 따라서, RPN은 Fast R-CNN의 convolution 특징과 RPN의 특징을 공유함으로써 single 네트워크로 병합함으로, 최근에 인
Abstract Fast R-CNN은 R-CNN의 한계점을 보완하고자 제안되었다. region of interest 마다 CNN 연산을 하기 때문에 속도가 느리다. → ROI pooling을 통해 해결 multi-stage piplines이기 때문에 end-to-end로 학습하지 못한다. → 하나의 pipeline으로 통합 Introduction 최근 deep CNN은 image classification 과 object detection에서 정확도가 크게 개선되었다. object detection은 객체의 정확한 위치 파악이 필요하기 때문에 classification보다 복잡하기에 두 가지 과제가 발생한다. 수많은 region proposal이 처리되어야 한다. 이러한 후보 영역들은 대략적인 위치만 제공하기 때문에 정확한 위치를 재정의 해야한다. 이러한 문제에 대한 해결책들로 인해 속도, 정확성, 단순성이 저하되는
Abstract object detection의 성능은 지난 몇 년 동안 정체되었다. 지금까지 최고의 성능을 나타내는 방법은 여러 low-level의 이미지 특징을 high-level 특징과 결합하는 복잡한 앙상블 시스템이었다. 논문에서는 이전 최고 결과와 비교하여 mAP를 30% 향상시켜 53.3%의 mAP를 달성하는 간단하고 확장 가능한 알고리즘을 제안한다. 이 방법은 두 가지 key insight를 결합했다. region proposal로 object 위치를 알아내고 이를 CNN과 결합한다. 레이블된 훈련 데이터가 부족할 때, pre-trained model을 fine-tuning하여 사용한다. 따라서, region proposal과 CNN을 결합하여 R-CNN으로 부르게 되었다. Intorduction 다양한 visual recognition task의 지난 10년간의 인식은 SIFT와 HOG에 기초해 왔다. 하지만 이