https://arxiv.org/pdf/1612.08242
code : https://pjreddie.com/darknet/yolov2/
Abstract
- 9000개 객체 categories를 실시간 객체 탐지 시스템인 YOLO9000를 소개함
- 첫번째로, YOLO 탐지 방법을 다양한 향상을 제시함.
- 향상된 모델을 YOLOv2이라하고 PASCAL VOC과 COCO와 같은 탐지 표준 탐지 문제들에서 최점단 성능을 냄(state-of-the-art, SOTA).
- 다양한 사이즈들에서 운영될 수 있으며 쉽게 속도와 정확도가 쉽게 tradeoff를 제공함.
- YOLOv2는 VOC 2007에서 67 FPS와 76.8 mAP를 얻음.
- YOLOv2는 상당히 운영속도가 빠르면서 'Faster RCNN(with ResNet과 SSD)'의 성능을 넘어선 40 FPS, 78.6 mAP을 얻음.
- 마지막으로, 객체 탐지와 분류에서 jointly하게 학습시키는 방법을 제안함.
- 이 방법으로 COCO 탐지 데이터셋과 ImageNet classification dataset을 동시에 YOLO9000에 학습시킴.
- joint training는 YOLO9000이 객체 classes의 탐지(탐지 데이터에 라벨링하지 않음)를 예측함.
- ImageNet 탐지 문제에 이 방법으로 입증함.
YOLO9000 gets
19.7 mAP on the ImageNet detection validation set despite
only having detection data for 44 of the 200 classes.
- YOLO9000은 ImageNet 탐지 검증셋에서 19.7 mAP을 얻음 (오직 200 classes의 44개의 탐지 데이터를 가짐).
- YOLO9000은 156 classes의 not in COCO에서 16.9 mAP를 가짐.
it still runs in real-time.
- 하지만 YOLO는 오직 200 classes보다 더 많이 탐지 할 수 있음 (9000개의 다른 객체 categories보다 더 많이 탐지를 예측함).
- 이것은 여전히 real-time에서 운영됨.






Introduction
- 대부분 탐지 방법들은 여진히 객체의 작은 셋으로 제한되어있음.
- 분류와 태깅같은 다른 문제의 데이터셋과 비교하면 객체 탐지 데이터셋은 제한적임.
- 객체 분류의 계층적인 관점을 사용하여 구별된 데이터셋을 함께 결합함.
- joint한 학습 알고리즘을 제안함.
- 이것은 탐지와 분류 데이터들로 객체 탐지를 학습하도록 허락함.
- vocabulary와 robustness을 증가시키기 위해 분류 이미지들을 사용하면서 정확하게 객체를 지역화하여 학습 시키기 위해 라벨된 탐지 이미지들들 leverage함.
- 이 방법을 사용하여 YOLO9000(9000개의 다른 객체 categories를 탐지할 수 있을 수 있는 real-time 객체 탐지)을 학습시킴.
- 첫 번째로, YOLOv2를 생성하여 기본 YOLO 탐지 시스템을 향상 시킴.
- COCO의 탐지 데이터 뿌난 아니라 ImageNet의 9000 classes보다 많은 상황에서 모델을 학습 시키기 위해 데이터셋의 결합 방법과 joint한 학습 알고리즘을 사용함.
All of our code and pre-trained models are available online at http://pjreddie.com/yolo9000/.
- 코드와 사전 학습 모델들은 온라인에서 이용가능함.
Conclusions
- 실시간 탐지 시스템인 YOLOv2와 YOLO9000을 소개함.
- YOLOv2는 state-of-the art와 다양한 탐지 데이터셋에서 다른 탐지 시스템보다 빠름.
- 속도와 정확도 사이의 smooth tradeoff을 제공하기 위해 다양한 이미지 사이즈에서 운영될 수 있음.
- YOLO9000는 jointly 최적화된 탐지와 분류에 의해 9000 객체 categories보다 많은 탐지를 위한 real-time framework임.
- 다양한 소스들의 데이터와 ImageNet과 COCO를 동시적으로 학습하기 위한 joint한 최적화 기술과 다양한 소스들의 데이터를 결합하기 위해 WordTree을 사용함.
- YOLO9000는 탐지와 분류 사이의 데이터 사이즈 갑을 closing에 향하는 강한 step임.
(소요시간 1시간 10분)
논문 구현
참조 리스트
opensource