Redmon, Joseph, et al. "You only look once: Unified, real-time object detection." Proceedings of the IEEE conference on computer vision and pattern recognition. 2016.
Abstract
새로운 객체 탐지(Object detection) 모델 YOLO를 소개한다.
이전의 객체 탐지 모델들은 이미지 분류 모델(classifiers)를 기반으로 한다.
YOLO는 객체 탐지를 하나의 신경망이 bounding box와 class probalities를 예측하는 하나의 회귀(regression) 문제로 다루는 모델이다.
YOLO는 매우 빠르고, 강건하다.
초당 45프레임의 속도로 이미지를 처리할 수 있다.
간소화된 버전의 Fast YOLO는 155프레임까지도 처리할 수 있다.
이미지의 배경을 물체로 인식하는 false positive error를 다른 모델보다 적게 범한다.
Natural image는 물론, artwork image에도 잘 적용될 수 있는 모델이다.
1. Introduction
기존 객체 탐지에 대한 연구
Deformable Parts Models (DPM)
Sliding Window 방식을 채택
Sliding Window: 이미지 전체를 동일하게 나눈 공간에서 분류 모델(classifier)가 동일하게 작동하여 클래스를 분류하는 방식
R-CNN
bounding box가 될 것이라고 생각되는 곳에 임시로 bounding box를 생성.
그 공간에 대해 모두 분류 모델(classifier)가 작동, 클래스를 분류.
post-processing으로 bounding box의 위치를 정리하고, 중복으로 감지된 bounding box를 제거.
이러한 방법들은 각각 구성 요소들이 매우 많아 각각 요소들을 따로 최적화해야하며, 매우 느린 속도를 가지고 있다.
YOLO (You Only Look Once)
매우 빠르다. 하나의 회귀 문제로 객체 탐지 모델을 재정의했기 때문에 복잡한 파이프라인이 필요없다.
이미지를 전체적, 전역적으로(globally) 살핀다. DPM이나 R-CNN계열의 모델들은 구역을 정해놓고 그 구역을 지역적으로(locally) 보기 때문에 큰 시야로 이미지를 보지 못한다.
물체의 일반화된 특징 표현(generalizable representation)들을 학습할 수 있다.
2. Unified Detection
입력 이미지를 S×S grid로 나눈다.
한 grid 안에 탐지하고자 하는 물체의 중앙점이 들어가면 그 물체를 탐지할 수 있는 기회가 주어진다.
grid는 bounding box B와 confidence score를 예측한다.
confidence score, Pr(Object)×IOUpredtruth: (grid안에 물체가 잘 담겼는지) X (bounding box의 예측이 잘 이루어졌는지), grid에 물체가 없으면 0이 된다.
bounding box는 x,y,w,h, confidence score로 총 다섯 가지로 이루어진다.
grid는 grid안에 물체가 있을 때, 그 물체가 어떤 클래스에 속할 확률, 조건부확률 C를 구한다.