๐ ๋ณธ ๋ฆฌ๋ทฐ๋ YOLO9000 ๋ฐ ๋ฆฌ๋ทฐ๋ฅผ ์ฐธ๊ณ ํด ์์ฑํ์ต๋๋ค.
๐ Joint train algorithm
๐ Anchor Boxes
๐ Kmeans
๐ Darknet-19
๐ Dataset combination with WordTree
โ Detection Framework๋ ์ ์ ๋นจ๋ผ์ง๋ฉฐ, ์ ํํด ์ง๊ณ ์์ต๋๋ค. ํ์ง๋ง ๋๋ถ๋ถ์ detection ๋ฐฉ๋ฒ๋ก ๋ค์ ์์ ๋ฐ์ดํฐ ์ ์ผ๋ก ์งํด ์ ํ์ ์ ๋๋ค. ๋ฐ๋ฉด classification datasets์ ์๋์ ์ผ๋ก ๋ง์ ๋ฐ์ดํฐ์ ์นดํ ๊ณ ๋ฆฌ๋ฅผ ๊ฐ์ง๊ณ ์์ต๋๋ค.
โ Detection์ ์ํ ํฐ ๋ฐ์ดํฐ๋ฅผ ์ป๊ธฐ ์ด๋ ค์์ผ๋ก , ๋ค์ํ ๋ฐ์ดํฐ ์ ์ ๊ฒฐํฉ์ผ๋ก classification๊ณผ object detection์ ์งํํฉ๋๋ค. YOLO9000์ ์ค์๊ฐ object detector์ด๋ฉด์ 9000๊ฐ์ ์นดํ ๊ณ ๋ฆฌ๋ฅผ ๊ตฌ๋ถํ๋ ๋ฐฉ๋ฒ๋ก ์ ๋๋ค.
โ ๊ธฐ์กด์ YOLO๋ Fast R-CNN๊ณผ ์๋์ ์ผ๋ก localization error์ low recall ๊ฐ์ด ๋ณด์ฌ์ง๋๋ค. ๊ทธ๋ ๊ธฐ์ ์ฐ๋ฆฌ๋ ์์ ๊ฐ์ ์ทจ์ฝ์ ์ ๋ณด์ํ ๊ฒ์ ๋๋ค. ๋ํ YOLOv2๋ ์ ํํ๊ณ ๋น ๋ฅธ ๋คํธ์ํฌ๋ฅผ ๋ชฉํ๋ก ํฉ๋๋ค. ๊ทธ๋ ๊ธฐ์ simplify network์ make the representation easier to learn ์ ๋ชฉํ๋ก ํฉ๋๋ค.
โ Batch Normalization์ ์๋ ดํ๋๋ฐ ์ค์ํ ์ญํ์ ํ๋ฉฐ ๋์์ ๋ค๋ฅธ ์ ๊ทํ ๋ฐฉ๋ฒ๋ก ๋ค์ ๋์ ํ ์ ์์ต๋๋ค.
โ Batch Normalization์ด๋ ๊ฐ๋จํ๊ฒ ๋ฏธ๋๋ฐฐ์น์ ํ๊ท ๊ณผ ๋ถ์ฐ์ ์ด์ฉํด ์ ๊ท์ ํฉ๋๋ค.๋ํ ์ ๊ฒฝ๋ง ๋ ์ด์ด์ ์ค๊ฐ ์ค๊ฐ์ ์์นํด ํ์ต์ ์งํํ๋ฉฐ, ๊ฐ๋ง(Scale), ๋ฒ ํ(Shifht)๋ฅผ ํตํด ๋น์ ํ์ฑ์ ์ ์งํ ์ ์์ต๋๋ค.
โ Batch Normalization์ ํตํด 2%์ mAP๋ฅผ ์ฑ๋ฅ ํฅ์์ ์ป์ ์ ์์์ต๋๋ค.
โ ๋ชจ๋ SOTA detection ๋ฐฉ๋ฒ๋ค์ pre-train๋ ImageNet์ ์ฌ์ฉํ๋ฉฐ, 256x256๋ณด๋ค ์์ input image๋ฅผ ์ฌ์ฉํฉ๋๋ค. YOLO์์๋ 224x224๋ก train์ ํ๊ณ , detection์ 448 ์ฌ์ด์ฆ๋ก detection์ ์งํํ์ต๋๋ค. ๊ทธ ๊ฒฐ๊ณผ ๋คํธ์ํฌ๋ ์ ์ ๋ ฅ ํด์๋๋ก ์กฐ์ ํด์ผํฉ๋๋ค.
โ ๊ทธ๋์ YOLOv2์์๋ 448x448 image๋ฅผ 10 epochs๋ก fine-tuning์ ํ๊ณ , ๊ทธ ๊ฒฐ๊ณผ 4%์ mAP ์ฑ๋ฅ ํฅ์์ ์ป์ ์ ์์์ต๋๋ค.
โ ๊ธฐ์กด YOLO์์๋ bounding box์ ์ขํ๋ฅผ fully connected layer๋ฅผ ์ฌ์ฉํด ์ง์ ์ ์ผ๋ก ์ฐพ์์ต๋๋ค. ํ์ง๋ง YOLOv2์์๋ fully connected layer์ ์ ๊ฑฐํ๊ณ , anchor boxes๋ฅผ ์ฌ์ฉํด bounding box๋ฅผ ์์ธกํฉ๋๋ค.
โ ๋จผ์ conv layer์ output์ด ๋ณด๋ค ๋์ resolution๋ฅผ ๊ฐ์ง๋๋ก pooling layer์ ์ ๊ฑฐํ์ต๋๋ค. ๋ํ final feature map ์ฌ์ด์ฆ๋ฅผ ํ์๋ก ๋ง๋ค๊ธฐ ์ํด 448x448 input images ์ฌ์ด์ฆ ๋์ 416์ ์ฌ์ด์ฆ๋ฅผ input image๋ก ๋ฃ์ต๋๋ค. ํฐ ๊ฐ์ฒด์ ๊ฒฝ์ฐ image์ ์ค์ฌ์ ์์นํ๋ ๊ฒฝ์ฐ๊ฐ ๋ง์๋ฐ, ์ด๋ feature map ํ์์ด๋ฉด feature map ๋ด์ ํ๋์ ์ค์ฌ cell์ด ์กด์ฌํ ์ ์์ต๋๋ค. 416x416์ ํฌ๊ธฐ์์ 32๋ฐฐ์ downsampling์ ํตํด ์ต์ข ์ ์ผ๋ก 13x13 feature map๋ฅผ ์ถ์ถํ ์ ์์ต๋๋ค.
โ Anchor boxes๋ฅผ ์ฌ์ฉํด ์ฝ๊ฐ ๋ฎ์ ์ ํ๋๋ฅผ ์ป์ ์ ์์๋๋ฐ, Anchor boxes๋ฅผ ์ฌ์ฉํ์ง ์์ ๋์๋ 69.5mAP์ 81% recall์ ์ป์ ์ ์์๊ณ , Anchor boxes๋ฅผ ์ฌ์ฉํ ์ 69.2mAP์ 88% recall์ ์ป์ ์ ์์์ต๋๋ค. ์ ํ๋๋ ์กฐ๊ธ ๋ด๋ ค๊ฐ์ง๋ง, 7% ๋์ recall์ ์ป์ ์ ์์์ต๋๋ค. ๊ธฐ์กด์ YOLO๋ image๋น 98 boxes๋ง์ ์์ธกํ์ง๋ง, anchor boxes๋ฅผ ์ฌ์ฉํ๋ฉด ์์ฒ๊ฐ์ boxes์ ์ป์ ์ ์์ต๋๋ค. ๋น๋ก ๋ฎ์ mAP๋ฅผ ๊ธฐ๋กํ์ง๋ง recall์ ํฅ์์ ๋ชจ๋ธ์ด ๊ฐ์ ํ ์ฌ์ง๊ฐ ๋ ๋ง๋ค๋ ๊ฒ์ ์๋ฏธํฉ๋๋ค.
โ Anchor boxes๋ฅผ ์ฌ์ฉํจ์ผ๋ก์จ 2๊ฐ์ง ๋ฌธ์ ๊ฐ ์์ต๋๋ค. ๋จผ์ box dimensions are hand picked ๋๋ค๋ ๊ฒ์ ๋๋ค. ๋คํธ์ํฌ๊ฐ ์์ํ ์ ์๋๋ก ๋ ๋์ prior๋ฅผ ์ ํํ๋ค๋ง๋ ๋คํธ์ํฌ๊ฐ ์ข์ predict good detection์ ์ํํ ์ ์์๊ฒ๋๋ค. ๊ทธ๋์ k-means ๊ตฐ์ง ๋ฐฉ๋ฒ์ ์ฌ์ฉํด bounding box๋ฅผ setํฉ๋๋ค.
โ ๊ธฐ์กด์ k-means์์ ์ฌ์ฉํ๋ ์ ํด๋ฆฌ๋ ๊ฑฐ๋ฆฌ๋ฅผ ์ฌ์ฉํ๋ฉด ๋ ํฐ ๋ฐ์ค๋ค์ ์์ ๋ฐ์ค๋ค์ ๋นํด ํฐ ์๋ฌ๋ฅผ ๋ฐ์์ํต๋๋ค. ๊ทธ๋์ ์๋์ ๊ฐ์ ๋ฐฉ๋ฒ์ผ๋ก ๊ฑฐ๋ฆฌ๋ฅผ ๊ณ์ฐํฉ๋๋ค.
โ ์์ ๊ทธ๋ํ์์ K=5 ์ผ๋ ๋ชจ๋ธ ๋ณต์ก์ฑ๊ณผ ๋์ recall์ ๋ํ ์ข์ trade-off ๊ด๊ณ๋ฅผ ๋ณด์ ๋๋ค.
โ ์์ ํ์์ ๋ณผ ์ ์๋ฏ์ด, k=5์ธ k-means๋ฅผ ์ฌ์ฉํ ๋ฐฉ๋ฒ์ด 9๊ฐ์ Anchor Boxes๋ฅผ ์ฌ์ฉํ ๊ฒ๋ณด๋ค ๋์ Avg IOU๋ฅผ ๋ณด์ฌ์ค๋๋ค.
โ YOLO์์ anchor boxes๋ฅผ ์ฌ์ฉํ ๋ ๋ฐ์ํ๋ 2๋ฒ์งธ ์ด์๋ model instability์ ๋๋ค. ๋๋ถ๋ถ์ instability (x,y) ์ขํ๋ฅผ ์์ธกํ ๋ ๋ฐ์ํ๊ฒ ๋ฉ๋๋ค. RPN์์ ์์ธกํ๋ tx, ty ๊ทธ๋ฆฌ๊ณ (x,y) ์ขํ๋ ์๋์ ์๊ณผ ๊ฐ์ด ์์ธก์ด ๋ฉ๋๋ค.
โ ์๋ฅผ ๋ค๋ฉด tx = 1์ด๋ฉด ์ค๋ฅธ์ชฝ์ผ๋ก box๊ฐ ์ด๋ํ๊ณ , tx = -1์ด๋ฉด ์ผ์ชฝ์ผ๋ก ๋ฐ์ค๊ฐ ์ด๋ํฉ๋๋ค. ์์ ๊ฐ์ ๋ฐฉ๋ฒ์ ์ ์ฝ์ด ์๊ธฐ์ anchor box๋ ์ด๋ฏธ์ง ๋ด์ ์ด๋ค ์ง์ ์๋ ์์นํ ์ ์์ต๋๋ค. ์ด๋ก ์ธํด ์ต์ ์ ๊ฐ์ ์ฐพ๋๋ฐ ์ค๋๊ฑธ๋ฆด ์ ์์ต๋๋ค.
โ ์์ ๋ฌธ์ ํด๊ฒฐ๋ฐฉ์์ผ๋ก YOLO์ ๋ฐฉ์์ ์ฌ์ฉํ์ฌ grid cell์ ์๋์ ์ธ ์์น ์ขํ๋ฅผ ์์ธกํ๋ ๋ฐฉ๋ฒ์ ์ ํํ์ต๋๋ค. , ์ grid cell์ ์ข์๋จ์ ๊ธธ์ด์ ๋๋ค(์์ ์ฌ์ง๊ณผ ๊ฐ์ด). bounding box regression์ ํตํด ์ป์ , ๊ฐ์ logisic regression ํจ์๋ฅผ ์ ์ฉํ์ฌ 0~1 ์ฌ์ ๊ฐ์ ๊ฐ์ง๋๋ก ์กฐ์ ํฉ๋๋ค.
โ dimension cluster์ anchor box ์ขํ๋ฅผ ์ง์ ์์ธกํจ์ผ๋ก์ 5%์ recall ์ฑ๋ฅ ํฅ์์ ์ป์ ์ ์์์ต๋๋ค.
โ YOLO v2๋ ์ต์ข ์ ์ผ๋ก 13x13 feature map๋ฅผ ์ถ์ถํฉ๋๋ค. ์ด๊ฒ์ ํฐ ๊ฐ์ฒด๋ฅผ ์์ธกํ๋๋ฐ ์์ํ ๋ฐ๋ฉด ์์ ๋ฌผ์ฒด๋ฅผ ์์ธกํ๋๋ฐ ์ด๋ ค์์ด ์์ต๋๋ค. ์ด๋ฐ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ์์ ์๋ 26x26 resolution layer์ passthoriugh layer๋ฅผ ํตํด ๊ฐ์ง๊ณ ์ต๋๋ค. ์์ ๊ทธ๋ฆผ๊ณผ ๊ฐ์ 26x26x512 feature map๋ฅผ 4๊ฐ๋ก ๋๋ concatenate ํด์ค๋๋ค. ์ดํ ์ต์ข ์ ์ผ๋ก ์๋์ 13x13 feature map๊ณผ๋ concatenate ํฉ๋๋ค. ์์ ๊ฐ์ ๋ฐฉ๋ฒ์ผ๋ก fine-grain feature์ ์ ๊ทผํ ์ ์์๊ณ , ๊ฒฐ๊ณผ์ ์ผ๋ก 1%์ ์ฑ๋ฅ ํฅ์์ ์ป์ ์ ์์์ต๋๋ค.
โ YOLOv2๋ ๊ธฐ์กด์ ๋ชจ๋ธ๊ณผ ๋ค๋ฅด๊ฒ ์ค์ง conv layer์ pooling layer๋ง์ ์ฌ์ฉํ๊ธฐ์, ๋ค์ํ ์ฌ์ด์ฆ์ input image๋ฅผ ๋ฐ์ ์ ์์ต๋๋ค. ๋ ผ๋ฌธ์์๋ YOVL v2๊ฐ ๋ค์ํ images๋ค์ robustํ๊ธฐ ์ํฉ๋๋ค.
โ ๊ทธ๋์ image ์ฌ์ด์ฆ๋ฅผ ๊ณ ์ ํ๋ ๊ฒ์ด ์๋, 10 batches ๋ง๋ค ๋๋คํ๊ฒ ์๋ก์ด image ์ฌ์ด์ฆ๋ฅผ ์ ํํฉ๋๋ค. YOLOv2๋ 32๋ฐฐ์ downsampling์ ์งํํ๊ธฐ์ {320,352,..608} 32์ ๋ฐฐ์ ํฌ๊ธฐ ๋งํผ์์ ๋๋คํ๊ฒ ์ ํํฉ๋๋ค. ๊ฒฐ๊ณผ์ ์ผ๋ก ์์ ํ์ ๊ฐ์ ๊ฒฐ๊ณผ๋ฅผ ๋์ถํ๊ฒ ๋ฉ๋๋ค.
โ YOLOv2์์๋ ๋น ๋ฅธ ์๋์ ์ ํ๋๋ฅผ ์ํด์ Googlenet ์ํคํ ์ฒ๋ฅผ ์ปค์คํ ํ ํ์ผ๋ฉฐ, ๊ทธ ๊ฒฐ๊ณผ VGG-16๋ณด๋ค ๋น ๋ฅด๊ณ ๋ ๋ณต์กํ ๋ชจ๋ธ Darknet-19๋ฅผ ๋ง๋ค์์ต๋๋ค.
โ Darknet-19์ 9๊ฐ์ Conv layer์ 5๊ฐ์ maxpooling layer์ ๊ฐ์ง๊ณ ์์ผ๋ฉฐ, ์์ ๊ตฌ์กฐ๋ฅผ ๋ฐ๋ฅด๊ณ ์์ต๋๋ค. ๋ง์ง๋ง์๋ GAP๋ฅผ FCN ๋์ ์ฌ์ฉํ๊ณ ์์ต๋๋ค. Darknet-19์ ImageNet์์ 72.9% top-1 accuracy, 91.2% top5 accuracy๋ฅผ ๋ณด์ฌ์ค๋๋ค.
โ Standard ImageNet 1000 class classification dataset์ SGD๋ฅผ ์ฌ์ฉํด 160 epochs๋งํผ ํ์ต์ ์งํํ์ต๋๋ค. Training์๋ random crops, rotations, and hue, saturation and exposure shifts๋ฅผ ์ฌ์ฉํด data augementation์ ์งํํ์ต๋๋ค. ๋ํ 448x448 ์ด๋ฏธ์ง ์ฌ์ด์ฆ๋ฅผ 10 epochs๋งํผ fine-tuning์ ์งํํ์ผ๋ฉฐ, ๊ทธ ๊ฒฐ๊ณผ top-1 ์ ํ๋๋ 76.5%, top-5 ์ ํ๋๋ 93.3%์ ์ฑ๋ฅ์ ๋ณด์์ต๋๋ค.
โ Detection์์๋ Darknet-19์ ๋ง์ง๋ง Conv layer๋ฅผ ์ ๊ฑฐํ๊ณ , 3x3x1024 conv layer๋ก ๋์ฒดํ๊ณ , 1x1 conv layer๋ฅผ ์ถ๊ฐํฉ๋๋ค. ์ด๋ VOC์์ 1x1 conv layer์ channel ์๋ 125๋ก, ์ด๋ ๊ฐ cell ๋ง๋ค 5๊ฐ์ bounding-box์ 5๊ฐ์ ์ขํ ๊ทธ๋ฆฌ๊ณ 20๊ฐ์ class๋ก ์ด 125 channel ์๋ฅผ ๊ฐ์ง๋๋ค. ๊ทธ๋ฆฌ๊ณ passthrough layer ๋ํจ์ผ๋ก์จ fine grain features๋ค์ ์์ธกํ ์ ์์ต๋๋ค.
โ ๋ ผ๋ฌธ์์๋ detection๊ณผ classification datasets์ผ๋ก ๊ฒฐํฉ๋ datasets์ ํ์ต์ ํตํด ๋ ๋ง์ class๋ฅผ ์์ธกํ๋ YOLO9000์ ์๊ฐํฉ๋๋ค. Classification image์์๋ YOLO9000๋ ๊ตฌ์กฐ์ ๋ถ๋ฅ ํน์ ๋ถ๋ถ์์์ loss๋ง ์ญ์ ํํฉ๋๋ค. ๊ธฐ๋ณธ์ ์ผ๋ก Detection datasets์์๋ ์ผ๋ฐ์ ์ธ ๋ผ๋ฒจ๋ฟ์ด ์์ต๋๋ค. ์๋ฅผ ๋ค๋ฉด "dog"์ "boat"์ ๊ฐ์ ๋ผ๋ฒจ๋ฟ์ด ์๋ค๋ฉด classification datasets์์๋ "Norfolk terrier"...๋ฑ๋ฑ๊ณผ ๊ฐ์ด ๋ ๊ตฌ์ฒด์ ์ธ ๋ผ๋ฒจ์ ๊ฐ์ง๊ณ ์์ต๋๋ค.
โ ์์ ๊ฐ์ ๋ฌธ์ ํด๊ฒฐ์ ์ํด YOLO9000์์๋ ๊ฐ ๋ฐ์ดํฐ๋ฅผ ๊ฒฐํฉํ ์ํธ ๋ฐฐํ์ ์ด์ง ์์ multi-label model์ ์ฌ์ฉํฉ๋๋ค.
โ ImageNet์ WordNet ์ด๋ผ๋ ์ธ์ด ๋ฐ์ดํฐ์ ์ ๊ธฐ๋ฐ์ผ๋ก ๋ง๋ค์ด์ก์ต๋๋ค. WordNet์ tree ํํ๊ฐ ์๋ directed graph ํ์์ผ๋ก ์ด๋ฃจ์ด์ ธ์์ต๋๋ค. ์๋ํ๋ฉด ์ธ์ด๋ ๋ณต์กํ๊ธฐ์ ๋จ์ํ ํธ๋ฆฌ๋ก ํํํ๊ธฐ ์ด๋ ต๊ธฐ ๋๋ฌธ์ ๋๋ค. ์๋ฅผ ๋ค์ด "dog"๋ "canine"์๋ ์ํ๊ณ , "domestic animal"์๋ ์ํ๊ธฐ ๋๋ฌธ์ ๋๋ค. YOLO9000๋ ์ด๋ฅผ ๋จ์ํํด์ WordNet๊ธฐ๋ฐ์ผ๋ก ๊ณ์ธต์ ์ธ tree๋ฅผ ๊ตฌ์กฐํํ์ต๋๋ค.
โ WordTree๋ฅผ ์ฌ์ฉํด classification์ ์ํํ ๋๋ ์์ ๊ฐ์ด "terrier"๋ผ๊ณ ์๋ฅผ ๋ค๋ฉด ๊ฐ๊ฐ์ "terrier"์ ๋ํ ์กฐ๊ฑด๋ถ ๋ถํฌ๋ฅผ ๊ณ์ฐํฉ๋๋ค.
โ ๊ทธ๋ฆฌ๊ณ "Norfolk terrier"์ ๋ํด ๊ณ์ฐํ๋ฉด ์์ ๊ฐ์ด ๋ชจ๋ ์กฐ๊ฑด๋ถ ๋ถํฌ๋ฅผ ๊ณฑํฉ๋๋ค.
โ ImageNet ๋ฐ์ดํฐ์ ์ ํตํด WordTree๋ฅผ ๊ตฌ์ฑํ ๊ฒฝ์ฐ, ์ต์์ ๋ ธ๋๋ถํฐ ์ตํ์ ๋ ธ๋๊น์ง ์ด ์นดํ ๊ณ ๋ฆฌ๋ฅผ ํฉ์น๋ฉด 1369๊ฐ์ ๋ฒ์ฃผ๊ฐ ์กด์ฌํฉ๋๋ค. 369๊ฐ์ ์นดํ ๊ณ ๋ฆฌ๊ฐ ๋์ด๋ฌ์์๋ ๋ถ๊ตฌํ๊ณ 71.9%์ top-1 accuracy์ 90.4%์ top-5 accuracy๋ผ๋ ๊ฒฐ๊ณผ๋ฅผ ์ป์ ์ ์์์ต๋๋ค.
โ COCO datasets๊ณผ ImageNet์ ๊ฒฐํฉํ 9418๊ฐ์ ๋ฒ์ฃผ๋ฅผ ๊ฐ์ง๋ WordTree๋ฅผ ๊ตฌ์ฑํ ์ ์์ต๋๋ค. ImageNet์ด COCO datasets๋ณด๋ค ํจ์ฌ ๋ ๋ง์ ๋ฐ์ดํฐ๋ฅผ ๊ฐ์ง๊ณ ์์ผ๋ฏ๋ก, COCO dataset๋ฅผ oversamplingํด 4:1 ๋น์จ๋ก ๋ฐ์ดํฐ์ ์ ๊ตฌ์ฑํ์ต๋๋ค.
โ ์์ datasets์ ๊ฐ์ง๊ณ YOLO9000์ trainํฉ๋๋ค. YOLO v2์ ์ํคํ ์ณ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก 5๊ฐ๊ฐ ์๋ 3๊ฐ์ anchor boxes๋ฅผ ์ฌ์ฉํด ํ์ตํฉ๋๋ค. detection dataset์ image๋ ์ผ๋ฐ์ ์ธ ๋ฐฉ๋ฒ์ผ๋ก detection loss๋ฅผ backward passํ๊ณ , classification loss์ ๊ฒฝ์ฐ์๋ ํน์ ๋ฒ์ฃผ์์ ์์ ๋ฒ์ฃผ์ ๋ํด์๋ง loss๋ฅผ ๊ณ์ฐํฉ๋๋ค. classification datasets image์ ๊ฒฝ์ฐ์๋ classification loss์ ๋ํด์๋ง backward pass๋ฅผ ์ํํ๋ฉฐ, ์ด๋ GT box์์ IoU 0.3 ์ด์์ ๊ฒฝ์ฐ๋ง ์ญ์ ํ๋ฅผ ์ํํฉ๋๋ค.
โ ๋ ผ๋ฌธ์์๋ YOLO v2์ YOLO 9000, ์ค์๊ฐ detection ๊ตฌ์กฐ๋ฅผ ์๊ฐํฉ๋๋ค. YOLO v2๋ SOTA์ด๋ฉฐ ๋ค๋ฅธ detection ๋คํธ์ํฌ๋ณด๋ค ๋น ๋ฅธ ์๋๋ฅผ ๊ฐ์ง๊ณ ์์ต๋๋ค. ๋ํ ๋ค์ํ detection datasets์ ๋ํด์๋ ํ์ต์ด ๊ฐ๋ฅํฉ๋๋ค. YOLO 9000์ 9000๊ฐ์ ๊ฐ์ฒด ์นดํ ๊ณ ๋ฆฌ์ ๋ํด detection๊ณผ classification์ด ๊ฐ๋ฅํฉ๋๋ค. ๊ทธ๋ฆฌ๊ณ ๊ณ์ธต์ classifciation์ ํตํ dataset์ ๊ฒฐํฉ์ classification๊ณผ segmentation domain์ ์ ์ฉํ ๊ฒ์ ๋๋ค.