๐ ๋ณธ ๋ฆฌ๋ทฐ๋ YOLOv3 ๋ฐ ๋ฆฌ๋ทฐ๋ฅผ ์ฐธ๊ณ ํด ์์ฑํ์ต๋๋ค.
๐ Multilabel Classification(do not use softmax)
๐ Darknet-53(skip connections and upsampling)
๐ More bounding boxes
โ "nothing like super interesting, just a bunch of small changes that make it better". ์ฆ ๊ธฐ์กด์ YOLO์์ ๋ง์ ๋ณํ๊ฐ ์๋ ์ฝ๊ฐ์ ํฅ์์ด ์์์ต๋๋ค.
โ ๋ณธ ๋ ผ๋ฌธ์์๋ YOLOv3์ ๋ํด ์๋์ ๊ฐ์ด ์๊ฐํฉ๋๋ค.
1. Weโll tell you what the deal is with YOLOv3.
2. Tell you about some things we tried that didnโt work.
3. Weโll contemplate what this all means.
โ YOLOv3๋ ์๋ก์ด ๋คํธ์ํฌ์ ๋ค๋ฅธ ์ข์ ์์ด๋์ด๋ฅผ ์ ์ฉํ์ต๋๋ค.
โ YOLO9000(v2)์ ๊ทธ๋๋ก bounding box prediction์ ์ฌ์ฉํ์ต๋๋ค.
โ YOLOv3๋ 4๊ฐ์ ์ขํ(, , , ,)๋ฅผ ์์ธกํฉ๋๋ค. (์ญ์๋ YOLO9000์ด๋ ๋์ผํฉ๋๋ค.) ๋ํ sum of squared error loss๋ฅผ ์ฌ์ฉํ์ต๋๋ค.
โ ๊ฐ๊ฐ์ ๋ก์ง์คํฑ์ ์ฌ์ฉํ bounding box์ ๋ํ objectness score์ ๊ณ์ฐํฉ๋๋ค. ๋ํ GT๋ ๊ฐ์ฅ ์ค๋ฒ๋ฉ์ด ๋ง์ด ๋๋ bounding box์ confidence๋ 1์ด ๋์ด์ผํฉ๋๋ค.
โ YOLOv3๋ ๊ฐ๊ฐ์ GT ๊ฐ์ฒด์ ๋ํด ํ๋์ bounding box๋ง ํ ๋น๋ฐ์ต๋๋ค.
โ YOLOv3๋ ๊ธฐ์กด์ YOLO์๋ ๋ค๋ฅด๊ฒ multilabel classification์ ์ฌ์ฉํฉ๋๋ค. softmax๋ฅผ ์ฌ์ฉํ์ง ์๊ณ , ๊ฐ๊ฐ ๋ ๋ฆฝ์ ์ผ๋ก logisiticํ classifier๋ฅผ ์ฌ์ฉํ๋ค๊ณ ํฉ๋๋ค. ๋ํ ํ์ต ์ค์๋ binary cross-entropy loss๋ฅผ class prediction์ ์ฌ์ฉํฉ๋๋ค.
โ Softmax๋ฅผ ์ฌ์ฉํ์ง ์๋ ์ด์ ๋ก๋, ๋ง์ฝ ๊ณ์ธต์ ๋ฐ์ดํฐ ์ ์ ์ฌ์ฉํ๋ค๋ฉด, ์ค๋ณต์ ๋ต์ ์์ธกํด์ผํ ํ์๊ฐ ์๊ธฐ ๋๋ฌธ์ ์ฌ์ฉํ์ง ์๋ ๋ค๊ณ ํฉ๋๋ค.
โ YOLOv3๋ 3๊ฐ์ง์ ๋ค๋ฅธ scale boxes๋ฅผ ์ฌ์ฉํฉ๋๋ค. ๊ตฌ์ฒด์ ์ผ๋ก 3๊ฐ์ง scale์ ๋ํด์ 3๊ฐ์ง์ anchor box๋ฅผ ์ฌ์ฉํ๊ฒ ๋ฉ๋๋ค.(์ด 9๊ฐ์ Anchor box)
โ ๊ฐ๊ฐ์ Anchor boxes๋ YOLO9000์ ๋ง์ฐฌ๊ฐ์ง๋ก k-means clustering์ ์ฌ์ฉํฉ๋๋ค. COCO ๋ฐ์ดํฐ ์ ์์ (10 x 13), (16 x 30), (33 x 23), (30 x 61), (62 x 45), (59 x 119), (116 x 90), (156 x 198), (373 x 326) 9๊ฐ์ anchor box๋ฅผ ์ฌ์ฉํ๋ฉฐ, ๊ฐ๊ฐ์ scale์ ๋ํด 3๊ฐ์ anchor box๋ฅผ ์ฌ์ฉํฉ๋๋ค. ๊ฒฐ๊ณผ์ ์ผ๋ก COCO ๋ฐ์ดํฐ ์ ์์ N x N x [3 * (4 + 1 + 80]๋ฅผ ์์ธกํ๋ฉฐ, 4์ bbox์ offsets, 1์ objectness prediction ๊ทธ๋ฆฌ๊ณ 80 class predictions์ ์๋ฏธํฉ๋๋ค.
โ YOLOv3๋ ์ด์ ๋ฒ์ ์ ๋นํด์ 100๋ฐฐ ์ด์์ bounding boxes ์๋ฅผ ๊ฐ์ง๊ณ ์์ต๋๋ค.
๐ YOLOv1 98 boxes(7x7 grid cells, 2boxes per cell @448x448)
๐ YOLOv2 845 boxes(13x13 grid cells, 5 anchor boxes)
๐ YOLOv3 10,647 boxes(@416x416)
โ YOLOv3๋ ๊ธฐ์กด์ Darknet-19์๋ ๋ค๋ฅด ์๋ก์ด ๋คํธ์ํฌ์ธ Darknet-53์ ์ฌ์ฉํฉ๋๋ค. Residual์ด๋ผ๋ Shortcut connections์ ์ฌ์ฉํ๋ฉฐ, ์ด์ ์ ๋ฒ์ ๋ณด๋ค๋ ๋คํธ์ํฌ๊ฐ ์ปค์ก์์ ์ ์ ์์ต๋๋ค. ๋ํ ResNet-101 or ResNet-152๋ณด๋ค๋ ํจ์จ์ ์ ๋๋ค.
โ ์์ ํ๋ ImageNet์ ๊ฒฐ๊ณผ์ ๋๋ค. ํ์์ ๋ณผ ์ ์๋ฏ์ด ResNet-152์ ๋งค์ฐ ๋น์ทํ๋ฉฐ, ์ฃผ๋ชฉํด์ผํ ๊ฒ์ BFLOP/s(์ด๋น ์ฐ์ฐ๋)์ด ์๋์ ์ผ๋ก ๋์ ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ๊ณ ์์ต๋๋ค. ํ์ง๋ง Darknet-19๋ณด๋ค ๋ฎ์ FPS๋ฅผ ๋ณด์ฌ์ฃผ๊ณ ์์ต๋๋ค. ์ด๋ ๋คํธ์ํฌ๊ฐ ์ปค์ง๋ฉด์ ์ผ์ด๋๋ ํ์์ด๋ผ๊ณ ์๊ฐ๋ฉ๋๋ค. ์ฆ, GPU๋ฅผ ๋์ฑ ํจ์จ์ ์ผ๋ก ์ฌ์ฉํ๋ค๋ ๊ฒ์ ์ ์ ์์ต๋๋ค.
โ YOLOv3๋ multi-scale ๋ฐฉ๋ฒ์ ์ฌ์ฉํ๊ณ ์์ผ๋ฉฐ, ์ด๋ FPN๊ณผ ๋น์ทํ๋ค๊ณ ๋ณผ ์ ์์ต๋๋ค. ์ด 3๊ฐ์ scale์ output์ผ๋ก ๊ฐ์ง๋ฉฐ, FPN๊ณผ ๋น์ทํ๊ฒ upsampling๊ณผ concatnation์ ์ฌ์ฉํด 3๊ฐ์ output์ ๊ฐ์ง๋๋ค. (32๋ฐฐ, 16๋ฐฐ, 8๋ฐฐ)
โ Full images์ ์ฌ์ฉํด trainํ์ผ๋ฉฐ, no hard negative mining ๋ฑ ๋ค๋ฅธ ๋ฐฉ๋ฒ์ ์ฌ์ฉํ์ง ์์์ต๋๋ค. YOLOv3๋ multi-scale training, lots of data augmentation, batch normlaization ๋ฑ์ ์ฌ์ฉํ์ต๋๋ค.
โ ๊ฒฐ๊ณผ์ ์ผ๋ก YOLOv3๋ ์์๋ RetinaNet๊ณผ ๋น์ทํ ๊ฒ์ ๋ณผ ์ ์์ง๋ง, ๋๋จธ์ง ์งํ์์๋ ์๋์ ์ผ๋ก ๋ฎ์ ์ฑ๋ฅ์ ๋ณด์ฌ์ค๋๋ค. ํ์ง๋ง ์ด์ ์ detector๋ณด๋ค๋ ์ข์ ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ๊ณ ์๊ณ , ํนํ YOLOv2 ์์ ์๋์ ์ผ๋ก ์ข์ ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ๊ณ ์์ต๋๋ค.
โ COCO์์ ์ฌ์ฉํ๋ ํ๊ฐ์งํ๋ IoU๋ฅผ 0.5 ~ 0.95๊น์ง 0.5์ฉ threshold๋ฅผ ๋์ฌ๊ฐ๋ฉฐ ๋ฅผ ๊ตฌํ๊ณ , ๊ฐ๊ฐ์ mAP๋ฅผ ๊ตฌํ๊ณ ๋ ๋ค์ ์ ์ฒด์ mAP๋ฅผ ๊ตฌํ ๊ฒฐ๊ณผ ๊ฐ์ด๋ผ๊ณ ํฉ๋๋ค.(์ ์๋ COCO์ ํ๊ฐ์งํ์ ๋ํด ๋ถ๋ง์ด ์๋ค๊ณ ํฉ๋๋ค.) PASCAL voc์์ ์ฌ์ฉํ (IoU=0.5)์์๋ ์ข์ ์ฑ๋ฅ์ ๋ณด์ฌ์ค๋๋ค.
โ ๋ค๋ฅธ linear activation ์ฌ์ฉํ ์์ธก ๋ฐฉ๋ฒ์ ์ฌ์ฉํด๋ดค์ง๋ง, ์คํ๋ ค ๋ชจ๋ธ์ ์์ ์ฑ์ ๋ฎ์ท์ต๋๋ค.
โ logisitic activation์ด ์๋ linear activation์ผ๋ก ์ง์ ์ ์ผ๋ก offset์ ์์ธกํ ๋ ค๊ณ ํ์ง๋ง, ์ข์ ์ฑ๋ฅ์ด ๋ณด์ด์ง ๋ชปํ๋ค.
โ YOLOv3๋ ์ด๋ฏธ obj prediction๊ณผ conditional class predictions์ ํตํด Focal loss์ ๋ฌธ์ ์ ๋ํด robustํ๋ค.
โ ๊ธฐ์กด์ Fast R-CNN์ .7๋ณด๋ค ๋์ผ๋ฉด positive, .3 ~ .7 ์ด๋ฉด ๋ฌด์ํ๊ณ , .3์ดํ์ด๋ฉด negative๋ก ํ๋จํ๋ค. ๋น์ทํ ์ ๋ต์ ์ฌ์ฉํด ๋ดค์ง๋ง ์ข์ง ์๋ ๊ฒฐ๊ณผ๊ฐ ๋์ถ๋ฌ๋ค.
โ YOLOv3๋ ๋น ๋ฅด๊ณ ์ ํํ detecor์ด๋ค. ํ์ง๋ง COCO ๋ฐ์ดํฐ ํ๊ฐ์งํ(.5 ~ .95 IoU)์์๋ ์ข์ ๊ฒฐ๊ณผ๊ฐ ๋์ค์ง ์์๋ค. ๋ฐ๋๋ก old detection metric(.5 IOU)์์๋ ์ข์ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ฌ์ค๋ค.
โ ์ฌ๋๋ค์ IOU์ 0.3๊ณผ 0.5์ธ ๊ฐ์ฒด๋ค์ ๊ตฌ๋ถํ๋๋ฐ ์ด๋ ค์์ ๊ฒช๋๋ค. ๊ฒฐ๊ตญ, .5 ~ .95 IoU์ ๊ฐ์ด ๋นก๋นกํ๊ฒ ํ๊ฐํ๋ ๊ฒ์ด ์๋ฏธ๊ฐ ์๋? ๋ผ๋ ์๋ฌธ์ ์ ๊ธฐํฉ๋๋ค.
๐จโ๐ซ ๋ณธ ๋ ผ๋ฌธ์ ์ ์๋ Rebuttal์ด๋ผ๋ ์ถ๊ฐ์ ์ธ ๊ธ๋ก ํตํด ์๊ฒฌ์ ๋ํ ๋ฐ๋ฐ์ ์ถ๊ฐ์ ์ผ๋ก ์งํํฉ๋๋ค.
โ ๋จผ์ ๊ธฐ์กด ๋ ผ๋ฌธ์ ๊ทธ๋ํ์ ๊ธฐ์ค์ด 0์ด ์๋๋ค ๋ผ๋ ์๊ฒฌ์ ์์ ๊ฐ์ ๊ทธ๋ํ๋ก YOLOv3๋ ์ ํํ๋ฉฐ ์๋ ๋ํ ๋น ๋ฅด๋ค ๋ผ๋ ๊ฒ์ ๋ณด์ฌ์ฃผ๊ณ ์์ต๋๋ค.
โ ๋ํ COCO ํ๊ฐ์งํ๋ฅผ ๋นํํ๋ ๊ฒ์ ๋ํ ๊ทผ๊ฑฐ๊ฐ ๋ถ์กฑํ๋ค๋ ์๊ฒฌ์ ์์ ๊ฐ์ ์๋ฃ์ ํจ๊ป ๋ต๋ณํฉ๋๋ค.
โ COCO ํ๊ฐ์งํ์ ๋ํด classification๋ณด๋ค bbox์ ๋ ์ค์๋๋ฅผ ๋๊ณ ์๋ ์งํ๋ผ๊ณ ์ด์ผ๊ธฐํ๋ฉฐ, ์์ ๊ทธ๋ฆผ์ด ๊ณผ์ฅ๋์ด ์๊ธด ํ์ง๋ง mAP๋ฅผ ๊ณ์ฐํ๋ฉด ๋ชจ๋ ๋ค ์ข์ ๊ฒฐ๊ณผ๊ฐ ๋์จ๋ค๊ณ ์ด์ผ๊ธฐํฉ๋๋ค. ๋ํ ํ์ฌ ํ๊ฐ์งํ๊ฐ ์ค์ ์์ ์ฐจ์ด๊ฐ ์๋ค๊ณ ์ด์ผ๊ธฐํ๋ฉฐ, ์๋ก์ด ํ๊ฐ์งํ๊ฐ ํ์ํ๋ค๊ณ ์ด์ผ๊ธฐํฉ๋๋ค.