์ฌํ์ฉ ์ฐ๋ ๊ธฐ object detection์ ์ฃผ์ ๋ก ํ๋ก์ ํธ๋ฅผ ์งํํ๋ค. detection์ ์งํํ๋ฉด์ ๋ค์ํ ๊ฒ์ ์๊ฒ ๋์๋ค. ํนํ yolo model์ ์ค์ ์ผ๋ก ์ฐ๊ตฌํด ์๊ธฐ์ ๋ค๋ฅธ detection์ ํ๋๋ผ๋ ์ ์ฉ๋ฅ๋ ฅ๋ ์๊ธด ๊ฒ ๊ฐ๋ค. ๋งค๋ ฅ์๋ ๊ธฐ์ ๋ก ์กฐ๊ธ ๋ ๊ณต๋ถํด ๋ณด๊ณ ์ถ๋ค๋ ์์ฌ๋ ์๊ฒจ ๋ค์ํ ์๋๋ฅผ ์งํํ๋ค. ์ง๊ธ๊น์ง์ ์๋์ ์ฐ๊ตฌ๋ฅผ ๊ธฐ๋กํ๊ณ ์ ํ๋ค.
๋ฐ์ผํ๋ก ๋๋ ์์ฐ, ๋๋ ์๋น์ ์๋. ์ฐ๋ฆฌ๋ ๋ง์ ๋ฌผ๊ฑด์ด ๋๋์ผ๋ก ์์ฐ๋๊ณ , ์๋น๋๋ ์๋๋ฅผ ์ด๊ณ ์๋ค. ํ์ง๋ง ์ด๋ฌํ ๋ฌธํ๋ ์ฐ๋ ๊ธฐ ๋๋, ๋งค๋ฆฝ์ง ๋ถ์กฑ๊ณผ ๊ฐ์ ์ฌ๋ฌ ์ฌํ ๋ฌธ์ ๋ฅผ ๋ณ๊ณ ์๋ค. ๋ถ๋ฆฌ์๊ฑฐ๋ ์ด๋ฌํ ํ๊ฒฝ ๋ถ๋ด์ ์ค์ผ ์ ์๋ ๋ฐฉ๋ฒ ์ค ํ๋์ด๋ค. ์ ๋ถ๋ฆฌ๋ฐฐ์ถ ๋ ์ฐ๋ ๊ธฐ๋ ์์์ผ๋ก์ ๊ฐ์น๋ฅผ ์ธ์ ๋ฐ์ ์ฌํ์ฉ๋์ง๋ง, ์๋ชป ๋ถ๋ฆฌ๋ฐฐ์ถ ๋๋ฉด ๊ทธ๋๋ก ํ๊ธฐ๋ฌผ๋ก ๋ถ๋ฅ๋์ด ๋งค๋ฆฝ ๋๋ ์๊ฐ๋๊ธฐ ๋๋ฌธ์ด๋ค. ๋ฐ๋ผ์ ์ฐ๋ฆฌ๋ ์ฌ์ง์์ ์ฐ๋ ๊ธฐ๋ฅผ Detection ํ๋ ๋ชจ๋ธ์ ๋ง๋ค์ด ์ด๋ฌํ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํด๋ณด๊ณ ์ ํ๋ค.
0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 |
---|---|---|---|---|---|---|---|---|---|
General trash | Paper | Paper pack | Metal | Glass | Plastic | Styrofoam | Plastic bag | Battery | Clothing |
โโโ dataset
โโโ train.json
โโโ test.json
โโโ train
โโโ test
[ํ๋ก์ ํธ ํ์๋ผ์ธ]
[ํ๋ก์ ํธ ์ฑ๋ฅ ๊ทธ๋ํ]
์ฐ๋ฆฌ๋ ์ฌ์ง์์ ์ฐ๋ ๊ธฐ๋ฅผ Detection ํ๊ธฐ ์ํด์ MMDetection ์คํ์์ค ๊ฐ์ฒด ํ์ง ๋ผ์ด๋ธ๋ฌ๋ฆฌ๋ฅผ ํ์ฉํ์ฌ ๋ค์ํ ๊ฐ์ฒด ํ์ง ๋ชจ๋ธ์ ์ฌ์ฉํ๋ค. ์ฌ๋ฌ ๊ฐ์ฒด ํ์ง ๋ชจ๋ธ์ ์ฌํ์ฉ ํ๋ชฉ ๋ถ๋ฅ ๊ณผ์ ์ ๋ง๊ฒ ํ๋ํ๊ณ ์กฐํฉํ์ฌ ๋ค์ด๋ฒ ๋ถ์คํธ์บ ํ์์ ๊ฐ์ตํ โ์ฌํ์ฉ ํ๋ชฉ ๋ถ๋ฅ๋ฅผ ์ํ Object Detection ๋ฆฌ๋๋ณด๋ ํ๋ก์ ํธโ ์์ mAP50 0.7482๋ฅผ ๊ธฐ๋กํ์ฌ 2๋ฑ์ ์ฐจ์งํ๋ค. ์ฐ๋ ๊ธฐ Detection ์ฑ๋ฅ์ ์ฌ๋ฆฌ๊ธฐ ์ํด ์ฐ๋ฆฌ๊ฐ ํ ์๋๋ฅผ ์์ฝํ๋ฉด ๋ค์๊ณผ ๊ฐ๋ค.
๋ชจ๋ธ ํ์ต ๊ณผ์ ์์ ์ฑ๋ฅ์ ํ๊ฐํ๊ธฐ ์ํด์ ํ์ต ๋ฐ์ดํฐ์
๊ณผ ๊ฒ์ฆ ๋ฐ์ดํฐ์
์ผ๋ก ๋ถํ ํ๋ค. ํ์ต ๋ฐ์ดํฐ์
์ ํด๋์ค ๋ถํฌ ๋ถ๊ท ํ์ ๋ณด์ ํ๊ธฐ ์ํด Startifed group k-fold ๋ฐฉ์์ ํ์ฉํ์ฌ ๊ฐ fold์ ํด๋์ค ๋ถํฌ๊ฐ ๊ท ๋ฑํด์ง๋๋ก ํ๋ค.
์ต์ข ์ ์ผ๋ก Fold1์ ๋ํด์ ์คํํ์ฌ ์ฑ๋ฅ์ ์ธก์ ํ๊ณ Fold1 ์ ์คํ๊ฒฐ๊ณผ๋ฅผ ๋ชจ๋ Fold์ ๋ฐ์ํ์ฌ 5-Fold ์์๋ธ์ ํตํด ์ต์ข ๊ฒฐ๊ณผ๋ฌผ์ ๋ง๋ค์๋ค.
Mean | Q1, Q3 Range | |
---|---|---|
Battery | 1.4332 | [0.7054, 1.6608] |
Clothing | 1.3916 | [0.7451, 1.6229] |
General trash | 1.2963 | [0.8391, 1.4873] |
Glass | 1.2395 | [0.6954, 1.4824] |
Metal | 1.0440 | [0.4725, 1.3875] |
Paper | 1.2881 | [0.7065, 1.5731] |
Paper pack | 1.4741 | [0.7928, 1.6312] |
Plastic | 1.1068 | [0.6247, 1.3174] |
Plastic bag | 1.4283 | [0.6307, 2.1209] |
Styrofoam | 1.2283 | [0.6537, 1.5352] |
All Classes | [0.4725, 2.1209] |
์ฃผ์ด์ง ๋ฐ์ดํฐ์์ ์ต์ ์ anchor box ratio๋ฅผ ํ์ธํ๊ธฐ ์ํด ํ์ต ๋ฐ์ดํฐ์ ๊ฐ ํด๋์ค์ ๋ํ์ฌ bounding box aspect ratio๋ฅผ ์๊ฐํํ์ฌ ๋ถ์ํ๋ค.
๋ชจ๋ ํด๋์ค์์ ๊ฐ์ฒด์ aspect ratio์ Q1-Q3 ๋ฒ์๊ฐ [0.4725, 2.1209]์ ๋ถํฌํ๋ ๊ฒ์ ํ์ธํ ์ ์์๋ค. ์ด๋ฌํ ๋ถํฌ๋ฅผ ๋ฐํ์ผ๋ก ๋ฐ์ดํฐ์ ์ ์ต์ ํ๋ anchor box ratio๋ฅผ ์ค์ ํ์๋ค.
์คํ ์ค์ธ ๋ชจ๋ธ์ ์ฑ๋ฅ์ ํ๊ฐํ๊ธฐ ์ํด์ ๊ฒ์ฆ ๋ฐ์ดํฐ์ ์ ๋ํ์ฌ Predictions bounding box์ Ground Truth bounding box ๊ทธ๋ฆฌ๊ณ PR ๊ณก์ ์ ์๊ฐํํ์๋ค. ์ด๋ฅผ ํตํด ๋ชจ๋ธ์ ์ฑ๋ฅ์ ๋์ผ๋ก ํ์ธํ๊ณ ๋ชจ๋ธ์ ์ฝ์ ์ ํ์ ํ ์ ์์๋ค. [๊ทธ๋ฆผ 3]์ ๋ณด๋ฉด ์์ ๊ฐ์ฒด(General trash)์ ๋ํด์ localization์ ๋ชปํ๊ณ , ๊ฒน์ณ์๋ ๊ฐ์ฒด(Plastic)์ ๋ํด classifiaction์ ๋ชปํจ์ ์ ์ ์๋ค.
๋ฒ ์ด์ค๋ผ์ธ ์ด๊ธฐ ์คํ์์๋ MMDetction ๋ผ์ด๋ธ๋ฌ๋ฆฌ๋ฅผ ํ์ฉํด ๋ค์ํ ๊ฐ์ฒด ํ์ง ๋ชจ๋ธ๋ค์ ์ฑ๋ฅ์ ๋น๊ตํ์์ผ๋ฉฐ, Fold 1 ๋ฐ์ดํฐ์ ์ผ๋ก ์คํ์ ์งํํ๋ค. [ํ1]์ ํตํด Faster R-CNN, Cascade R-CNN, ATSS, UniverseNet, RetinaNet, VFNet ๋ชจ๋ธ๋ค์ ์ด๊ธฐ ์ฑ๋ฅ์ ํ์ธํ ์ ์๋ค.
Model | Backbone | Neck | Optimizer | lr | Epoch | Test mAP50 |
---|---|---|---|---|---|---|
faster RCNN | resnet50 | fpn | SGD | 0.02 | 12 | 0.3734 |
cascade RCNN | SwinL | fpn | SGD | 0.02 | 20 | 0.5161 |
ATSS | SwinL | fpn | SGD | 0.02 | 20 | 0.5015 |
universenet | SwinL | fpn | AdamW | 0.0001 | 20 | 0.5545 |
retinanet | SwinL | fpn | AdamW | 0.0001 | 20 | 0.5438 |
vfnet | SwinL | fpn | AdamW | 0.0001 | 20 | 0.5623 |
[ํ1] MMDetection ๋ผ์ด๋ธ๋ฌ๋ฆฌ ๋ฒ ์ด์ค๋ผ์ธ ๋ชจ๋ธ ์ด๊ธฐ ์ฑ๋ฅ
์ดํ Backbone, Neck, Optimizer, learning rate, ์ฆ๊ฐ ๊ธฐ๋ฒ ๋ฑ์ ํ์ดํผํ๋ผ๋ฏธํฐ ํ๋ ์คํ์ ์งํํ๋ค.
Model | Backbone Model | Test mAP50 |
---|---|---|
Cascade RCNN | resnet50 | 0.3613 |
Cascade RCNN | SwinS | 0.4628 |
Cascade RCNN | SwinL | 0.5161 |
[ํ2] Backbone Model์ ๋ฐ๋ฅธ Cascade RCNN ์ฑ๋ฅ
Cascade R-CNN์ ResNet50, Swin Transformer Small, Swin Transformer Large๋ฅผ backbone ๋ชจ๋ธ๋ก ์ฌ์ฉํ์ฌ ์ฑ๋ฅ์ ๋น๊ตํ์๋ค. ResNet50์ ์ ํต์ ์ธ CNN ๊ธฐ๋ฐ ๋ชจ๋ธ๋ก, Swin Transformer์ ๋นํด ์๋์ ์ผ๋ก ๋ฎ์ ์ ํ๋๋ฅผ ๋ณด์๋ค. Swin Transformer์ Transformer ๊ธฐ๋ฐ์ backbone์ผ๋ก, ํจ์น ๋จ์๋ก ์ด๋ฏธ์ง๋ฅผ ์ฒ๋ฆฌํ๋ฉด์๋ ์ ์ญ์ ์ธ ํน์ง์ ์ถ์ถํ ์ ์๋ค.
๊ฒฐ๊ณผ์ ์ผ๋ก, ๋ชจ๋ธ์ backbone์ Swin Transformer model๋ก ์ ํํจ์ผ๋ก์จ ์ฑ๋ฅ์ ํฅ์์ํฌ ์ ์์๋ค.
Swin Transformer model์ ๊ฒฝ์ฐ ImageNet 22k์ (384x384) ์ด๋ฏธ์ง๋ก๋ถํฐ ํ์ต๋ ๊ฐ์ค์น๋ฅผ ๊ฐ์ ธ์ fine-tuning ํ์ฌ ์ฌ์ฉํ๋ค. git
์ฌ๋ฌ input์ ๋ํด ๋์ฑ ๊ฒฌ๊ณ ํ ๋ชจ๋ธ์ ๋ง๋ค๊ณ ์ 1024x1024์ 1024x720์ ๋ ์ข ๋ฅ์ scale ์ด๋ฏธ์ง๋ฅผ ์ฌ์ฉํ์ฌ ๋ชจ๋ธ์ ํ์ต์์ผฐ๋ค. ์ด๋ฌํ ํน์ฑ์ ๋ง์ถ์ด, ๋ค์ํ ํฌ๊ธฐ์ ํํ์ ๊ฐ์ฒด๋ฅผ ์ ์ก์๋ผ ์ ์๋๋ก ํ๊ธฐ ์ํด scale, spatial, task์ ๋ํ attention์ ํ๋์ head๋ก ํตํฉ์ํฌ ์ ์๋ dyhead๋ฅผ ์ฌ์ฉํ๋ค. ATSS ๋ชจ๋ธ์ head ๋ถ๋ถ์ dyhead๋ฅผ ๊ฒฐํฉ์ํจ ๊ตฌ์กฐ๋ฅผ ์ฌ์ฉํ ๋, ๊ธฐ์กด ATSS ๋ชจ๋ธ์ ๋นํด ์ข์ ์ฑ๋ฅ์ด ๋์ด์ ํ์ธํ ์ ์์๋ค.
Cascade RCNN ๋ชจ๋ธ์ ๋ํด ๊ฐ๊ฐ IoU threshold ๊ฐ์ ๋ค๋ฅด๊ฒ ์ค์ ํ์ฌ inference๋ฅผ ํ์ ๋ ์์์ ์ด๋ฏธ์ง์ ๋ํ ๊ฒฐ๊ณผ๋ ์์ ๊ฐ๋ค. IoU threshold ๊ฐ์ ๋์ธ ๊ฒฝ์ฐ๊ฐ score ๊ฐ์ด ๋ฎ์ ๋ฐ์ค๋ค์ ์ ๊ฑฐํ๋ฏ๋ก ์๊ฐ์ ์ผ๋ก๋ ๋ ์ detection์ด ๋ ๊ฒ์ฒ๋ผ ๋ณด์ด์ง๋ง, ์ค์ ๋ก mAP50์ ๋ ๋ฎ๊ฒ ๋์จ๋ค๋ ๊ฒ์ ํ์ธํ ์ ์๋ค.
ํ๊ฐ์งํ์ธ mAP50์ ํน์ฑ ์ ํ๋ฆฐ bounding box์ ๋ํด ๊ฐ์ ๋๋ ์ ์๋ณด๋ค ground truth๋ฅผ ๋ง์ท์ ๋ ์ป๋ ์ ์๊ฐ ํฌ๋ค. ๋ฐ๋ผ์ bounding box๋ฅผ ๋ง์ด ์์ฑํ๋ํ๋๋ก IOU threshold ๊ฐ์ ๋ฎ์ถ์ด ์ฌ์ฉํ๋ค.
learning rate๊ฐ ์์์ง ๋๋ง๋ค validation ์ฑ๋ฅ์ด ์ค๋ฅด๋๊ฑธ ํ์ธํ ์ ์๊ณ ์ต์ข ์ ์ผ๋ก ์์ ์ ์ผ๋ก ์๋ ดํ๊ฒ ๋์์ค์ ์ ์ ์๊ณ ์คํ๊ฒฐ๊ณผ๋ฅผ ๋ฐํ์ผ๋ก StepLR scheduler ๊ธฐ๋ฒ์ ์ฌ์ฉํ์ฌ ๊ฐ ๋ชจ๋ธ๋ค์ ํ์ต๊ณผ์ ์ ์์ ํ ์์ผฐ๋ค.
์์ ํฌ๊ธฐ์ ๊ฐ์ฒด์ ๋ํด์ ์์ธก ์ฑ๋ฅ์ด ๋ฎ์ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ์ด๋ฏธ์ง ์ฌ์ด์ฆ๋ฅผ ๋๋ ค ์์ ํฌ๊ธฐ์ ๊ฐ์ฒด๋ฅผ ์ ํฌ์ฐฉํ ์ ์๋๋ก ํ์ต์์ผ ๋ณด์๋ค. [๊ทธ๋ฆผ 7]์ ๋ณด๋ฉด input ์ด๋ฏธ์ง ์ฌ์ด์ฆ๊ฐ ์ปค์ง์๋ก ์ฑ๋ฅ์ด ์ฌ๋ผ๊ฐ์ ํ์ธํ ์ ์์๋ค.
๊ทธ๋ฌ๋ ์๋ณธ ์ด๋ฏธ์ง ํฌ๊ธฐ์ธ 1024x1024 ํด์๋๋ก ํ์ต์ํค๊ธฐ ์ํด์ GPU ์ฑ๋ฅ์ ํ๊ณ๋ก batch size๋ฅผ ์ค์ฌ์ผํ๊ณ , batch size๋ฅผ ์ค์์ ๋ validation loss๋ mAP50 ๊ฐ์ ๋ณ๋์ด ์ปค์ง๋ฉด์ ํ์ต์ด ๋ถ์์ ํด์ง๊ณ test ์ฑ๋ฅ์ด ๋ฎ์์ง๋ ๋ฌธ์ ๊ฐ ๋ฐ์ํ๋ค.
๋ฐ๋ผ์ ๊ธฐ์กด์ batch size๋ฅผ ์ ์งํ๋ฉด์ ์ด๋ฏธ์ง ๋ด์ ํฌํจ๋ ๊ฐ์ฒด์ ๋ํ ์ ๋ณด์์ค์ ์ต์ํํ๊ธฐ ์ํด, ์ฆ๊ฐ ๊ธฐ๋ฒ ์ค random crop์ ์ด์ฉํ์ฌ ์ด๋ฏธ์ง ํฌ๊ธฐ๋ฅผ ์ค์ด๋ ๋ฐฉ๋ฒ์ ์ฌ์ฉํ์๋ค. ์ด๋ฅผ ํตํด ๊ฐ์ฒด๋ bounding box ์์ฒด์ ํฌ๊ธฐ๋ ์ ์งํ๋ฉด์ ๋ฉ๋ชจ๋ฆฌ ์๋ชจ๋ฅผ ์ค์ด๊ณ ์ฑ๋ฅ์ ํฅ์์ํฌ ์ ์์๋ค.
๋ ๋์๊ฐ ์ค์ ํ์ต์์ 1024x1024 ํฌ๊ธฐ์ ์ด๋ฏธ์ง๋ง ๋ฃ์ด์ฃผ๋ ๊ฒ์ด ์๋, 1024x720์ ์ด๋ฏธ์ง๋ ํจ๊ป ์ฌ์ฉํจ์ผ๋ก์จ ๋ชจ๋ธ์ด ๋์ฑ ๋ค์ํ ์๊ฐ์์ ์ด๋ฏธ์ง๋ฅผ ํ์ตํ ์ ์๋๋ก ์ค๊ณํ๋ค. ๋ํ test ๊ณผ์ ์์๋MultiScaleFlipAug ๊ธฐ๋ฒ์ ํ์ฉํ์ฌ ๋ ์ข ๋ฅ์ scale์ ๋์์ ์ฌ์ฉํ ์ ์๊ฒ ํด์ฃผ์ด ์ฑ๋ฅ์ ํฅ์ ์ํฌ ์ ์์๋ค. ์ ์คํ๊ฒฐ๊ณผ๋ฅผ ํ๋ก ์์ฝํ๋ฉด ๋ค์๊ณผ ๊ฐ๋ค.
Model | Backbone | Neck | Image size | batch size | random crop | MultiScaleFlipAug | Test mAP50 |
---|---|---|---|---|---|---|---|
ATSS | SwinL | dyhead | 512x512 | 4 | x | x | 0.5815 |
ATSS | SwinL | dyhead | 640x640 | 4 | x | x | 0.6081 |
ATSS | SwinL | dyhead | 720x720 | 4 | x | x | 0.6470 |
ATSS | SwinL | dyhead | 1024x1024 | 2 | x | x | 0.5902 |
ATSS | SwinL | dyhead | 1024x1024 | 4 | o | x | 0.6680 |
ATSS | SwinL | dyhead | 1024x1024 | ||||
1024x720 | 4 | o | o | 0.6752 |
[ํ3] ๋ชจ๋ธ ๊ตฌ์กฐ ๋ฐ ํ์ดํผํ๋ผ๋ฏธํฐ์ ๋ฐ๋ฅธ ATSS ์ฑ๋ฅ ๋น๊ตํ (test mAP50)
[๊ทธ๋ฆผ9] ๋ฐ์ดํฐ ์ฆ๊ฐ ๊ธฐ๋ฒ: Mosaic
๋ค์ํ ํฌ๊ธฐ์ ๋น์จ์ ๊ฐ์ฒด๋ฅผ [๊ทธ๋ฆผ9]์ ๊ฐ์ด ์กฐํฉํ์ฌ ๋ชจ๋ธ์ด ๋ค์ํ ๋ฐ์ดํฐ๋ก ํ์ต์ด ๋ ์ ์๋๋ก ์ด๋ฏธ์ง์ Mosaic ์ฆ๊ฐ ๊ธฐ๋ฒ์ ์ ์ฉํ์ฌ ํ์ต์ํค๋ ์คํ์ ์ํํ์๋ค.
Cascade RCNN ๋ชจ๋ธ์ ํจ๊ณผ๊ฐ ์ข์๋ ์ฆ๊ฐ ๋ฐ ํ์ต ๊ธฐ๋ฒ๋ค์ ์ ์ฉํ์ฌ ๊ฒฐ๊ณผ๋ฌผ์ ์ป์ ๋ค Mosaic ์ฆ๊ฐ ๊ธฐ๋ฒ์ผ๋ก 3epoch ๋์ ์ถ๊ฐ ํ์ต์ ์งํํ์์ ๋, ์ฑ๋ฅ์ด ์ ํ๋๋ ๊ฒ์ ํ์ธํ ์ ์์๋ค.
Model | Backbone Model | random crop + MultiScaleFiipAug | Mosaic fine-tuning | Test mAP50 |
---|---|---|---|---|
Cascade RCNN | SwinL | x | x | 0.5161 |
Cascade RCNN | SwinL | o | x | 0.6373 |
Cascade RCNN | SwinL | o | o | 0.5210 |
[ํ4] ๋ชจ๋ธ ๊ตฌ์กฐ ๋ฐ ์ฆ๊ฐ ๊ธฐ๋ฒ์ ๋ฐ๋ฅธ Cascade RCNN ์ฑ๋ฅ ๋น๊ตํ (test mAP50)
๋ค์ํ ๊ฐ์ฒด ํ์ง ๋ชจ๋ธ ๋ฐ backbone, neck ๊ตฌ์กฐ, ํ์ดํผํ๋ผ๋ฏธํฐ ํ๋, ์ฆ๊ฐ ๋ฐ ํ์ต ๊ธฐ๋ฒ ๋ณ๊ฒฝ ๋ฑ์ ํตํด ์ฑ๋ฅ์ ํฅ์ ์์ผฐ๋ค. ์ฌ๋ฌ ๋ชจ๋ธ์ ๋ํ์ฌ ๊ตฌ์กฐ ๋ฐ ๊ธฐ๋ฒ์ ๋ฐ๋ฅธ ์ฑ๋ฅ ๋ณํ ๋ถ์์ ์์ฝํ๋ฉด ๋ค์๊ณผ ๊ฐ๋ค.
Model | Image size | FLOPs | validatoin mAP40 |
---|---|---|---|
YOLOv5x6 | 1280 | 209.8 | 55.0 |
YOLO11x | 640 | 194.9 | 54.7 |
[ํ5] YOLO v5 & v11 ๋ฒ ์ด์ค๋ผ์ธ ์ฑ๋ฅ ๋น๊ต (validationm mAP50)
YOLO ๋ชจ๋ธ์ ์ ํํ ๋ YOLOv5์ YOLO11 ์ค ํ๋๋ฅผ ์ ํํ๊ณ ์ ํ๋ค. YOLO11x์ ์ต์ ๋ชจ๋ธ๋ก ์๋๊ฐ ๋น ๋ฅด๋ฉฐ, ๋ฎ์ FLOPs๋ฅผ ์๊ตฌํ๋ ์ฅ์ ์ ๊ฐ์ง๊ณ ์๋ค. ํ์ง๋ง, ์ด๋ฒ ๋ํ๋ ์๋์ ๊ฒฝ๋ํ๋ ์ค์ํ์ง ์๊ธฐ์ ์ฑ๋ฅ ์ฐ์ ์ผ๋ก YOLOv5x6๋ฅผ ์ ํํ๋ค. YOLOv5x6๋ YOLO11x๋ณด๋ค parameter๊ฐ 2.5๋ฐฐ ๋ง์ ์๋๋ ๋๋ฆฌ์ง๋ง, ๋์ ์ ํ๋๋ฅผ ํ๋ค. ๋ํ Image size๋ก 1024x1024๋ก YOLOv5x6๊ฐ ์ ํฉํ๋ค๊ณ ํ๋จํ๋ค.
Model | Image size | epoch | Test mAP50 |
---|---|---|---|
YOLOv5 | 640 | 20 | 0.3620 |
YOLOv5x | 640 | 20 | 0.4226 |
YOLOv5x6 | 1280 | 20 | 0.4770 |
YOLOv11 | 640 | 20 | 0.3675 |
YOLOv11x | 640 | 20 | 0.4415 |
[ํ6] YOLO ๋ชจ๋ธ์ Image size ๋ณ ์ฑ๋ฅ ๋น๊ต (test mAP50)
[ํ6]์ ๋ณด์์ ๋, Yolov5x6์ ์ฑ๋ฅ์ด ์ ์ผ ์ข์๋ ๊ฒ์ผ๋ก ์ ์ ์๋ค. YOLO์ ๋ฒ ์ด์ค๋ผ์ธ ๋ชจ๋ธ์ YOLOv5x6์ผ๋ก ์ ํํ๊ณ ์ฑ๋ฅ ํฅ์์ ์ํด ๋ค์ํ ํ์ดํผํ๋ผ๋ฏธํฐ ํ๋ ์คํ์ ์งํํ๋ค.
Model | Image size | lr | momentum | decay | Step size | anchor box | test mAP50 |
---|---|---|---|---|---|---|---|
YOLOv5x6 | 1280 | 0.1 | 0.937 | 0.005 | 3 | original | 0.4770 |
YOLOv5x6 | 1280 | 0.01 | 0.937 | 0.0005 | 3 | original | 0.5015 |
YOLOv5x6 | 1280 | 0.01 | 0.937 | 0.0005 | 3 | anchor box tunning | 0.5303 |
[ํ 7] ํ์ดํผํ๋ผ๋ฏธํฐ ๋ฐ ์ฆ๊ฐ, ํ์ต ๊ธฐ๋ฒ์ ๋ฐ๋ฅธ YOLOv5x6 ๋ชจ๋ธ ์ฑ๋ฅ ๋น๊ต (test mAP50)
์ฑ๋ฅ ํฅ์์ ์ํด layer freeze, hyperparameter, augmentation, anchor box optimization๋ฅผ ๋ณ๊ฒฝํ๋ฉฐ ์คํ์ ์งํํ๋ค. ์ฒ์์ layer freeze ๋ ๊ณผ์ ํฉ์ ์ํ์ฑ ๋๋ฌธ์ ์ ํํ์ง๋ง, ์ฑ๋ฅ์ด ๋ฎ์์ง๋ ๊ฒ์ ํ์ธํ๊ณ layer๋ฅผ freeze ์ํค์ง์๊ณ fine-tuning ํ๋ ๋ฐฉ๋ฒ์ ์ ํํ๋ค.
ํ์ดํผํ๋ผ๋ฏธํฐ ํ๋์ ํตํด ๊ธฐ๋ณธ ๋ฒ ์ด์ค๋ชจ๋ธ์ ์ฑ๋ฅ์ ํฅ์์ํค๊ณ ์ต์ข ์ ์ผ๋ก anchor box optimization์ ์ ์ฉํด ์ต์ ์ anchor box๋ฅผ ์ฐพ๊ณ ์ด๋ฅผ ํ์ต์ ์ ์ฉํ์ ๋, ์ต๊ณ ์ฑ๋ฅ์ ๋ฌ์ฑํ ์ ์์๋ค.
์ต์ ์ ๋ชจ๋ธ์ ์ฐพ๊ธฐ ์ํด Papers with Code๋ฅผ ์ฐธ๊ณ ํ์ฌ SOTA ๋ชจ๋ธ๋ค์ ํ๋ณด๋ก ์ ์ ํ๊ณ ์ฑ๋ฅ์ ํ๊ฐํ๋ค.
Model | Backbone | Pre-training Dataset | Fine-Tuning Dataset split | validation mAP50 | testmAP50 |
---|---|---|---|---|---|
Co-Deformable-DETR | R50 | COCO | Train set | 0.3341 | |
Co-DINO | Swin-T | COCO | Train-Validation split | 0.4220 | |
Co-DINO | Swin-L | COCO | Train-Validation split | 0.7170 | 0.7071 |
Co-DINO | Swin-L | COCO | Train set | **** | 0.7190 |
Co-DINO | Swin-L | COCO | 5-fold CV | **** | 0.7283 |
[ํ 8] DETR ๊ธฐ๋ฐ ๋ชจ๋ธ์ ๊ตฌ์กฐ ๋ฐ ํ์ต ๋ฐ์ดํฐ์ ๋ฐ๋ฅธ ์ฑ๋ฅ ๋น๊ต (test mAP50)
์คํ ๊ฒฐ๊ณผ, Model ๋ถ๋ถ์์๋ Co-DINO๊ฐ ๊ฐ์ฅ ์ฐ์ํ ์ฑ๋ฅ์ ๋ํ๋ด์๋ค. Co-DINO ๋ชจ๋ธ์ ํน์ฑ์ ๋ถ์ํ ๊ฒฐ๊ณผ, ํด๋น ๋ชจ๋ธ์ Contrastive Denoising ๊ธฐ๋ฒ์ ํ์ฉํ์ฌ ํจ์จ์ ์ธ ์ต์ปค ๋ฐ์ค๋ฅผ ์ถ์ถํ๊ณ ๊ฐ์ฒด ๊ฒ์ถ ์ฑ๋ฅ์ ํฅ์์ํฌ ์ ์์๋ ๊ฒ์ผ๋ก ํ๋จ๋๋ค.
Backbone ๋ชจ๋ธ์์๋ ์ด์ ์ ์คํ๊ฒฐ๊ณผ๊ฐ ์ฆ๋ช ํ๋ฏ, Transformer ๊ธฐ๋ฐ์ Swin-L๊ฐ ๊ฐ์ฅ ๋์ ์ฑ๋ฅ์ ๋ํ๋ด์๋ค. ์คํ์์ COCO ๋ฐ์ดํฐ์ ์ผ๋ก pre-training๋ ๋ชจ๋ธ ๊ฐ์ค์น๋ฅผ ํ์ฉํ์๊ณ , ํ์ต ๋ฐ์ดํฐ์ ๋ถํ ๋ฐฉ๋ฒ์ ๋ฐ๊ฟ๊ฐ๋ฉฐ ์ฑ๋ฅ์ ๋น๊ตํ๋ค.
K-fold cross validation testing ๋ฐฉ๋ฒ์ผ๋ก ๋ฐ์ดํฐ์ ์ ๋ถํ ํ์ฌ ํ์ตํ ๋ค ์์๋ธํ์ฌ ๊ฒฐ๊ณผ๋ฅผ ๋์ ๋, ๊ฐ์ฅ ๋์ ์ฑ๋ฅ์ ๋ณด์์ ์ ์ ์์๋ค. ์ด์ ๋ฐ๋ผ ๋ฐ์ดํฐ์ ์ Fold๋ก ๋ถํ ํ๊ณ ์์๋ธํ๋ ๋ฐฉ๋ฒ์ ์ฑํํ์๊ณ , ๋ฒ ์ด์ค๋ผ์ธ ๋ชจ๋ธ๋ก๋ Co-DINO ๋ชจ๋ธ์ ์ ์ ํ์๋ค.
๊ฒฝ์ง๋ํ๋ผ๋ ํน์ฑ์ ์๊ฐ์ ์ ์ฝ์ด ์กด์ฌํ์๊ณ Co-DINO Swin-L ๋ชจ๋ธ์ 12์ํญ ํ์ต์ ์ฝ 36์๊ฐ ๊ฑธ๋ฆฌ๋ ๋ฌธ์ ๊ฐ ์กด์ฌํ์ฌ ๊ธฐ์กด ๋ ผ๋ฌธ์์ ์ฐพ์๋ธ ์ต์ ์ ํ์ดํผํ๋ผ๋ฏธํฐ๋ฅผ ์ฐธ๊ณ ํ์ฌ ๊ธฐ์ค์ผ๋ก ์ฌ์ฉํ์๋ค.
Optimizer๋ AdamW, learning rate 0.0002, input image size 1280ร1280์ ๊ธฐ์ค์ผ๋ก ์ฌ์ฉํ์๋ค.
Model | Backbone | Fine-Tuning Dataset | Input image size | validationmAP50 | testmAP50 |
---|---|---|---|---|---|
Co-DINO | Swin-T | Train-validation split | (1024, 1024) | 0.4160 | |
Co-DINO | Swin-T | Train-validation split | (1280, 1280) | 0.4220 | |
Co-DINO | Swin-T | Train-validation split | (1536, 1536) | 0.0720 | |
Co-DINO | Swin-L | Train set | (512, 512) | 0.6686 | |
Co-DINO | Swin-L | Train set | (1280, 1280) | **** | 0.7790 |
[ํ 9] Co-DINO ํ์ดํผํ๋ผ๋ฏธํฐ์ ๋ฐ๋ฅธ ์ฑ๋ฅ ๋น๊ต
์ด์ ์คํ๋ค์์ ์ ๋ ฅ ์ด๋ฏธ์ง์ ํฌ๊ธฐ๊ฐ ํด์๋ก ํด์๋๊ฐ ๋์์ ธ ๋ค์ํ ๊ฐ์ฒด๋ฅผ ํ์งํ ์ ์์ ๊ฒ์ ํ์ธํ๋ค. ์ด๋ฅผ Co-DINO ๋ชจ๋ธ์๋ ์ ์ฉํด๋ณด๊ธฐ ์ํด ๋ค์ํ ์ ๋ ฅ ์ด๋ฏธ์ง ํฌ๊ธฐ์์์ ๋ชจ๋ธ์ ์ฑ๋ฅ์ ํ์ธํ์๋ค.
[ํ 9]๋ฅผ ๋ณด๋ฉด ์ด๋ฏธ์ง๊ฐ ์๋ณธ์ ๋นํด ์์์๋ก ์ ๋ณด ์์ค์ด ์ผ์ด๋ ์ฑ๋ฅ์ด ๋จ์ด์ง ๊ฒ์ ํ์ธํ ์ ์์๋ค. ๊ทธ๋ฌ๋ ์ด๋ฏธ์ง ํฌ๊ธฐ๋ฅผ 1280x1280 ์ด์์ผ๋ก ํค์ ์ ๋๋ ์คํ๋ ค ์ฑ๋ฅ์ด ๋จ์ด์ง๋ ๊ฒ์ ํ์ธํ์๋ค. ๊ทธ ์ด์ ๋ก ํน์ ์ฌ์ด์ฆ ์ด์์ ์ด๋ฏธ์ง์์๋ backbone์ window์ ํฌ๊ธฐ ๋ฐ ๋ชจ๋ธ ์ํคํ ์ฒ์ ๊ตฌ์กฐ ์ feature ์ ๋ณด๋ฅผ ์ ๋๋ก ๋ฝ์๋ด์ง ๋ชปํ๋ ๊ฒ์ผ๋ก ์์ํ์๋ค.
๋ฐ์ดํฐ ์ฆ๊ฐ๋ฒ์ผ๋ก๋ SOTA ๋ ผ๋ฌธ์์ ์ ๊ณตํ๋ LSJ ์ฆ๊ฐ๋ฒ์ ํ์ฉํ์๋ค. ์ด ํ Super resolution ๋ฐ Center Crop์ ํตํด ๋ชจ๋ธ์ ์ผ๋ฐํ ์ฑ๋ฅ์ ๊ฐ์ ํ๊ณ ์์ box์์์ ๊ฐ์ฒด ํ์ง ์ฑ๋ฅ ํฅ์์ ๋๋ชจํ๋ค.
Scale Jittering Augmentation์ด๋, ์ด๋ฏธ์ง์ ํฌ๊ธฐ๋ฅผ ์กฐ์ ํ๊ฑฐ๋ ์๋ผ๋ด๋ ๋ฐฉ์์ ์ฆ๊ฐ๋ฒ์ด๋ค. ๋ํ์ ์ผ๋ก SSJ ๋ฐฉ์๊ณผ LSJ ๋ฐฉ์์ด ์๋๋ฐ, SSJ๋ ์ด๋ฏธ์ง๋ฅผ 0.8~1.25๋ฐฐ, LSJ๋ ์ด๋ฏธ์ง๋ฅผ 0.1~2.0๋ฐฐ ์ด๋ด์์ ํฌ๊ธฐ๋ฅผ ์กฐ์ ํ ๋ค ์ด๋ฏธ์ง๋ฅผ ๋ฌด์์๋ก ์๋ฅด๊ณ ๋๋ค ์ข์ฐ ๋ฐ์ ๋ณํ์ ์ ์ฉํ์ฌ ๋ฐ์ดํฐ์ ๋ค์์ฑ์ ์ฆ๊ฐ์์ผ ๋ชจ๋ธ์ด ๋ค์ํ ์ํฉ์์ ์ข์ ์ฑ๋ฅ์ ๋ผ ์ ์๋๋ก ํ๋ค.
์ฐ๋ฆฌ ๋ชจ๋ธ์์๋ ๋ ๋ฐ์ด๋ ์ฑ๋ฅ์ ๋ณด์ฌ์ค๋ค๊ณ ์๋ ค์ง LSJ ์ฆ๊ฐ์ ์ ์ฉํ์๋ค.
[๊ทธ๋ฆผ 12] EDSR ๊ธฐ๋ฒ ์์ (Lim, Bee, et al. "Enhanced deep residual networks for single image super-resolution." Proceedings of the IEEE conference on computer vision and pattern recognition workshops. 2017.)
์
๋ ฅ ์ด๋ฏธ์ง์ ํด์๋๊ฐ ์ฆ๊ฐํจ์ ๋ฐ๋ผ ๋ ์์ ๊ฐ์ฒด๋ฅผ ํ์งํ ์ ์๋๋ก EDSR ๊ธฐ๋ฒ์ ํ์ฉํ์ฌ ์๋ณธ Train ์ด๋ฏธ์ง๋ฅผ ๊ธฐ์กด (1024, 1024)์์ (2048, 2048)๋ก ์ฆ๊ฐ์ํจ ๋ค ํ์ต์ ์ฌ์ฉํ์ฌ ์ฑ๋ฅ์ ๋น๊ตํ์๋ค. ์ด๋, ํด์๋๋ ์ฆ๊ฐ์ํค๋ฉด์ ์
๋ ฅ ์ด๋ฏธ์ง์ ํฌ๊ธฐ๋ฅผ (1024, 1024)๋ก ์ ์งํ ์ ์๋๋ก Center Crop๊ธฐ๋ฒ์ ์ฌ์ฉํ์๋ค.
์ด ๋ฐฉ๋ฒ์ ํตํด ๋์ ํด์๋์ Center Crop ๋ 3909์ฅ์ ์ด๋ฏธ์ง๋ฅผ ์ถ๊ฐ๋ก ์์ฑํ์ฌ 7818์ฅ์ผ๋ก ๋ฐ์ดํฐ์
์ ํ์ฅ์์ผ ํ์ตํ์๋ค.
[๊ทธ๋ฆผ 13]์ ๋ณด๋ฉด ํ์ต ๋ฐ์ดํฐ์ ์ ํฐ ๋ณํ๋ก ์ ์ ์ํญ์์๋ ์คํ๋ ค ์ฑ๋ฅ์ด ๋จ์ด์ง๋ ๊ฒฐ๊ณผ๊ฐ ๋์๋ค. ์ด๋ฌํ ๊ฒฐ๊ณผ๋ ์ถ๊ฐ์ ์ผ๋ก ํ์ต์ ์งํํ๊ฑฐ๋ ํ์ดํผํ๋ผ๋ฏธํฐ๋ฅผ ๋ฏธ์ธ ์กฐ์ ํ์ฌ ํ์ต์ ๋ ์งํํ๋ฉด ์ฑ๋ฅ์ด ์ฌ๋ผ๊ฐ ๊ฐ๋ฅ์ฑ์ด ์๋ ๊ฒ์ผ๋ก ๋ณด์๋ค. ํ์ง๋ง ํ์ต ์๊ฐ์ด 2๋ฐฐ๋ก ์ฆ๊ฐํ์ฌ ๊ฒฝ์ง๋ํ๋ผ๋ ๊ตฌ์กฐ ์ ์คํ์ ์ค๋จํ๋ ๊ฒ์ผ๋ก ๊ฒฐ์ ํ์๋ค.
Model | Backbone | Pretraining Dataset | Fine-Tuning Dataset | Input image size | validation mAP50 | testmAP50 |
---|---|---|---|---|---|---|
Co-Deformable-DETR | R50 | COCO | Train set | (400~800) | ||
(multi-size) | 0.3341 | |||||
Co-DINO | Swin-T | COCO | Train-validation split | (1024, 1024) | 0.4160 | |
Co-DINO | Swin-T | COCO | Train-validation split | (1280, 1280) | 0.4220 | |
Co-DINO | Swin-T | COCO | Train-validation split | (1536, 1536) | 0.0720 | |
Co-DINO | Swin-T | COCO | Train-validation split | (1280, 1280) | 0.7170 | 0.7071 |
Co-DINO | Swin-T | COCO | Train set | (512, 512) | 0.6686 | |
Co-DINO | Swin-T | COCO | Train set | (1280, 1280) | 0.7190 | |
Co-DINO | Swin-T | COCO | 5-fold CV | (1280, 1280) | 0.7283 |
[ํ 10] DETR ๊ธฐ๋ฐ ๋ชจ๋ธ ์ฑ๋ฅ ์ต์ข ๋น๊ต (mAP50)
์ต์ข ์ ์ผ๋ก Co-DINO ๋ชจ๋ธ์ COCO ๋ฐ์ดํฐ์ ์ผ๋ก ์ฌ์ ํ์ต๋ ๊ฐ์ค์น๋ฅผ ๊ฐ์ ธ์์ ์ฐ๋ฆฌ์ ํ์ต ๋ฐ์ดํฐ๋ก fine-tuning ํ์ฌ ์ฌ์ฉํ๋ค. ํ์ต ๋ฐ์ดํฐ๋ 5๊ฐ์ Fold๋ก ๋๋๊ณ ์ด๋ฅผ ์์๋ธ ํ์ ๋, ๊ฐ์ฅ ์ข์ ๊ฒฐ๊ณผ๋ฅผ ๋ผ ์ ์์๋ค.
์ต์ข ๋ชจ๋ธ์ ์ ํํ๋ ๊ณผ์ ์์ ์ด๋ฏธ์ง ์ฌ์ด์ฆ๋ฅผ ํค์ ํด์๋๋ฅผ ๋์ด๋ ๋ฐฉ๋ฒ์ผ๋ก ์ฑ๋ฅ์ ํฅ์์ํค๊ณ ์ ํ์์ง๋ง 1280x1280 ์ด์์ ํด์๋์์๋ ์คํ๋ ค ์ฑ๋ฅ์ด ๋จ์ด์ง์ ์ ์ ์์๋ค. ๋ง์ง๋ง์ผ๋ก SR ๋ฐฉ๋ฒ์ผ๋ก ํ์ต ๋ฐ์ดํฐ์ ์์ ์ฆ๊ฐ์์ผ ์ฑ๋ฅ ํฅ์์ ๋๋ชจํ์ง๋ง ํ์ต ์๊ฐ์ด ๋๋ฌด ์ค๋ ๊ฑธ๋ฆฌ๋ ๋ฌธ์ ๋ก ๊ธฐ์กด์ ๋ฐ์ดํฐ lsj ์ฆ๊ฐ ๊ธฐ๋ฒ๋ง์ ์ฌ์ฉํ์ฌ ํ์ตํ๋ค.
Object Detection Task ์์ ๋ํ์ ์ผ๋ก NMS, soft NMS, NMW, WBF 4๊ฐ์ง์ ์์๋ธ ๊ธฐ๋ฒ์ด์๋ค. ๊ฐ๋จํ ๊ธฐ๋ณธ ๋ชจ๋ธ์ ๋ํด์ ๊ฐ ์์๋ธ์ ์ฑ๋ฅ์ ํ๊ฐํ ๋ค, ๊ฒฐ๊ณผ๊ฐ ์ข์๋ ์์๋ธ ๊ธฐ๋ฒ์ผ๋ก ์ต์ข ๊ฒฐ๊ณผ๋ฌผ์ ๋ง๋ค์๋ค.
Model | 5-Fold ๊ฒฐํฉ ์์๋ธ | test mAP50 |
---|---|---|
ATSS | 1 Fold | 0.6716 |
NMS | 0.6869 | |
Soft-NMS | 0.6779 | |
NMW | 0.6895 | |
WBF | 0.6978 |
[ํ 11] 5-Fold ๊ฒฐํฉ ์์๋ธ์์ ์์๋ธ ๊ธฐ๋ฒ์ ๋ฐ๋ฅธ ATSS ์ฑ๋ฅ ๋น๊ต (test mAP50)
๋จ์ผ Fold๋ก ์ฑ๋ฅ์ด ์ข์๋ ๋ชจ๋ธ ์ค ํ๋์ธ ATSS ๋ชจ๋ธ๋ก 5-Fold ๊ฒฐํฉ ์์๋ธ ๊ธฐ๋ฒ์ ๋ฐ๋ฅธ ์ฑ๋ฅ์ ๋น๊ตํ๋ค. ์ฑ๋ฅ์ด ๊ฐ์ฅ ์ข์๋ ๊ธฐ๋ฒ๊ณผ ๋ ๋ฒ์งธ๋ก ์ข์๋ ๊ธฐ๋ฒ์ธ NMW์ WBF 2๊ฐ์ง๋ก ๋๋จธ์ง ๋จ์ผ ๋ชจ๋ธ์ 5-Fold ๊ฒฐํฉ๊ณผ ์๋ก ๋ค๋ฅธ ๋ชจ๋ธ๋ค์ ์์๋ธ์ ์ํํ๊ธฐ๋ก ๊ฒฐ์ ํ๋ค.
5-Fold ๊ฒฐํฉ ์์๋ธ ๊ธฐ๋ฒ์ ์ฌ์ฉํ์ฌ Different ๋ชจ๋ธ ์์๋ธ์ ์ฌ๋ฃ๋ก ์ฐ์ผ ๋ชจ๋ธ๋ค์ ์์ฝํ๋ฉด ๋ค์๊ณผ ๊ฐ๋ค.
Model | 5-Fold ๊ฒฐํฉ ์์๋ธ | test mAP50 |
---|---|---|
ATSS | WBF | 0.6978 |
Cascade RCNN | WBF | 0.6276 |
UniversNet | WBF | 0.6266 |
CO-DINO | NMW | 0.7283 |
YOLOv5x6 | x | 0.5013 |
[ํ 12] 5-Fold cross validation testing ๋ฐฉ๋ฒ์ผ๋ก ํ์ตํ๋ ๋ชจ๋ธ๋ค์ 5-Fold ๊ฒฐํฉ ์์๋ธ ๊ฒฐ๊ณผ
์์๋ธ ๊ธฐ๋ฒ | ATSS | Cascade RCNN | UniversNet | Co-DINO | YOLOv5x6 | test mAP50 |
---|---|---|---|---|---|---|
WBF | o | o | 0.7055 | |||
NMW | o | o | 0.7118 | |||
NMW | o | o | o | 0.6948 | ||
WBF | o | o | 0.7198 | |||
NMS | o | o | 0.7217 | |||
NMW | o | o | o | 0.7327 | ||
NMW | o | o | o | o | 0.7553 |
์ต์ข ์ ์ผ๋ก ATSS, Cascade RCNN, Co-DINO, YOLOv5x6 ์ NMW ๊ธฐ๋ฒ์ผ๋ก ์์๋ธ ํ์ ๋, ๊ฐ์ฅ ์ข์ ์ฑ๋ฅ์ ๋ณด์๊ณ ๋ํ๋ฅผ 2๋ฑ์ผ๋ก ๋ง๋ฌด๋ฆฌํ ์ ์์๋ค. ํน์ดํ ์ ์ YOLOv5x6 ์ ๋ชจ๋ธ์ ๊ฒฝ์ฐ ๋ค๋ฅธ ๋ชจ๋ธ๋ค์ ๋นํด ๊ฒฐ๊ณผ๊ฐ ์์ฒญ ๋ฎ์๋ฐ, ์์๋ธ์ ๊ฐ์ด ํ์ ๋ ๋์ ์ฑ๋ฅ์ ๋ผ ์ ์์๋ค. YOLOv5x6 ๋ชจ๋ธ์ด ์ ํํ๊ฒ ๋ง์ถ ์ ์๋ ๊ฒ๋ค์ ๋ํด์๋ง bounding box๋ฅผ ์น๋ ๊ฒฝํฅ์ฑ ๋๋ฌธ์ ์์๋ธ ํ์ ๋ ์ข์ ๊ฒฐ๊ณผ๊ฐ ๋์จ ๊ฑฐ ๊ฐ๋ค.
(YOLOv5x6 ์ ๊ฒฝ์ฐ Fold๋ฅผ ๋๋์ง ์๊ณ ํ์ตํ ๋ชจ๋ธ์ ์ฌ์ฉํ๋ค.)
์ฑ๋ฅ์ด ๋์๊ฑฐ๋ bouding box ํ์ง๊ฐ ์ข์๋ [ํ 12]์ ๋ชจ๋ธ๋ค์ ์ฌ๋ฌ๊ฐ์ง ๋ฐฉ๋ฒ์ผ๋ก ์์๋ธํ๊ณ ์ฑ๋ฅ์ผ ๋น๊ตํ๋ค.
๋ชจ๋ธ ๊ฐ์
Yolo ๋ชจ๋ธ๋ณด๋ค๋ DETR, DINO ๋ชจ๋ธ์ด ์ฑ๋ฅ์ด 38% ์ด์ ์ข์์ Yolo๋ ํ์์๋ก ๋จ๊ฒจ์ ธ ์์๋ค. ํ์ง๋ง Yolo๋ ์์๋ธ์ ์ข์ ์ญํ ์ ํ๊ณ ๋ง์ด ์ฌ์ฉ๋๋ ๋ชจ๋ธ์ด๊ธฐ ๋๋ฌธ์ ๋๊น์ง ๊ตฌํํ๊ณ ์ ํ๋ค. ๋ํ์ ๋ฆฌ๋๋ณด๋๋ ์ค์ํ์ง๋ง Object detection์๋ Yolo๊ฐ ๋ง์ด ์ฌ์ฉ๋๊ธฐ ๋๋ฌธ์ ์ด๋ฒ ๊ธฐํ์ ๋ฐฐ์๋ณด๊ณ ์ ํ์ตํ๋ค. ๊ทธ ๊ฒฐ๊ณผ Yolo ๋ชจ๋ธ์ ๋ํ ์ดํด์ ํ๋์ ์ ์ฉํ ์ ์๋ ์ ๋๊ฐ ๋์๋ค. ์ด๋ฒ ๋ํ์์์ ๋ชฉํ๋ฅผ ๋ฌ์ฑํ ์ ์์๋ค. ๋ํ Yolo์ ์์๋ธ์ ํตํ ๊ฒฐ๊ณผ๊ฐ ์ ํ๋ 2% ํฅ์์ผ๋ก ๋ํ์์ 2๋ฑ์ ํ ์ ์๋ ๊ฒฐ๊ณผ๋ฅผ ๋ง๋ค์๋ค.
Yolo ๋ชจ๋ธ๋ก anchor box optimization, hyperparameter, augmentation, layer freeze ๋ฑ ์ฌ๋ฌ ๊ฐ์ง ์คํ์ ํด๋ณด์๊ณ , ์ต์ ์ ๊ฐ๋ค์ ์ฐพ์ ์ ์์๋ค. Layer freeze๋ ํ์ง ์๋ ๊ฒ์ด ์ ๋ฆฌํ๋ค๊ณ ํ๋จํ์ฌ freeze๋ฅผ ์งํํ์ง ์๊ธฐ๋ก ๊ฒฐ์ ํ๋ค.๋ฐฐ์ด์
๋๊น์ง ํฌ๊ธฐํ์ง ์๊ณ ๊พธ์คํ ๋ ธ๋ ฅํ๋ ํ๋ ์ฌ๋์ ๋๊ฐ๊ฐ ์จ๋ค๊ณ ์์ฃผ ๋ค์๋ค. ์ด๋ฒ ํ๋ก์ ํธ์์ ๋ค์ ํ๋ฒ ๋๋ ์ ์์๋ค. Yolo ๋ชจ๋ธ์ ์ฑ๋ฅ์ ๋ค๋ฅธ ๋ชจ๋ธ๋ณด๋ค ๋ฎ์ ๊ฒ์ผ๋ก ํ๋จํ์ฌ Yolo์ ์ง์ค๋ณด๋จ ๋ค๋ฅธ ๋ชจ๋ธ์ ์ง์คํ๋ ๊ฒ์ด ์ข๋ค๊ณ ์๊ฐํ๋ค. ํ์ง๋ง, ๋ ๊ฐ์ง์ ๋ฌธ์ ๊ฐ ์์๋ค. ์ฒซ ๋ฒ์งธ๋ Confidence Score ์์ผ๋ก ์ ๋ ฌ์ ํด์ผ ํ๋ค๋ ์ ์ด๋ค. ์ด๋ฅผ ๊ณ ๋ คํ๋ค๋ฉด test-acc๋ ๋ ๋์์ ๊ฒ์ผ๋ก ์์ํ๋ค. ๋ ๋ฒ์งธ๋ Yolo๋ ์์๋ธ์ ์ฌ์ฉํ๋ฉด ์ฑ๋ฅ์ ๋์์ด ๋๋ค๋ ์ ์ด๋ค. ๋ฎ์ ์ ํ๋์์ง๋ง, ๋ค์ํ ๋ชจ๋ธ์ ์ฌ์ฉํ๋ฉด ์ ํ๋๋ฅผ ํฅ์ํ๋ ๊ฒ์ ๋ณผ ์ ์์๋ค. ๋ฆฌ๋๋ณด๋ 7๋ฑ์์ 2๋ฑ์ด ๋ ์ ์์๋ ์ด์ ๋ yolo๋ฅผ ํ์ฉํ๊ธฐ ๋๋ฌธ์ด๋ค. ์๊ณ ์์๋ค๋ฉด yolo์ ์ฑ๋ฅ ํฅ์์ ์ํด ๋ ๋ ธ๋ ฅํ์ ๊ฒ์ด๋ค. ๋๊น์ง ๋ ธ๋ ฅํ๋ ์์ธ๊ฐ ๋ฐฐ์ธ ์ ์๋ ๊ณ๊ธฐ์๋ค.๊ฐ์ ๋ฐฉํฅ
๋๊น์ง ํฌ๊ธฐํ์ง ์๋ ๊ฒ์ด ์ ์ผ ์ค์ํ ๊ฒ ๊ฐ๋ค. ์ถฉ๋ถํ ์๊ฐ์ด ์ฃผ์ด์ก์ง๋ง, ์๊ฐ์ ์ซ๊ฒจ ์ต์ข ์ ์ถํ๋ค๋ ์ ์์ ๋ฐ์ฑํด์ผ ํ๋ค๊ณ ์๊ฐํ๋ค. ๊ถ๊ธํ ๋ถ๋ถ์ด ์์ผ๋ฉด ๋ถ์ํ๋ ์์ธ๋ฅผ ๊ฐ์ ธ์ผ ํ๋ค. ์์๋ธ ์ฝ๋๋ 10๋ถ ์ด๋ด์ ์๋ฃ๋๋ ๊ฒ์ผ๋ก ์๊ณ ์์ง๋ง, ์ด๋ฒ ์์๋ธ ์ฝ๋๋ 2์๊ฐ 30๋ถ์ด ์์๋๋ค. ์์ํ์ง๋ง csv ํ์ผ์ด ํฌ๊ธฐ ๋๋ฌธ์ ๋ฐ์ํ ์ผ์ด๋ผ ์๊ฐํ์ง๋ง, ๊ฒฐ๊ตญ ์ฝ๋์ ๋ฌธ์ ๊ฐ ๋ง์๋ค. ์๋ ์๊ฐํ๋ ๊ฒ๊ณผ ๋ค๋ฅด๋ฉด ์๊ธํ๋ ๊ฒ์ด ์๋ ๋ถ์์ ๋ฐ๋ฅธ ์ดํด๊ฐ ์ค์ํ๋ค๊ณ ์๊ฐํ๋ค.
์ข์ ํฌ์คํ ๊ฐ์ฌํฉ๋๋ค~ ์ง๋๊ฐ๋ค ์ฐ์ฐํ ๋ณด๊ณ ๊ฐ๋๋คใ ใ ์ฌ๋ฏธ์์์ด์