๐ ๋ณธ ๋ฆฌ๋ทฐ๋ RetinaNet ๋ฐ ๋ฆฌ๋ทฐ๋ฅผ ์ฐธ๊ณ ํด ์์ฑํ์ต๋๋ค.
๐ Focal Loss
๐ One-Stage
๐จโ๐ซ RetinaNet์ Focal Loss๋ฅผ ์ฌ์ฉํ One-stage detector๋ก์จ ํต์ฌ์ focal loss๋ฅผ ์ฌ์ฉํด "easy negative"์ Loss ๊ธฐ์ฌ๋๋ฅผ ์ค์ฌ, "hard negative" ๋ ๋ง์ ๊ธฐ์ฌ๋๋ฅผ ๋์ฌ ์ข์ ์ฑ๋ฅ์ ๋ณด์ฌ ์ฃผ๋ ๋คํธ์ํฌ๋ผ๊ณ ํ ์ ์์ต๋๋ค.
โ ์ต๊ทผ์ SOTA detectors๋ two-stage๋ฅผ based๋ก ๊ตฌ์ฑํ ๋คํธ์ํฌ๋ค ์ ๋๋ค. ๋ํ์ ์ผ๋ก R-CNN ๊ณ์ด๋ค์ ๋ชจ๋ธ์ด๋ผ๊ณ ๋งํ ์ ์์ต๋๋ค. fisrt-stage์์๋ ๊ฐ์ฒด ํ๋ณด๊ตฐ๋ค์ ์ฐพ์ผ๋ฉฐ(ex RPN, Seletive Search), two-stage์์๋ ๊ฐ ํ๋ณด ์์น๋ฅผ foreground class ๋๋ background class๋ฅผ ์์ธกํฉ๋๋ค.
โ ๋ณธ ๋ ผ๋ฌธ์์๋ ์์ ๊ฐ์ FPN, Mask R-CNN ๋ฑ๋ฑ์ ๋ฒ๊ธ๊ฐ๋ COCO Ap๋ฅผ ๊ฐ์ง๋ one-stage detector ์๊ฐํฉ๋๋ค. ์์ ๊ฐ์ ์ฑ๊ณผ๋ฅผ ์ป๊ธฐ ์ํด์ one-stage dector์์ training ์ค class imbalance๊ฐ ๋ฐ์ํ๋ ๊ฒ์ ํ์ธํ๊ณ , ์๋ก์ด loss function์ ํตํด imbalanc๋ฅผ ํด๊ฒฐํ๋ค๊ณ ํฉ๋๋ค.
โ ๊ธฐ์กด์ two-stage detector์ two-cascde and sampling heuristics๋ฅผ ์ ์ฉํด class imbalance๋ฅผ ํด๊ฒฐํ๋ค๊ณ ํฉ๋๋ค. ํ์ง๋ง one-stage detector์ ๊ฒฝ์ฐ์๋ ๋ง์(~100k) ํ๋ณด๊ตฐ์ ์ถ์ถํ๋๋ฐ, ์ด๊ฒ์ด class imbalance๋ฅผ ์ด๋ํฉ๋๋ค. ๊ตฌ์ฒด์ ์ผ๋ก ์ค์ ์ด๋ฏธ์ง์ ํ์ธํ ์ ์๋ ๊ฐ์ฒด๋ ์์์ด๋ฉด์, ๋๋ถ๋ถ์ ๋ฐฐ๊ฒฝ์ ์๋ฏธํฉ๋๋ค. ์ฆ, ๋ง์ ํ๋ณด ๊ฐ์ฒด๋ค ์ค ๋๋ถ๋ถ์ด ๋ฐฐ๊ฒฝ์ ์๋ฏธํ๊ธฐ์ ๋ถ๊ท ํ์ ์ด๋ํฉ๋๋ค.
โ ๋ณธ ๋ ผ๋ฌธ์์๋, Focal Loss ๋ผ๋ ์๋ก์ด loss function์ ์ ์ํฉ๋๋ค. Focal Loss๋ train์ ๋ ๋์ ์ ํ๋์ one-stage detecotor์์์ ์ค์ํ ๊ธฐ๋ฅ์ ์ ์ํฉ๋๋ค. ์ง๊ด์ ์ผ๋ก train ์ค easy examples๋ฅผ down-weighting ์์ผ, ๋๋จธ์ง hard example์ ์ค์๋๋ฅผ ๋์ ๋๋ค.
โ ์์ Focal loss๋ฅผ ์ฆ๋ช ํ๊ธฐ ์ํด, RetinaNet์ด๋ผ๊ณ ๋ถ๋ฅด๋ ๊ฐ๋จํ one-stage object detector ์ ์ํฉ๋๋ค. RetinaNet๋ ํจ๊ณผ์ ์ด๊ณ ์ ํํ๋ฉฐ, ResNet 101-FPN backbone์ ์ฌ์ฉํด COOO test-dev์์ 39.1 AP์ ์ฑ๋ฅ๊ณผ 5fps์ ์๋๋ฅผ ๋ณด์ฌ์ค๋๋ค.
โ Focal loss๋ one-stage detector์ foreground์ background์ class imbalance๋ฅผ ํด๊ฒฐํด ์ค๋๋ค.
ground truth class
1์ด๋ผ๊ณ ์์ธกํ ํ๋ฅ
โ Focal loss์ ์ด์ผ๊ธฐํ๊ธฐ ์ , cross entropy(CE) for binary classification์ ๋ํด ์์ ๊ฐ์ด ํ์ธํ ์ ์์ต๋๋ค. ์ฐธ๊ณ ๋ก multi-classification์ผ๋ก๋ ํ์ฅํ๋ฉด ๊ฐ๋ฅํ๋ค๊ณ ํฉ๋๋ค.
โ ์์ ๊ฐ์ ํํ์ผ๋ก ๋ค์ ์ ์ํ ์ ์์ต๋๋ค.
โ ์์ ํ๋์ ์ ์ = 0 , ์ฆ CE๋ผ๊ณ ์๋ฏธํ ์ ์์ต๋๋ค. ๊ฐ์ด ๋ฐ๋๋ฉด์ ๊ทธ๋ํ๊ฐ ๋ฐ๋๋ ๊ฒ์ ๋ณผ ์ ์์ต๋๋ค.
โ Class imbalance๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํ ํ ๊ฐ์ง ์ปค๋จผํ ๋ฐฉ๋ฒ์ ๊ฐ์ค์น ์ class 1์ธ ๊ฒฝ์ฐ์ 1 - ๋ฅผ class -1์ ๋ถ์ฌํฉ๋๋ค. ์์ ๋ฐฉ๋ฒ์ positive/negative example ๋ฌธ์ ์๋ ์ํฅ์ ์ฃผ์ง๋ง, easy/hard negative์ ๋ํด์ ์ํฅ์ ์ฃผ์ง ๋ชปํ๋ค๊ณ ํฉ๋๋ค.
โ ๋๋ถ๋ถ์ easy classified nagatives loss๊ฐ gradient์ ๋๋ถ๋ถ ์ง๋ฐฐํ๋ ๊ฒ์ ๋ณผ ์ ์์ต๋๋ค.(class imbalance) ์์ balance cross entropy๊ฐ easy/hard negative ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ ์ ์์ด, ์๋ก์ด modulating factor()๋ฅผ ์ ์ํฉ๋๋ค. Focal loss๋ ์์ ์์๋ก ์ ์ํ ์ ์์ต๋๋ค.
โ ์๋ฅผ ๋ค๋ฉด ๊ฐ์ด ์๊ณ ์๋ชป ์์ธกํ๋ค๋ฉด, ์์ modulating factor๋ 1์ ๊ฐ๊น์ฐ๋ฉฐ, loss์ ์ํฅ์ ์ฃผ์ง ์์ต๋๋ค. ๋ค๋ฅธ ์์๋ก ๊ฐ 1์ ๊ฐ๊น์ฐ๋ฉด, factor๋ 0์ ๊ฐ๊น์ ์ง ๊ฒ์ด๊ณ , well-classified๋ ์์์ loss๋ down-weight ๋ ๊ฒ์ ๋๋ค.
โ ๋ ๋ค๋ฅธ ์์๋ก ์ด๊ฑฐ, ์ด๋ฉด CE์ ๋นํด 100๋ฐฐ ๋ฎ์ loss๋ฅผ ๊ฐ์ง๊ณ , ์ด๋ฉด 1000๋ฐฐ ๋ฎ์ loss ๊ฐ์ ๊ฐ์ง๋๋ค.
โ ์์ ์๊ณผ ๊ฐ์ด ๋ณธ ๋ ผ๋ฌธ์์๋ -balance ๊ฐ์ ์ถ๊ฐํด ์ฌ์ฉํฉ๋๋ค. ๋จ์ํ๊ฒ ์์ ๋ฐฉ๋ฒ์ ์ฌ์ฉํ์ ๋ ๋ ์ข์ ๊ฒฐ๊ณผ๋ฅผ ๋์ถํ๋ค๊ณ ํฉ๋๋ค.
โ Binary classification models์ y = -1 or 1์ ์๊ด์์ด ์ถ๋ ฅ ํ๋ฅ ์ด ๊ฐ๋๋ก ์ด๊ธฐํ ๋ฉ๋๋ค. ์ด๋ฌํ ์ด๊ธฐํ๋, ์์ค์ด ์ ์ฒด ์์ค์ ์ง๋ฐฐํ ์ ์์ด ๋ถ์์ ํ ์ด๊ธฐ traing ์ด๋ํ ์ ์์ต๋๋ค. ์์ ๋ฐฉ๋ฒ์ ๋ง๊ธฐ์ํด prior(=p)๋ฅผ ์ฌ์ฉํฉ๋๋ค. p๊ฐ์ rare class์ ์ํด ์ถ์ ๋ ๊ฐ์ผ๋ก ์ง์ ํฉ๋๋ค.
โ Two-stage detector์ ๊ฒฝ์ฐ์๋ CE๋ฅผ ์ฌ์ฉํ์ง๋ง, ๋์ 2๊ฐ์ง ๋ฐฉ๋ฒ์ผ๋ก ๋ถ๊ท ํ์ ํด๊ฒฐํฉ๋๋ค.
(1) two-stage cascade, (2) biased minibatch sampling์ ์ฌ์ฉํฉ๋๋ค. cascade ๋ฐฉ๋ฒ์ proposal์ ์๋ฅผ ์ฝ ์ฒ๊ฐ์ ๊ฐ๊น๊ฒ ์ค์
๋๋ค. ์ฌ๊ธฐ์ ์ค์ํ๊ฑด proposal์ ์ค์ด๋ ๊ฒ์ ๋๋ค์ด ์๋ ์์๋ก ์ ํํด์ ์งํํ๋๋ฐ, ์์ ๊ณผ์ ์์ easy negative๋ฅผ ์ค์ผ ์ ์์ต๋๋ค.
โ RetinaNet์ One-stage detector๋ก์จ backbone + two task specific subnetworks๋ก ๊ตฌ์ฑ๋์ด ์์ต๋๋ค. ๊ฐ๊ฐ์ subnet์ object classification๊ณผ bounding box๋ฅผ ์์ธกํฉ๋๋ค.
โ FPN์ top-down pathway + lateral connections์ ์ฌ์ฉํ๊ณ , single resolutions์ ๋ฐ์ multi-scale feature pyramid๋ฅผ ์ถ์ถํฉ๋๋ค.
โ ~ ์ ํผ๋ผ๋ฏธ๋ ๊ตฌ์กฐ๋ฅผ ์ด๋ฃจ๋ฉฐ ๊ฐ๊ฐ 256์ ์ฑ๋์ ๊ฐ์ง๊ณ ์์ต๋๋ค. ์ ์ฌํ ๋ด์ฉ์ FPN ๋ ผ๋ฌธ์ ์ฐธ๊ณ ํด์ฃผ์๊ธฐ ๋ฐ๋๋๋ค.
โ ์์ anchor box๋ค์ ์ฌ์ด์ฆ๋ ~ ๋ฅผ ๊ณ ๋ คํด 32 ~ 512์ ์ฌ์ด์ฆ๋ฅผ ๊ฐ์ง๊ณ ์์ต๋๋ค. ๋ํ ๊ฐ๊ฐ์ ํผ๋ผ๋ฏธ๋ ๋ ๋ฒจ์์ 3๊ฐ์ aspect ratios์ 3๊ฐ์ size๋ฅผ ์ถ๊ฐ๋ก ์ฌ์ฉํฉ๋๋ค. (์ด 9๊ฐ์ anchors)
โ ๊ฐ anchor์๋ class(=K)๊ฐ์ one-hot vector๊ฐ ํ ๋น๋๊ณ 4๊ฐ์ bbox ๊ฐ์ด ํ ๋น๋ฉ๋๋ค. ๋ชจ๋ anchor๋ค์ ์ฌ์ฉํ ๊ฒ์ด ์๋ IoU > 0.5 ์ด์์ธ ๊ฐ๋ค๋ง์ ์ฌ์ฉํ๋ฉฐ, 0 <= IoU < 0.4์ ๊ฐ๋ค์ background๋ก ์ฌ์ฉํฉ๋๋ค. ์ด์ธ์ anchor๋ค์ ๋ฌด์ํฉ๋๋ค.
โ Classification subnet์์๋ ๊ฐ๊ฐ์ ๊ณต๊ฐ ์์น์ A anchors์ K object class์ ๋ํ ํ๋ฅ ์ ์์ธกํฉ๋๋ค. ์์ subnet์ FPN level์ ์์ FCN์ ์ถ๊ฐํ ๊ฒ์ด๋ผ๊ณ ๋งํ ์ ์์ต๋๋ค.
โ Class subnet์ ์์ ๊ฐ์ ๊ตฌ์กฐ๋ฅผ ๊ฐ์ง๊ณ ์์ต๋๋ค. ๋ํ RPNs๋ ๋์กฐ์ ์ผ๋ก, ์์ classification subnet์ ๋ ๊น์ผ๋ฉฐ, ์ค์ง 3x3 conv๋ง ์ฌ์ฉํ๊ณ , box regression๊ณผ ํ๋ผ๋ฏธํฐ๋ฅผ ๊ณต์ ํ์ง ์์ต๋๋ค.
โ Box regression Subnet์ object classification๊ณผ ๋ณ๋ ฌ์ ์ผ๋ก ์ฒ๋ฆฌ๋๋ฉฐ, ๋๋ค๋ฅธ ์์ FCN๊ตฌ์กฐ๋ฅผ ์ถ๊ฐํ๋ค๊ณ ํฉ๋๋ค. ์์ ๋ง์ง๋ง ๊ตฌ์กฐ์ ๊ฐ์ด 4A๋ฅผ ์ถ์ถํฉ๋๋ค. ๋ํ ๋ณธ ๋ ผ๋ฌธ์์๋ class-agnostic bbox regressor์ ์ฌ์ฉํ๋ค๊ณ ํฉ๋๋ค.
โ RetinaNet์ ResNet-FPN backbone + two subnet with FCN์ ๊ตฌ์กฐ ๊ฐ์ง๊ณ ์์ต๋๋ค. inference์ ์๋๋ฅผ ํฅ์์ํค๊ธฐ ์ํด FPN์์ ๊ฐ์ฅ ๋์ 1000๊ฐ ์ค 0.05 ์ด์์ confidence ๊ฐ๋ค๋ง ์ถ์ถํด ์์ธกํ์ต๋๋ค. final detection์์ 0.5์ด์์ threshold๋ก NMS๋ฅผ ์งํํ์ต๋๋ค.
โ ๋ณธ ๋ ผ๋ฌธ์์๋ Focal Loss์ ๋ํด ์ค๋ช ํ์ต๋๋ค. Focal loss๋ classification subnet์ ๊ฒฐ๊ณผ๋ก ์ฌ์ฉํ์ผ๋ฉฐ, ๋ก ์ค์ ํ๊ณ ์งํํ๋ค๊ณ ํฉ๋๋ค. ๋ํ ๋ณธ RetinaNet์์์ focal loss๋ all ~ 100k์ anchor๋ค์ ๋ํด ๊ณ์ฐ์ ์งํํ๋๋ฐ, ์ด๋ ์ด์ ์ RPN์ด๋ OHEM์์ ์์ ์ ์ ๋ฏธ๋๋ฐฐ์น๋ฅผ ์ฌ์ฉํ ๊ฒ๊ณผ๋ ๋์กฐ์ ์ ๋๋ค.
โ ์ด๋ฏธ์ง์ ์ ์ฒด focal loss์ ๋ชจ๋ ~100k anchor์ ๋ํ focal loss์ ํฉ์ผ๋ก ๊ณ์ฐ๋๋ฉฐ, GT๋ก ํ ๋น๋ anchor์ ์๋ก ์ ๊ทํํฉ๋๋ค. ์ ์ ํ๋ผ๋ฏธํฐ ์ค์ ์ ์์ ํ์์ ๋ณผ ์ ์์ต๋๋ค.
โ Backbone(ResNet)์ ์ฌ์ฉํ์ผ๋ฉฐ, FPN์ ์ถ๊ฐ์ ์ผ๋ก layer์ ๋ํด ์ด๊ธฐํ๋ฅผ ์งํํ์ต๋๋ค. ๋ง์ง๋ง layer ์ ์ธํ ๋ชจ๋ ์ถ๊ฐ์ ์ธ layer์ ๋ํด bias b = 0์ผ๋ก weight๋ ์ ๊ฐ์ง๋ ๊ฐ์ฐ์๊ฐ ๋ถํฌ๋ก ์ด๊ธฐํ ํฉ๋๋ค. ๋ง์ง๋ง conv layer์ bias์ ๋ํด ๊ฐ์ผ๋ก ์ด๊ธฐํํฉ๋๋ค. ๋ฅผ ์ฃผ๊ณ ๋ชจ๋ ์คํ์ ์งํํ๋ค๊ณ ํฉ๋๋ค.
โ Optimization์ ๊ฒฝ์ฐ SGD๋ฅผ ์ฌ์ฉํด ์งํํ์ต๋๋ค. Retinanet์ 8๊ฐ์ GPU๋ฅผ ๋๊ธฐํํด ์ฌ์ฉํ๊ณ ๊ฐ ๋ฏธ๋๋ฐฐ์น๋น 16๊ฐ์ ์ด๋ฏธ์ง๋ฅผ ํ์ตํฉ๋๋ค. ์ด 90K์ iteration์ ์งํํ์ต๋๋ค. ์ด๊ธฐ learning rate๋ 0.01๋ก 60K์ 0.001๋ก 80k์ 0.0001๋ก ์งํํ๋ค๊ณ ํฉ๋๋ค. Weight decay๋ 0.0001๋ก momentum์ 0.9๋ก ์ฌ์ฉํ๋ค๊ณ ํฉ๋๋ค. ๋ํ training loss = focal loss + standard smooth L1 loss(box regression) ์ฌ์ฉํ๋ค๊ณ ํฉ๋๋ค.
๐จโ๐ซ ์ด ํ์ ๋ด์ฉ๋ค์ ๋๋ถ๋ถ ์คํ ๊ฒฐ๊ณผ์ ๋ํ ์ด์ผ๊ธฐ๋ค ์ ๋๋ค. ๊ถ๊ธํ์๋ฉด ๋ ผ๋ฌธ ์ฐธ๊ณ ๋ถํ๋๋ฆฌ๊ฒ ์ต๋๋ค.