
๐ ๋ณธ ๋ฆฌ๋ทฐ๋ FPN ๋ฐ ๋ฆฌ๋ทฐ๋ฅผ ์ฐธ๊ณ ํด ์์ฑํ์ต๋๋ค.
๐ Feature Pyramid Networks
๐ Bottom-up, Top-down Pathways
๐ High,low Resolution & Low,High-level Features
๐ FPN with Faster R-CNN
โ Feature Pyramid Networks(FPN)์ ๊ธฐ์กด์ feature pyramids์ ๋ค๋ฅธ ์๋ก์ด ํจ๋ฌ๋ค์์ ์ ์ํฉ๋๋ค. FPN์ ๋
์์ ์ธ Object detection ๋ชจ๋ธ์ ์๋๋๋ค. ๊ทธ๋ ๊ธฐ์ ๋ณธ ๋
ผ๋ฌธ์์๋ FPN์ ์ฌ์ฉํ Faster R-CNN์ ์ ์ํฉ๋๋ค.
โ ๊ธฐ์กด์ feature pyramids๋ Fig 1 (a)์ ๊ฐ์ ํํ๋ฅผ ๊ฐ์ง๊ณ ์์ต๋๋ค. ์ด๋ฌํ feature pyramids๋ "scale-invariant" ๋ผ๋ ํน์ง์ ๊ฐ์ง๊ณ ์์ต๋๋ค. "scale-invariant" ๋ผ๋ ๊ฒ์ ๊ฐ์ฒด์ scale์ด ๋ณํจ์๋ ๊ฐ์ฒด์ ํน์ง์ด ๋ณํ์ง ์๋๋ค๋ ํน์ง์ ๋๋ค.
โ ๊ธฐ์กด์ feature pyramids๋ ๋๋ฌด ๋ฌด๊ฒ๊ธฐ์ ์ฌ์ฉํ๊ธฐ ์ด๋ ต์ต๋๋ค. ๊ทธ๊ฒ์ ๋์์ผ๋ก Fig 1 (b)์ ํํ์ธ ConvNets๊ฐ ์ ์๋์์ต๋๋ค. ConvNets๋ ์ญ์ ๋งค์ฐ robustํ๋ค๋ ํน์ง์ ๊ฐ์ง๊ณ ์์ง๋ง, ๊ธฐ์กด์ pyramids๊ฐ ๋ ์ข์ ์ ํ๋๋ฅผ ์์ธกํฉ๋๋ค.
โ ๋ณธ ๋ ผ๋ฌธ์์๋ ConvNets ์ญ์ ๋ด์ฌ๋ mutli-scale. ์ฆ, ํผ๋ผ๋ฏธ๋ ํํ๋ผ๊ณ ๋งํฉ๋๋ค. ํ์ง๋ง High-resolution maps(=Low-level Feature)๊ณผ low-resolution maps(=High-level Feature)๋ก ์ธํด large sematic gap ์ฐจ์ด๊ฐ ๋ฉ๋๋ค. ๋ณธ ๋ ผ๋ฌธ์ ๋ชฉํ๋ ๋ฐฉ๊ธ ์ธ๊ธํ large sematic gap์ ์ค์ฌ ๋ชจ๋ scale์์ strong semantic feature pyramid๋ฅผ ๋ง๋๋ ๊ฒ์ด ๋ชฉํ์ ๋๋ค. Fig 1 (d)๊ฐ ๋ชจ๋ level์์ rich semantic์ ์ด๋ฃจ๊ฒ ํด์ฃผ๋ ๋คํธ์ํฌ์ ๋๋ค.
โ ๋ณธ ํผ๋ผ๋ฏธ๋ ๊ตฌ์กฐ๋ ๋ชจ๋ scale์์ end-to-end ๊ตฌ์กฐ๊ฐ ๊ฐ๋ฅํ๊ณ , memory-infeasible ํฉ๋๋ค.
๐ ์์ ์ฌ์ง์ High-resolution maps(=Low-level Feature)๊ณผ low-resolution maps(=High-level Feature)์ ๋ํด ๋ณด์ฌ์ฃผ๊ณ ์์ต๋๋ค. Low-level Feature์์๋ ์ ๊ณผ edge์ ๊ฐ์ ์ผ๋ถ๋ง ํ์ ํ๋ค๋ฉด, High-level์์๋ ๋ฐํด์ ๊ฐ์ ๊ตฌ์ฒด์ ์ธ ๊ฐ์ฒด์ ๋ํด ๋ถ์ํ๊ณ ์์ต๋๋ค.
โ FPN์ single-scale์ ์์ ์ด๋ฏธ์ง๋ฅผ ์
๋ ฅ์ผ๋ก ๋ฐ๊ณ , ์ฌ์ด์ฆ์ ๋น๋กํ multiple level์ feature map์ ๋ฐํํฉ๋๋ค. ์ด ๊ณผ์ ์ backbond Conv ๊ตฌ์กฐ์๋ ๋
๋ฆฝ์ ์ธ ๊ณผ์ ์
๋๋ค. ๋ณธ ๋
ผ๋ฌธ์์๋ ResNet์ ์ฌ์ฉํ์ต๋๋ค. ๋ณธ ํผ๋ผ๋ฏธ๋ ๊ตฌ์กฐ๋ bottom-up pathway, top-down pathway and lateral connection 3๊ฐ์ง ๋ฐฉ๋ฒ์ผ๋ก ๊ตฌ์ฑ๋์ด์์ต๋๋ค.
โ Bottom-up pathway๋ backbone ConvNet์ ์์ ํ ๊ณ์ฐํ๋ ๊ฒ์
๋๋ค. ๋ณธ ๋
ผ๋ฌธ์์๋ ๊ฐ์ map size๋ฅผ outputํ๋ layer๋ค์ ๊ฐ์ ๋คํธ์ํฌ ์คํ
์ด์ง๋ผ๊ณ ๋ถ๋ฆ
๋๋ค. ๊ทธ๋ฆฌ๊ณ ๊ฐ ์คํ
์ด์ฆ์ ๋ง์ง๋ง ์ธต์ reference set of feature map์ผ๋ก ์ง์ ํฉ๋๋ค. ์ด๊ฒ์ ๋น์ฐํ๊ฒ ๊ฐ ์คํ
์ด์ง์์ ๊ฐ์ฅ ๊น์ ๋ ์ด์ด๊ฐ ๊ฐ์ฅ ๊ฐํ feature์ ๊ฐ์ง๊ณ ์๊ธฐ ๋๋ฌธ์
๋๋ค.
โ Bottom-up pathway๋ ์๋ ๊ทธ๋ฆผ๊ณผ ๊ฐ์ด ๊ฐ๊ฐ์ {C2,C3,C4,C5} last residul block์ ๊ฐ์ง๊ณ ์์ต๋๋ค.
โ Top-down pathway๋ High-level feature์์ upsampling๊ณผ lateral connection์ ํตํด ๋ด๋ ค์ค๋ ๊ณผ์ ์
๋๋ค. 1x1 conv layer์ ํตํด 256 ์ฑ๋์ ๋ง์ถฐ์ค๋๋ค. ๊ฐ pyramid level์ feature map์ 2๋ฐฐ๋ก upsamplingํด์ฃผ๋ฉด ๋ฐ๋ก ์๋ level์ feature map์ ํฌ๊ธฐ๊ฐ ๊ฐ์์ง๋๋ค. upsampling์ ๊ฒฝ์ฐ nearest neighbor upsampling์ ์ฌ์ฉํฉ๋๋ค. upsampling๋ feature map๊ณผ 1x1 conv layer๋ก ์ฌ์ด์ฆ์ ์ฑ๋์ด ๊ฐ์์ง feature map์ element-wise addtion ์ฐ์ฐ์ ์งํํฉ๋๋ค. ์ด๋ฅผ latertal connection์ด๋ผ๊ณ ๋ถ๋ฆ
๋๋ค. ์ดํ 3x3 Conv layer๋ฅผ ์ฐ์ฐ์ ์ ์ฉ์ upsampling์ alias๋ฅผ ์ค์ด๊ณ , {p2, p3, p4, p5} ๋ผ๊ณ ๋ถ๋ฆ
๋๋ค.
โ FPN์ ๋ฐฉ์์ single-scale๋ฅผ input์ผ๋ก ๋ฐ๊ธฐ์, ๊ธฐ์กด์ ํผ๋ผ๋ฏธ๋ ๋ชจ๋ธ๋ณด๋ค ํจ์จ์ ์ด๋ฉฐ, multi-scale feature map์ ์ถ๋ ฅํ๊ธฐ์ ๋์ detection ์ฑ๋ฅ์ ๋ณด์ฌ์ค๋๋ค. FPN์ High-resolution map์ low-level feature์ ๊ฐ์ง์ง๋ง ๋์ ํด์๋๋ก ์ ํํ ์์น๋ฅผ ๊ฐ์ง๊ณ ์์ต๋๋ค. ์ด๋ฐ High-resolution map์ ํน์ง์ element-wise addition์ ํตํด ์ ๋ฌํด, ์์์ ์ธ๊ธํ semantic gap๋ฅผ ์ค์ผ ์ ์์ต๋๋ค.
โ RPN ๋์์ธ์, 3x3 sliding window๋ก ์ด๋ฃจ์ด์ง ์์ ๋คํธ์ํฌ์
๋๋ค. RPN์ region proposal์ ์ถ์ถํ๊ธฐ ์ํ ๋คํธ์ํฌ๋ก์จ, ์์ธํ ๋ด์ฉ์ Fast R-CNN ๋
ผ๋ฌธ ์ฐธ๊ณ ๋ถํ๋๋ฆฝ๋๋ค. RPN์์ ์ํํ๋ object/non-object classification๊ณผ bounding box regression์ 3x3 conv layer์ ๊ฐ๊ฐ 1x1 conv layer๋ก ์ด๋ฃจ์ด์ ธ ์๊ณ ์ฐ๋ฆฌ๋ ์ด๊ฒ์ "head"๋ผ๊ณ ๋ถ๋ฆ
๋๋ค.
โ ๋จผ์ Backbone Network์์ FPN ๊ณผ์ ์ ์ํํด {,,,,}๋ฅผ ๊ฐ์ง๋{p2,p3,p4,p5,p6}๋ฅผ ๋ฐํํฉ๋๋ค. ๊ธฐ์กด์ RPN์ single-scale ์ด๋ฏธ์ง๋ฅผ input์ผ๋ก ๋ฐ์ง๋ง, FPN์ ์ฌ์ฉํจ์ผ๋ก์จ multi-scale ์ด๋ฏธ์ง๋ฅผ input์ผ๋ก ๋ฐ์ต๋๋ค. ๊ทธ๋ ๊ธฐ์ 5๊ฐ์ multi-scale๊ณผ {1:2, 1:1, 2:1}์ธ 3๊ฐ์ aspect ratios ๊น์ง ์ด 15๊ฐ์ anchors์ ๊ฐ์ง๋ค๊ณ ํฉ๋๋ค.
โ ์ดํ ์์์ ์ธ๊ธํ "head"์ ๊ณผ์ ์ ๊ฑฐ์น๊ณ , NMS ๊ณผ์ ๊น์ง ๊ฑฐ์ฒ top 1000 region proposals์ ๋ฐํํฉ๋๋ค.
โ 1000๊ฐ์ region proposals์ ์ฌ์ฉํ์ฌ RoI pooling์ ์ํํฉ๋๋ค. ํ์ง๋ง Fast R-CNN๊ณผ๋ ๋ค๋ฅด๊ฒ FPN์ ์ ์ฉํ Faster R-CNN์ multi-scale feature map์ ์ฌ์ฉํ๊ธฐ ๊ฐ๊ฐ์ region proposals๊ณผ feature map์ ๋งค์นญ ์์ผ์ค์ผํฉ๋๋ค.

โ ์์ ์์ ๋ฐ๋ผ์ K๋ฒ์งธ feature map๊ณผ region proposals์ ๋งค์นญํฉ๋๋ค. w,h๋ region proposal์ width, height์ ํด๋นํ๋ฉด , k๋ ํผ๋ผ๋ฏธ๋์ level์ index, k0๋ target level์ ์๋ฏธํฉ๋๋ค. ๋ ผ๋ฌธ์์ ๋งํ๊ธธ "์ง๊ด์ ์ผ๋ก region proposal์ scale์ด ์์์ง ์๋ก High-resolution feature map์ ํ ๋นํ๋ค(๋ฎ์ ํผ๋ผ๋ฏธ๋ level)"๊ณ ๋งํฉ๋๋ค.
โ RoI pooling์ ํตํด ์ป์ ๊ณ ์ ๋ feature map์ ํ์ต์ํค๊ณ NMS์ ์ ์ฉํด ๊ฒฐ๊ณผ๋ฅผ ์ถ๋ ฅํฉ๋๋ค. ๊ฒฐ๊ณผ์ ์ผ๋ก ResNet์ฌ์ฉํ FPN + Faster R-CNN์ ๊ฒฐ๊ณผ๋ FPN์ ์ฌ์ฉํ์ง ์์์ ๋๋ณด๋ค AP 8% ์ด์ ํฅ์๋์๋ค๊ณ ํฉ๋๋ค.