๐ ๋ณธ ๋ฆฌ๋ทฐ๋ FPN ๋ฐ ๋ฆฌ๋ทฐ๋ฅผ ์ฐธ๊ณ ํด ์์ฑํ์ต๋๋ค.
๐ Feature Pyramid Networks
๐ Bottom-up, Top-down Pathways
๐ High,low Resolution & Low,High-level Features
๐ FPN with Faster R-CNN
โ ๊ธฐ์กด์ feature pyramids๋ Fig 1 (a)์ ๊ฐ์ ํํ๋ฅผ ๊ฐ์ง๊ณ ์์ต๋๋ค. ์ด๋ฌํ feature pyramids๋ "scale-invariant" ๋ผ๋ ํน์ง์ ๊ฐ์ง๊ณ ์์ต๋๋ค. "scale-invariant" ๋ผ๋ ๊ฒ์ ๊ฐ์ฒด์ scale์ด ๋ณํจ์๋ ๊ฐ์ฒด์ ํน์ง์ด ๋ณํ์ง ์๋๋ค๋ ํน์ง์ ๋๋ค.
โ ๊ธฐ์กด์ feature pyramids๋ ๋๋ฌด ๋ฌด๊ฒ๊ธฐ์ ์ฌ์ฉํ๊ธฐ ์ด๋ ต์ต๋๋ค. ๊ทธ๊ฒ์ ๋์์ผ๋ก Fig 1 (b)์ ํํ์ธ ConvNets๊ฐ ์ ์๋์์ต๋๋ค. ConvNets๋ ์ญ์ ๋งค์ฐ robustํ๋ค๋ ํน์ง์ ๊ฐ์ง๊ณ ์์ง๋ง, ๊ธฐ์กด์ pyramids๊ฐ ๋ ์ข์ ์ ํ๋๋ฅผ ์์ธกํฉ๋๋ค.
โ ๋ณธ ๋ ผ๋ฌธ์์๋ ConvNets ์ญ์ ๋ด์ฌ๋ mutli-scale. ์ฆ, ํผ๋ผ๋ฏธ๋ ํํ๋ผ๊ณ ๋งํฉ๋๋ค. ํ์ง๋ง High-resolution maps(=Low-level Feature)๊ณผ low-resolution maps(=High-level Feature)๋ก ์ธํด large sematic gap ์ฐจ์ด๊ฐ ๋ฉ๋๋ค. ๋ณธ ๋ ผ๋ฌธ์ ๋ชฉํ๋ ๋ฐฉ๊ธ ์ธ๊ธํ large sematic gap์ ์ค์ฌ ๋ชจ๋ scale์์ strong semantic feature pyramid๋ฅผ ๋ง๋๋ ๊ฒ์ด ๋ชฉํ์ ๋๋ค. Fig 1 (d)๊ฐ ๋ชจ๋ level์์ rich semantic์ ์ด๋ฃจ๊ฒ ํด์ฃผ๋ ๋คํธ์ํฌ์ ๋๋ค.
โ ๋ณธ ํผ๋ผ๋ฏธ๋ ๊ตฌ์กฐ๋ ๋ชจ๋ scale์์ end-to-end ๊ตฌ์กฐ๊ฐ ๊ฐ๋ฅํ๊ณ , memory-infeasible ํฉ๋๋ค.
๐ ์์ ์ฌ์ง์ High-resolution maps(=Low-level Feature)๊ณผ low-resolution maps(=High-level Feature)์ ๋ํด ๋ณด์ฌ์ฃผ๊ณ ์์ต๋๋ค. Low-level Feature์์๋ ์ ๊ณผ edge์ ๊ฐ์ ์ผ๋ถ๋ง ํ์ ํ๋ค๋ฉด, High-level์์๋ ๋ฐํด์ ๊ฐ์ ๊ตฌ์ฒด์ ์ธ ๊ฐ์ฒด์ ๋ํด ๋ถ์ํ๊ณ ์์ต๋๋ค.
โ Bottom-up pathway๋ backbone ConvNet์ ์์ ํ ๊ณ์ฐํ๋ ๊ฒ์
๋๋ค. ๋ณธ ๋
ผ๋ฌธ์์๋ ๊ฐ์ map size๋ฅผ outputํ๋ layer๋ค์ ๊ฐ์ ๋คํธ์ํฌ ์คํ
์ด์ง๋ผ๊ณ ๋ถ๋ฆ
๋๋ค. ๊ทธ๋ฆฌ๊ณ ๊ฐ ์คํ
์ด์ฆ์ ๋ง์ง๋ง ์ธต์ reference set of feature map์ผ๋ก ์ง์ ํฉ๋๋ค. ์ด๊ฒ์ ๋น์ฐํ๊ฒ ๊ฐ ์คํ
์ด์ง์์ ๊ฐ์ฅ ๊น์ ๋ ์ด์ด๊ฐ ๊ฐ์ฅ ๊ฐํ feature์ ๊ฐ์ง๊ณ ์๊ธฐ ๋๋ฌธ์
๋๋ค.
โ Bottom-up pathway๋ ์๋ ๊ทธ๋ฆผ๊ณผ ๊ฐ์ด ๊ฐ๊ฐ์ {C2,C3,C4,C5} last residul block์ ๊ฐ์ง๊ณ ์์ต๋๋ค.
โ ๋จผ์ Backbone Network์์ FPN ๊ณผ์ ์ ์ํํด {,,,,}๋ฅผ ๊ฐ์ง๋{p2,p3,p4,p5,p6}๋ฅผ ๋ฐํํฉ๋๋ค. ๊ธฐ์กด์ RPN์ single-scale ์ด๋ฏธ์ง๋ฅผ input์ผ๋ก ๋ฐ์ง๋ง, FPN์ ์ฌ์ฉํจ์ผ๋ก์จ multi-scale ์ด๋ฏธ์ง๋ฅผ input์ผ๋ก ๋ฐ์ต๋๋ค. ๊ทธ๋ ๊ธฐ์ 5๊ฐ์ multi-scale๊ณผ {1:2, 1:1, 2:1}์ธ 3๊ฐ์ aspect ratios ๊น์ง ์ด 15๊ฐ์ anchors์ ๊ฐ์ง๋ค๊ณ ํฉ๋๋ค.
โ ์ดํ ์์์ ์ธ๊ธํ "head"์ ๊ณผ์ ์ ๊ฑฐ์น๊ณ , NMS ๊ณผ์ ๊น์ง ๊ฑฐ์ฒ top 1000 region proposals์ ๋ฐํํฉ๋๋ค.
โ 1000๊ฐ์ region proposals์ ์ฌ์ฉํ์ฌ RoI pooling์ ์ํํฉ๋๋ค. ํ์ง๋ง Fast R-CNN๊ณผ๋ ๋ค๋ฅด๊ฒ FPN์ ์ ์ฉํ Faster R-CNN์ multi-scale feature map์ ์ฌ์ฉํ๊ธฐ ๊ฐ๊ฐ์ region proposals๊ณผ feature map์ ๋งค์นญ ์์ผ์ค์ผํฉ๋๋ค.
โ ์์ ์์ ๋ฐ๋ผ์ K๋ฒ์งธ feature map๊ณผ region proposals์ ๋งค์นญํฉ๋๋ค. w,h๋ region proposal์ width, height์ ํด๋นํ๋ฉด , k๋ ํผ๋ผ๋ฏธ๋์ level์ index, k0๋ target level์ ์๋ฏธํฉ๋๋ค. ๋ ผ๋ฌธ์์ ๋งํ๊ธธ "์ง๊ด์ ์ผ๋ก region proposal์ scale์ด ์์์ง ์๋ก High-resolution feature map์ ํ ๋นํ๋ค(๋ฎ์ ํผ๋ผ๋ฏธ๋ level)"๊ณ ๋งํฉ๋๋ค.
โ RoI pooling์ ํตํด ์ป์ ๊ณ ์ ๋ feature map์ ํ์ต์ํค๊ณ NMS์ ์ ์ฉํด ๊ฒฐ๊ณผ๋ฅผ ์ถ๋ ฅํฉ๋๋ค. ๊ฒฐ๊ณผ์ ์ผ๋ก ResNet์ฌ์ฉํ FPN + Faster R-CNN์ ๊ฒฐ๊ณผ๋ FPN์ ์ฌ์ฉํ์ง ์์์ ๋๋ณด๋ค AP 8% ์ด์ ํฅ์๋์๋ค๊ณ ํฉ๋๋ค.