๐จโ๐ซ ์ค๋์ Faster R-CNN ๋ ผ๋ฌธ์์ ๋์จ RPN(Region Proposal Network)์ ๋ํด์ ๋ค์ ์์๋ณผ๋ ค๊ณ ํฉ๋๋ค. ์ฌ์ค ์ ์ Faster R-CNN ๋ ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์ง๋ง, RPN์ ๋ํด ๋ค์ ๊ธ์ ์ฐ๋ ์ด์ ๋ ๋ง์ ๋ค๋ฅธ ๋ ผ๋ฌธ๋ค์์ RPN์ ์ฌ์ฉํ๋ ๊ฒฝ์ฐ๊ฐ ๋งค์ฐ ์์ฃผ ์๊ธฐ์ ๋ค์ ํ ๋ฒ ์ ๋ฆฌํด๋ณผ๋ ค๊ณ ํ๋ค.(ํญ์ RPN์ ๋ํด ์๊ฐํ ๋๋ง๋ค ๋ฐ๋ก๋ฐ๋ก ๋ ์ค๋ฅด์ง ์๊ธฐ์ ๋ค์ ํ ๋ฒ ์ ๋ฆฌํ๋ค...ใ )
๐ RPN์ ์ํ ๊ณผ์ ๊ณผ RPN์ ์ฝ๊ฐ์ anchor box์ detail์ ๋ํด์ ์ดํด๋ณผ ๊ฒ์ด๋ค!
โ ๊ฐ์ฅ ๋จผ์ Input ์ด๋ฏธ์ง๋ฅผ Convolutional Neural Network์ ํ์ต์ํค๊ณ ๋ง์ง๋ง ๋ ์ด์ด์์ features map์ output์ผ๋ก ๋ฐ๋๋ค.
โ CNN์์ ๋ฐ์ feature map์์ ํน์ ์ฌ์ด์ฆ์ ์๋์ฐ๋ก(nxn), sliding window๋ฅผ ์งํํฉ๋๋ค. ์ฌ๊ธฐ์ ์ค์ํ ์ ์ Anchor boxes๋ฅผ ์ฌ์ฉํ๋ค๋ ์ ์ ๋๋ค. sliding window๋ฅผ ํ๋ฉด์ ๊ฐ๊ฐ์ features ๊ฐ๋ค์ ๋ํด 9๊ฐ์ Anchor boxes๋ฅผ ์์ฑํฉ๋๋ค.(3๊ฐ์ ๋ค๋ฅธ aspect ratios(1:1, 1:2, 2:1) ๊ทธ๋ฆฌ๊ณ 3๊ฐ์ ๋ค๋ฅธ scale(128, 256, 512)) ๊ฒฐ๊ณผ์ ์ผ๋ก W H(feature map size) K(anchor boxes)์ ๋ฐ์ค๋ฅผ ํ์ธํ ์ ์์ต๋๋ค.
โ ๊ฐ๊ฐ์ anchor boxes๋ค์ด ๋ฌด์์ ์๋ฏธํ๋์ง ์์๋ด์ผ ํฉ๋๋ค. ์ฌ๊ธฐ์ ์ฐพ์์ผ ํ๋๊ฑด ๊ฐ anchor boxes๋ค์ด ๊ฐ์ฒด๋ฅผ ์๋ฏธํ๋์ง ์ํ๋์ง, ๊ทธ๋ฆฌ๊ณ bbox์ offset ์ ๋๋ค. ์ฆ, ๊ฐ anchor box๊ฐ foreground์ธ์ง background์ธ์ง ํ๋จํ๊ณ , bbox regression์ ํตํด ์ขํ์ ์์น๋ฅผ ์กฐ์ ํด์ผํฉ๋๋ค.
โ bbox Classifier๋ GT์์ IoU๊ฐ์ ๊ณ์ฐํด foreground์ธ์ง background์ธ์ง ํ๋จํฉ๋๋ค. ์ผ๋ฐ์ ์ผ๋ก ๊ทธ ํ๋ฅ ์ objectness score๋ผ๊ณ ๋ถ๋ฆฝ๋๋ค.
โ bbox Regressor layer์ foreground๋ก ๋ถ๋ฅ๋ anchor box์ GT์ ๋ํ offset์ ํ์ตํฉ๋๋ค.
๐จโ๐ซ ๊ฐ๋จํ๊ฒ RPN์ Step์ ๋ํด์ ์์๋ดค์ต๋๋ค. ๋ํ
์ผํ ๋ถ๋ถ๋ค์ด ๋น ์ ธ์์ต๋๋ค. ์ด ๊ธ์ ์ฐ๋ ๋ชฉ์ ์์ฒด๊ฐ RPN์ ๋ํด ์๊ฐํ์ ๋ ๊ณผ์ ์ด ๋ฐ๋ก ์๊ฐ๋๋ ๊ฒ์ ์ํ๊ธฐ ๋๋ฌธ์ ์ต๋ํ ํต์ฌ์ ์ธ ๋ถ๋ถ๋ง ์์ฑํ์ต๋๋ค. ์ฆ RPN์ ๋ํด ์ฒ์ ๋ณด์ ๋ค๋ฉด R-CNN ๊ณ์ด์ ๋
ผ๋ฌธ๋ค์ ์ฝ์ด๋ณด์๊ธธ ์ถ์ฒ๋๋ฆฝ๋๋ค.(ํํ ๊ทธ๋ฆฌ๊ณ ๋ํ
์ผํ ๋ถ๋ถ์ ๋ช
ํํ๊ฒ ์ค๋ช
ํ ์์ ์ด ์์ต๋๋ค.)
โ ์์ ๊ณผ์ ์ค ํน์ RPN์ ๋ํด ๊ณต๋ถํ๋ค๋ณด๋ฉด ํ ๊ฐ์ง ์๋ฌธ์ด ๋๋ ์ ์ด ์์ต๋๋ค. ์์ ๊ณผ์ ์์๋ CNN์์ ๋์จ ๊ฐ๊ฐ์ feature ๊ฐ๋ค์ ๋ํด anchor boxes๋ฅผ ์ ์ํฉ๋๋ค. ํ์ง๋ง ์ด boxes๋ฅผ ์ฌ์ฉํ๊ธฐ ์ํด์ ์๋ณธ ์ด๋ฏธ์ง๋ฅผ ํ์๋ก ํฉ๋๋ค.
โ ์๋ฅผ ๋ค์ด vgg16์์๋, 16๋ฐฐ ์ค์ธ feature map๋ฅผ ์ฌ์ฉํฉ๋๋ค. ๊ทธ๋ ๋ค๋ฉด ์์ ์ฌ์ง ์ฒ๋ผ 16์ stride๋ฅผ ๊ฐ์ง feature ์ ์ ์ด๋ฏธ์ง์ ์์ฑํฉ๋๋ค. ์ด์ ๊ฐ๊ฐ์ ์์น์์ 9๊ฐ์ anchor boxes๋ฅผ ์ฐพ์ ์ ์์ต๋๋ค.