๐ ๋ณธ ๋ฆฌ๋ทฐ๋ EfficientDet ๋ฐ ๋ฆฌ๋ทฐ๋ฅผ ์ฐธ๊ณ ํด ์์ฑํ์ต๋๋ค.
๐ EfficientNet
๐ BiFPN network
๐ Weighted Feature Fusion
๐ Compound Scaling
โ ์ค๋์ EfficientDet์ ๋ํด ๋ฆฌ๋ทฐํ ์์ ์ ๋๋ค. EfficientDet์ EfficientNet๋ฅผ backbone์ผ๋ก ๋๊ณ ์ฌ์ฉํ๊ธฐ ๋๋ฌธ์, EfficientNet ๋ ผ๋ฌธ ํน์ ์ ๋ฆฌ๋ ๊ธ์ ๋จผ์ ์ฝ์ผ์๊ธธ ์ถ์ฒ๋๋ฆฝ๋๋ค.
โ ์ต๊ทผ ์๋ ๋์ ๋ค์ํ ์ข์ ์ ํ๋๋ฅผ ๊ฐ์ง detection ๋ชจ๋ธ๋ค์ด ๋์์ต๋๋ค. ํ์ง๋ง SOTA dectection model๋ค์ ์ ์ ๋ expensiveํฉ๋๋ค. ์ด๋ ๊ฒ ๋ฌด๊ฑฐ์ด ๋ชจ๋ธ๋ค์ ์์จ ์ฃผํ ๋ฐ ์ค์ task์ ์ ์ฉํ๊ธฐ ์ด๋ ต์ต๋๋ค. ๊ทธ๋ ๊ธฐ์ one-stage๋ก ๊ตฌ์ฑ๋ ๋ค์ํ detection ์ํคํ ์ฒ๋ค์ด ๋ณด์ฌ์ง๊ณ ์์ต๋๋ค. ํ์ง๋ง ์ํคํ ์ฒ๋ค ๋ํ ์ค์ง specific ๋๋ small range of resource๋ฅผ ๊ตฌ์ฑํ๋๋ฐ๋ง ์ง์คํ๋ฉฐ, ์ค์ ์ด๋ค ๋ค์ํ task๋ค์ ๋ํด์๋ ์๊ฐํ์ง ์์ต๋๋ค.
โ ๋ณธ ๋ ผ๋ฌธ์์๋ EfficientDet์ด scalable detection architecture with both higher accuracy and better efficiency across a wide spectrum of resource constraints ํ ๋ชจ๋ธ์ด๋ผ๊ณ ์๊ฐํฉ๋๋ค. EfficientDet์ one-stage detector paradigm์ผ๋ก ๊ธฐ๋ฐ์ผ๋ก ๊ตฌ์ฑ๋์ด ์์ต๋๋ค. ๋ํ ๋ณธ ๋ ผ๋ฌธ์ ๋ ๊ฐ์ง ์ฑ๋ฆฐ์ง์ ๋ํด ์ง์คํ๊ณ ์์ต๋๋ค.
1. efficient multi-scale feature fusion
2. model scaling
โ EfficientDet์ FPN๊ธฐ๋ฐ์ผ๋ก multi-scale feature fusion์ ์งํํฉ๋๋ค. ์ด ๊ณผ์ ์์ ๊ธฐ์กด์ ๋ฐฉ๋ฒ๋ค๊ณผ๋ ๋ค๋ฅธ BiFPN network์ ์๊ฐํฉ๋๋ค. BiFPN๋ ๊ธฐ์กด์ ๋จ์ํ๊ฒ ์ฐ์ฐ๋ feature fusion์์ ๊ฐ ์ด๋ฏธ์ง์ ๋ค๋ฅธ ํด์๋์ ํน์ง์ ๋ฐ์ํ์ง ๋ชปํ๊ธฐ ๋๋ฌธ์, ๊ทธ ๋ถ๋ถ์ ๋ฐ์ํ ๋คํธ์ํฌ๋ผ๊ณ ํฉ๋๋ค.
โ ๋ํ Compound scaling ๋ฐฉ๋ฒ์ ํตํด backbone, feature network, box/class predictions network์ ํด์๋/๊น์ด/์ฑ๋ ์ scaling ํ๋ค๊ณ ํฉ๋๋ค.
โ ์์ ๊ทธ๋ํ์์ ํ์ธํ ์ ์๋ฏ์ด, ์ด์ ์ ๋ฐฉ๋ฒ๋ค๋ณด๋ค ํจ์จ์ ์ด๋ฉด์ ๋์ ์ ํ๋๋ฅผ ๊ธฐ๋กํฉ๋๋ค.
โ ๊ฒฐ๊ณผ์ ์ผ๋ก EfficientDet = EfficientNet(backbone) + BiFPN + compound scaling ์ด๋ผ๊ณ ๋งํ ์ ์์ต๋๋ค.
โ Multi-scale feature fusion์ FPN์ ์์์ผ๋ก ๊ณ์ํด์ ๋ฐ์ ํด์์ต๋๋ค. ์์์ ํ์ธํ๋ฉด ์ด๋ฉฐ, ์ feature level ๋ฅผ ํํํฉ๋๋ค. ๋น์ฐํ๊ฒ๋ ์์ ๋ ผ๋ฌธ์์๋ ์ด๋ค ํจ์ ๋ฅผ ์ฌ์ฉํด ํจ์จ์ ์ธ ์ ์ํฉ๋๋ค.
โ ๊ธฐ์กด์ FPN์ ๊ฒฝ์ฐ์๋ ์์ ์์์ ์ํด์ ์ ์๋ฉ๋๋ค. ์์ ๋ง์๋๋ฆฐ ๊ฒ๊ณผ ๊ฐ์ด ์์๊ฐ์ด feature fusion์ ๋จ์ํ resize๋ฅผ ํตํด sumํ ๊ฒ์ด๋ฏ๋ก ์ด๋ฏธ์ง ํด์๋์ ํน์ง์ ๊ณ ๋ คํ์ง ์์์ต๋๋ค.
โ ๊ธฐ์กด์ FPN์ one-way ์ฆ, ํ ๋ฐฉํฅ์ผ๋ก๋ง ์ ๋ณด๊ฐ ํ๋ฆ ๋๋ค. ๋ฐ๋ฉด PANet(b)์ ๊ฒฝ์ฐ bottom-up path๋ฅผ ์ถ๊ฐํฉ๋๋ค. ๋ํ ์ดํ์๋ NAS-FPN์ด๋ผ๋ Auto-ML์ ์ฌ์ฉํ (c) ๋ฐฉ๋ฒ์ด ์ ์๋์์ต๋๋ค. ์ด ์ค ๋์ผํ ์กฐ๊ฑด์์ PANet์ด ๊ฐ์ฅ ์ข์ ๊ฒฐ๊ณผ๋ฅผ ๋์ถํ์๊ณ , ์ด๋ฅผ ๋ฐํ์ผ๋ก BiFPN์ ์ ์ํฉ๋๋ค.
โ ๋จผ์ ๊ทธ๋ฆผ (d)์์ ํ์ธํ ์ ์๋ฏ์ด ์ฒซ๋ฒ์งธ ๋ ธ๋์ ๋ง์ง๋ง ๋ ธ๋๋ฅผ ์ ๊ฑฐํ ๊ฒ์ ํ์ธํ ์ ์์ต๋๋ค. ์ด์ ๋ ์ง๊ด์ ์ผ๋ก ์์ ๋ ธ๋๋ค์ feature fusion์ด ์ผ์ด๋์ง ์๊ธฐ ๋๋ฌธ์ ๋๋ค. ๋๋ถ์ ๋ชจ๋ธ์ด ๊ฐ๋จํด์ก์ต๋๋ค.
โ ์ถ๊ฐ์ ์ผ๋ก ์๋ input์ output์ ์ถ๊ฐํจ์ผ๋ก์จ ์ถ๊ฐ์ ์ธ feature fuse๊ฐ ์ผ์ด๋ฉ๋๋ค. ๋ง์ cost๊ฐ ๋ค์ด๊ฐ์ง ์๋๋ค๊ณ ํฉ๋๋ค.
โ ๋ง์ง๋ง์ผ๋ก ๊ฐ bidirectional path๋ ํ๋์ feature layer network๋ก์จ ์์ ๊ทธ๋ฆผ๊ณผ ๊ฐ์ด ๋ฐ๋ณตํ๋ ๊ฒ์ ํ์ธํ ์ ์์ต๋๋ค. ๋ฐ๋ณตํจ์ผ๋ก์จ ๋ ์ข์ high-level feature๋ฅผ ๊ตฌํ ์ ์๋ค๊ณ ํฉ๋๋ค.
โ ์์ ๋ง์๋ฏ์ด, ์ด์ ๊น์ง์ feature fushion์ ๊ฐ ํด์๋์ ํน์ง์ ๋ฐ์ํ์ง ๋ชปํ์ต๋๋ค. BiFPN๋ ๊ฐ๊ฐ์ weight๋ฅผ ๊ฐ๊ฐ์ input์ ์ถ๊ฐํฉ๋๋ค. ์ธ ๊ฐ์ง์ ๋ฒ์ ์ด ์กด์ฌํ๋ฉฐ ๊ทธ ์ค ๊ฐ์ฅ ๋น ๋ฅธ Fast normalized fusion๋ฅผ ์ฌ์ฉํ๋ค๊ณ ํฉ๋๋ค.
โ ๋จผ์ Unbound fusion์ bound๊ฐ ์๊ธฐ ๋๋ฌธ์ ๋ชจ๋ธ์ด ๋ถ์์ ํ ์ ์๋ค๊ณ ํฉ๋๋ค. ๋ํ ์์ ๋ scala, vector, tensor ๋ชจ๋ ๊ฐ๋ฅํ๋ค๊ณ ํ์ง๋ง ์ด ์ค scala์ด ๊ฐ์ฅ ์ ์ cost๊ฐ ์ฌ์ฉ๋์ด ์ฌ์ฉํ๋ค๊ณ ํฉ๋๋ค.
โ Softmax๋ฅผ ํ์ฉํด ์ฌ์ฉํ์ง๋ง ์์ ๋ฐฉ๋ฒ์ GPU๋ฅผ ๋๋ฆฌ๊ฒํ๋ ์์ธ์ด ๋๋ค๊ณ ํฉ๋๋ค.
โ ๋ฐ๋ผ์ ์์ Fast normalizaed fusion์ ์ฌ์ฉํ๋ค๊ณ ํฉ๋๋ค. ์ด๋ exp์ฐ์ฐ์ด ๋ค์ด๊ฐ์ง ์์ผ๋ฉฐ, Softmax ๋ฐฉ๋ฒ๊ณผ ๋น์ทํ์ง๋ง 30% ๋ ๋น ๋ฅด๋ค๊ณ ํฉ๋๋ค. ๋ํ ๋ 0๋ณด๋ค ํฌ๊ฑฐ๋ ์์ผ๋ฉฐ, ์ด๋ ์ด์ ์ ReLU ํจ์๋ฅผ ํต๊ณผํด ์ฑ๋ฆฝ๋ ์ ์์ต๋๋ค. = 0.0001์ด๋ฉฐ ์ด๋ ์์ ๊ฐ์ ์ฐ์ฐ์ ๋ฐฉ์งํ๊ธฐ ์ํ ๊ฐ์ ๋๋ค.
โ BiFPN์ ๋ํ ์์์ ๋ณด์ฌ์ฃผ๊ณ ์์ต๋๋ค. Level 6์ ๋ํ ์์์ด๋ฉฐ ๊ทธ๋ํ (d)์ ๋น๊ตํ๋ค๋ฉด ์ฝ๊ฒ ์ดํดํ ์ ์์ต๋๋ค.
โ ๋ํ ํจ์จ์ ๋์ด๊ธฐ ์ํด, feature fusion์์ depthwise separable convolution์ batch normalization ๊ทธ๋ฆฌ๊ณ activation์ ๊ฐ๊ฐ์ conv ๋ค์ ์ถ๊ฐํ๋ค๊ณ ํฉ๋๋ค.
โ ์ด๋ฒ ์ฑํฐ์์๋ network architecture์ new compound scaling์ ๋ํด ์๊ฐํฉ๋๋ค. (new compound scaling๋ detection task ๋ง์ถค compound scaling ๋ผ๊ณ ์๊ฐํ๋ฉด ๋ฉ๋๋ค.)
โ ๋ณธ ์ณ ํฐ๋ฅผ ๋ค๋ฃจ๊ธฐ์ ์์, EfficientNet์ ๋ํด ๊ฐ๋จํ๊ฒ ์ค๋ช ํด๋ณด๋๋ก ํ๊ฒ ์ต๋๋ค.
โ EfficientNet์์ ์ ์ํ๋ Compound Scaling์ ๊ฐ๋จํ๊ฒ resoultion /depth/width(channel) ๋ชจ๋ ์ ๋นํ ๋น์จ๋ก ํค์ฐ๋ฉด ์ข์ ๊ฒฐ๊ณผ๋ฅผ ์ป์ ์ ์๋ค๊ณ ์ ์ํฉ๋๋ค.
โ ๊ฐ๊ฐ์ ๊ฐ์ ์ด 2์ ๊ฐ๊น๊ฒ ์ง์ ํ๊ณ , ์ ๊ฐ์ ์กฐ์ ํ๋ค๊ณ ํฉ๋๋ค. ๊ฐ๊ฐ์ ์กฐ์ ํจ์ผ๋ก์จ B0 ~ B7๊น์ง ์คํํ๋ค๊ณ ํฉ๋๋ค.
โ ์์ ๊ฐ์ ๊ณผ์ ์ผ๋ก ์งํํ๋ค๊ณ ํฉ๋๋ค.
โ ๋ํ EfficientNet-B0 baseline network๋ ์์ ๊ฐ์ด ๊ตฌ์ฑ๋์ด์์ผ๋ฉฐ
MBConv์ ์ฌ์ฉํฉ๋๋ค.
โ MBConv์ MobileNet์์ ์ ์๋ ๋ฐฉ๋ฒ์ด๋ฉฐ, Depthwise Conv์ Squeeze & excitation(SE)๋ฅผ ์ฌ์ฉํ ๋คํธ์ํฌ ์ ๋๋ค.
โ EfficientDet์ one-stage detector์ด๋ฉฐ, backbone์ผ๋ก๋ ImageNet์ผ๋ก pretrained๋ EfficientNet์ ์ฌ์ฉํ์ต๋๋ค.
โ BiFPN์ {, , , , } feature network๋ฅผ ๋ฐ๋ณตํด์ ์ฌ์ฉํ๋ค๊ณ ํฉ๋๋ค. ์ดํ class and box network๋ฅผ ํ์ตํฉ๋๋ค.
โ ์ ์ฒด์ ์ธ network ๊ณผ์ ์ ์์ ์ฌ์ง์ผ๋ก ์ฝ๊ฒ ํ์ธํ ์ ์์ต๋๋ค.
โ ๋ณธ EfficientDet์์ ์ค์ํ ์ฑ๋ฆฐ์ง ์ค ํ๋๋ ์ด๋ป๊ฒ scail up ํ ๊ฒ์ด๋ ์ ๋๋ค. ๊ธฐ์กด์ EfficientNet์ ๋ณด๋ค ๋ ๋ง์ scaling dimensions์ ํด์ผํ๊ธฐ ๋๋ฌธ์ ์๋ก์ด Compound Scaling์ ์ ์ํฉ๋๋ค. ๊ฐ๋จํ ๋ณตํฉ ๊ณ์ ๋ฅผ ์ฌ์ฉํด backbone, BiFPN, class/box network ๋ฐ ํด์๋์ ๋ชจ๋ ์น์๋ฅผ ๊ณต๋์ผ๋ก ์ค์ผ์ผ์ ํ๋ new Compound Scaling์ ์ ์ํฉ๋๋ค.
๐ Backbone network
โ Backbone์์๋ EfficientNet์ ๋ฐฉ๋ฒ์ ๊ทธ๋๋ ์ฌ์ฉํ๋ค๊ณ ํฉ๋๋ค. ๋จ, width/depth์ ๋ํด์๋ง ๊ฐ์ ๊ณ์๋ฅผ ์ ์ฉํฉ๋๋ค.
๐ BiFPN network
โ BiFPN์ (#layers) ์ ์ฐจ์ ์ผ๋ก ์ฆ๊ฐ์ํค๋ฉฐ, ์์ ์ ์์ด์ด์ผ ํฉ๋๋ค. (#channels)๋ ๊ธฐํ ๊ธ์์ ์ผ๋ก ์ฆ๊ฐํ๋ฉฐ ์ด๋ EfficientNet ๊ณผ ๋น์ทํฉ๋๋ค. ๊ทธ๋ฆฌ๊ณ grid search๋ฅผ ์ฌ์ฉํด width์ ์ต์ ์ ๊ณ์๋ 1.35๋ฅผ ์ฐพ์๋ค๊ณ ํฉ๋๋ค.
๐ Box/class prediction network
โ BiFPN๊ณผ ๊ฑฐ์ ๋น์ทํ๋ฉฐ Depth์ ๊ฒฝ์ฐ์๋ง ์์ ์์ ์ ์ฉํ๋ค๊ณ ํฉ๋๋ค.
๐ Input image resolution
โ ์ด๋ฏธ์ง ํด์๋๋ ๊ธฐ์กด์ Backbone network ๋ฐฉ๋ฒ๊ณผ ์กฐ๊ธ ๋ค๋ฅด๊ฒ ์งํ๋ฉ๋๋ค. BiFPN์์ fusion feature(level 3-7) ๋๊ธฐ ๋๋ฌธ์ ๋ฌด์กฐ๊ฑด ์ผ๋ก ๋๋ ์ค์ผ ํฉ๋๋ค.
โ ์ด๋ฒ ์ณ ํฐ์์ ๋ detection task์ ๋ํ ์คํ๊ฒฐ๊ณผ๋ฅผ ์๊ฐํด ๋๋ฆฌ๋๋ก ํ๊ฒ ์ต๋๋ค.
โ ๊ธฐ๋ณธ์ ์ผ๋ก D0 ~ D7๊น์ง๋ ์์ ํ๋ฅผ ํ์ธํ์๋ฉด ๋๊ฒ ์ต๋๋ค.
โ ๊ฐ๊ฐ์ D0 ~ D7๊น์ง ๋น์ทํ ๋ชจ๋ธ๋ค๊ณผ ๋น๊ตํ๋ ๊ฒ์ ๋ณผ ์ ์์ต๋๋ค. ๋๋ถ๋ถ์ ๊ฒฐ๊ณผ์์ EfficientDet์ด ์ข์ ์ ํ๋์ ํจ์จ์ฑ ๋ฐ ์ฐ์ฐ์๋ ๋ฑ๋ฑ ๋ณด์ฌ์ฃผ๊ณ ์์ต๋๋ค.
โ EfficientDet์ inference๋ฅผ ๋ค๋ฅธ ๋ชจ๋ธ๋ค๊ณผ ๋น๊ตํ๋ ๊ทธ๋ํ์ ๋๋ค. ๊ทธ๋ํ์์ ๋ณผ ์ ์๋ฏ์ด ๊ธฐ์กด์ ๋ค๋ฅธ ๋ชจ๋ธ๋ณด๋ค ๋์ฑ ์ ํํ๊ณ ๋์ ํจ์จ์ฑ์ ๋ณด์ฌ์ค๋๋ค.
๐ ์ค๋์ EfficientDet์ ๋ฆฌ๋ทฐํด๋ดค์ต๋๋ค. ๋ณธ ๋ ผ๋ฌธ์์ ์ ์ํ ๋ฐฉ๋ฒ๋ค์ ๋งค์ฐ ์ข์ ์ฑ๋ฅ๊ณผ ํจ์จ์ฑ์ ๋ณด์ฌ์คฌ์ต๋๋ค.