Original Paper (Arxiv) : ResNet (https://arxiv.org/pdf/1512.03385)
๐ฅBackground
VGGNet
- ๋งค์ฐ ์์ ํํฐ๋ฅผ ์ฌ์ฉํจ์ผ๋ก์จ ํ๋ผ๋ฏธํฐ ๊ฐ์๊ฐ ๊ฐ์ํ๊ณ , ๋น์ ํ์ฑ์ด ์ฆ๊ฐํ์ฌ ๋ ๋ณต์กํ ํจํด๋ ํ์ตํ ์ ์์.
- ์ ํ ๋ชจ๋ธ๋ค๋ณด๋ค ์ธต์ ๋งค์ฐ ๊น๊ฒ ์์์ผ๋ก์จ ์ฑ๋ฅ ํฅ์์ ํ์ธํ์.
etc.
- ์ ์ ์ค ํ ์ฌ๋์ธ Kaiming He๊ฐ He ์ด๊ธฐ๊ฐ์ ์ ์ํ ๊ทธ He์.
๐Paper Review
๐จํด๋น ๋
ผ๋ฌธ์ Introduction์ ํต์ฌ ๊ฐ๋
์ ๋ชจ๋ ์ค๋ช
ํ๊ณ ์ดํ ๋ณธ๋ก ์์๋ ์คํ ๊ฒฐ๊ณผ๋ฅผ ์์ฃผ๋ก ์ฆ๋ช
ํ๋ ๋ฐฉ์์ผ๋ก ์ ๊ฐ๋ฉ๋๋ค. ๋ฐ๋ผ์ 1 Introduction ๋ถ๋ถ์ ๋ง์ ๋ด์ฉ์ด ๋์๋ ๋นํฉํ์ง ๋ง์๊ณ ์ฒ์ฒํ ์ฝ์ผ์๊ธธ ๋ฐ๋๋๋ค.๐จ
0 Abstract
- ๊น์ ์ ๊ฒฝ๋ง์ ํ์ตํ๊ธฐ ์ด๋ ต๊ธฐ์ ์ด์ ๊น์ง๋ณด๋ค ๋ ๊น์ ์ ๊ฒฝ๋ง์ ์ฝ๊ฒ ํ์ต์ํค๊ธฐ ์ํด Residual Learning Framework๋ฅผ ์ ์ํจ.
- VGGnet๋ณด๋ค 8๋ฐฐ ๊น์ 152๊ฐ ์ธต์ ์ ๊ฒฝ๋ง์ ๋ํด ์ฐ๊ตฌํจ. ์ด๋ ํด๋น ๋คํธ์ํฌ์ ๋ณต์ก๋๋ ์คํ๋ ค ์ด์ ๋ณด๋ค ๋ฎ์.
- ImageNet ๋ฐ์ดํฐ์
์ ๋ํ์ฌ 3.57%์ ์ค์ฐจ๋ฅผ ๊ธฐ๋กํ๋ฉฐ ILSVRC 2015 ์์ 1์๋ฅผ ์ฐจ์งํจ.
- COCO ๋ฐ์ดํฐ์
์์๋ 28%์ ์ฑ๋ฅ ํฅ์์ ์ด๋์๊ณ , COCO 2015 ์์ 1์๋ฅผ ์ฐจ์งํจ.
- ๋๋ถ์ด, ImageNet detection, ImageNet localization, COCO detection, COCO segmentation ์์๋ 1์๋ฅผ ์ฐจ์งํจ.
- ImageNet detection : ์ฌ๋ฌ ๊ฐ ์ ๊ฐ์ฒด ๊ฒ์ถ
- ImageNet Localization : ํ๋ ์ ์ฃผ์ ๊ฐ์ฒด์ ์์น์ ํด๋์ค ์์ธก
- COCO detection : ๊ฐ์ฒด๋ฅผ bounding box๋ก ๊ฐ์ธ๋ ๋ฐฉ์
- COCO segmentation : ๊ฐ์ฒด์ ์ค๊ณฝ์ ์ ์ ํํ๊ฒ ๋ฐ๋ผ๊ฐ๋ฉด์ ํฝ์
๋จ์๋ก ๋ถํ
1 Introduction
- ์ต๊ทผ ์ฐ๊ตฌ๋ค์ ํตํด ๋คํธ์ํฌ์ ๊น์ด๊ฐ ๋งค์ฐ ์ค์ํ๋ค๋ ๊ฒ์ ์์๋์.
- ImageNet ๋ฐ์ดํฐ์
์์ 16~30๊ฐ์ ๊น์ ์ ๊ฒฝ๋ง ๋ชจ๋ธ์ด ์ข์ ์ฑ๋ฅ์ ๋ณด์๊ณ , ์ด์ธ ๋ณต์กํ ์ด๋ฏธ์ง ๋ฐ์ดํฐ์
์ ๋ํด์๋ ๊ฐ์ ์์์ ๋ณด์.
โ๊ทธ๋ฐ๋ฐ ์ ๊ฒฝ๋ง์ ์ฑ๋ฅ์ ๋์ด๊ธฐ ์ํด ๋จ์ํ ๋ ์ด์ด ์๋ฅผ ๋๋ฆฌ๋ ๊ฒ๋ง์ผ๋ก ์ถฉ๋ถํ๊ฐ?
1-1 Two Problems due to deep layers
1. ๊ธฐ์ธ๊ธฐ ์์ค/๋ฐ์ฐ ๋ฌธ์ โ ํด๊ฒฐ ๊ฐ๋ฅ!
- ๋คํธ์ํฌ๊ฐ ๊น์ด์ง์๋ก ๊ธฐ์ธ๊ธฐ๊ฐ ์์ค๋๊ฑฐ๋ ๋ฐ์ฐ๋์ด ์๋ ด์ ๋ฐฉํดํ๊ณ , ์ด๋ก ์ธํด ๋ชจ๋ธ์ด ์ ๋๋ก ํ์ตํ์ง ๋ชปํ๊ฒ ๋จ.
- ๊ฐ์ค์น ์ด๊ธฐํ, Batch Normalization ๋ฑ์ ์ ๊ทํ ๊ธฐ๋ฒ์ ํตํด ๊น์ ๋คํธ์ํฌ๋ SGD์ ์ญ์ ํ๋ฅผ ํตํด ์๋ ด ๊ฐ๋ฅํจ.
2. ๊น์ด์ ๋ฐ๋ฅธ ์ฑ๋ฅ ์ ํ ๋ฌธ์ โ ResNet ๋ฑ์ฅ ๋ฐฐ๊ฒฝ
- ์๋ ์ด๋ก ์ ์ผ๋ก, ๊น์ ๋คํธ์ํฌ๋ ์์ ๋คํธ์ํฌ๋ณด๋ค ๋ ๋์ ์ฑ๋ฅ์ ๊ฐ์ง ์ด์ ๊ฐ ์์. ์๋ํ๋ฉด ๊น์ ๋คํธ์ํฌ๋ ์์ ๋คํธ์ํฌ์ ๊ฐ์ค์น๋ฅผ ๋ณต์ฌํ๊ณ , ์ถ๊ฐ๋ ์ธต์ ํญ๋ฑ ๋งคํ์ผ๋ก ์ค์ ํ๋ฉด ๋์ผํ ์ฑ๋ฅ์ ๊ฐ์ ธ์ผ ํ๊ธฐ ๋๋ฌธ์.
- ํ์ง๋ง, ์ค์ ์คํ์์๋ ๊ธฐ์กด์ ์ต์ ํ ๋ฐฉ๋ฒ(SGD ๋ฑ)์ด ์ด๋ฌํ ์ด์์ ์ธ ํด๋ฅผ ์ฐพ์ง ๋ชปํ๊ณ , ๊น์ ๋คํธ์ํฌ๊ฐ ํ์ต ์ค๋ฅ๊ฐ ๋ ๋์์ง๋ degradation ์ด ๋ฐ์ํจ.
๋จ์ํ ์ธต์ ๋ ์ถ๊ฐํ๋ ๊ฒ์ด ํญ์ ์ต์ ์ ๋ฐฉ๋ฒ์ด ์๋๋ฉฐ, ํจ๊ณผ์ ์ธ ํ์ต์ด ๊ฐ๋ฅํ๋๋ก ์๋ก์ด ๊ตฌ์กฐ๊ฐ ํ์ํจ.
โ !!ResNet์ ๋ฑ์ฅ ๋ฐฐ๊ฒฝ!!
1-2 Solving process ; Deep Residual Learning framework
์ผ๋ฐ์ ์ธ ์ ๊ฒฝ๋ง : ๊น์ ์ธต์ด ์ํ๋ ํจ์๋ฅผ ์ง์ ํ์ตํ๋๋ก ํจ.
- ๊ธฐ๋ณธ CNN ํน์ MLP์์๋ ์ ๊ฒฝ๋ง์ด ์
๋ ฅ x๋ก๋ถํฐ ์ง์ y๋ฅผ ์์ธกํ๋ ํจ์ H(x)๋ฅผ ํ์ตํจ.
- ๋ฌธ์ ๋ ์ธต์ด ๊น์ด์ง์๋ก ์ํ๋ ํจ์๋ฅผ ์ง์ ํ์ตํ๋ ค๊ณ ํ๋ฉด ๊ธฐ์ธ๊ธฐ ์์ค๊ณผ ์ต์ ํ ๋์ด๋ ์ฆ๊ฐ ๋ฑ์ ์ด์ ๋ก ํ์ต์ด ๋นํจ์จ์ ์.
ResNet์์๋ ์
๋ ฅ๊ณผ ์ถ๋ ฅ ๊ฐ์ ์ฐจ์ด์ธ ์์ฐจ๋ฅผ ํ์ตํ๋๋ก ํจ.
- H(x) : ์ํ๋ ํจ์ (์ถ๋ ฅ๋๋ ์์ธก๊ฐ)
- F(x)=H(x)โx : ์ถ๋ ฅ๊ฐ โ ์์ธก๊ฐ
โ H(x)=F(x)+x
์์ฐจ ํจ์๋ฅผ ์ต์ ํํ๋ ๊ฒ์ด ์ํ๋ ํจ์๋ฅผ ์ต์ ํํ๋ ๊ฒ๋ณด๋ค ์์ํจ. ๊ทน๋จ์ ์ธ ์์๋ฅผ ๋ค์๋ฉด,
- H(x)=x, ์ฆ H(x)=ํญ๋ฑํจ์
- F(x)=0
๊ฒ์ผ๋ก ๋ดค์ ๋๋ ๋งค์ฐ ์ฌ์ด ์์์ด๊ธฐ์ ์ ๊ตณ์ด ์์ฐจ๋ฅผ ํ์ตํ๋ ์ถ์ ์๊ฐ์ด ๋ค ์๋ ์์ง๋ง, ๊น์ ๋คํธ์ํฌ๋ ์ด๋ ๊ฒ ๋จ์ํ ํญ๋ฑ ๋งคํ๋ ํ์ตํ๊ธฐ ์ด๋ ค์.
๋ฐ๋ผ์ ํญ๋ฑํจ์์ธ H(x)๋ฅผ ์ง์ ํ์ตํ๋ ๊ฒ์ด ์๋๋ผ x๋ฅผ ๊ทธ๋๋ก ์ถ๋ ฅํ ์ ์๋๋ก, ์ฆ ์ถ๋ ฅ๊ณผ ์
๋ ฅ์ ์์ฐจ๊ฐ 0์ด ๋๋๋ก F(x)=0์ ํ์ตํ๋ ๊ฒ์ด ํจ์ฌ ์ฌ์ด ๋ฐฉ๋ฒ์.
| F(x)+x ๊ตฌํ ๋ฐฉ๋ฒ |
-
F(x)๋ ์
๋ ฅ๊ณผ ์ถ๋ ฅ์ ์์ฐจ๋ก ๊ตฌํ ์ ์์ผ๋ฏ๋ก ํฌ์ธํธ๋ x๋ฅผ ์ด๋ป๊ฒ ๊ทธ๋๋ก ์ ๋ฌํ๋๊ฐ์.
-
"์์ปท ์ฐ๊ฒฐ(shortcut connections)"๋ฅผ ๊ฐ๊ณ ์๋ ํผ๋ํฌ์ํธ ์ ๊ฒฝ๋ง์ ํตํด ๊ตฌํํ ์ ์์.
(โป์์ปท ์ฐ๊ฒฐ์ด๋ ํ๋ ์ด์์ ์ธต์ ํต๊ณผ(skip)ํ๋ ๊ฒ์ ์๋ฏธํจ.)
-
ํด๋น ๋
ผ๋ฌธ์์๋ x๋ฅผ ๊ทธ๋๋ก ์ ๋ฌํ ์ ์๋ ํญ๋ฑํจ์์.
-
ํญ๋ฑ ์์ปท ์ฐ๊ฒฐ์ ์ถ๊ฐ์ ์ธ ๊ฐ์ค์น๋ ๋ณต์กํ ์ฐ์ฐ์ ํ์๋ก ํ์ง ์์.
-
ํด๋น ๊ตฌ์กฐ๋ฅผ ๋์
ํด๋ ์ฌ์ ํ SGD์ ์ญ์ ํ๋ฅผ ์ฌ์ฉํ๋ ๋ฑ ๊ธฐ์กด์ ๋ผ์ด๋ธ๋ฌ๋ฆฌ์์ ์ฝ๊ฒ ๊ตฌํ ๊ฐ๋ฅํจ.
<๊ทธ๋ฆผ2>
์ ๊ฒฝ๋ง์ ์์ฐจ๋ฅผ ํ์ตํ๋ฉฐ, ํญ๋ฑ ์์ปท ์ฐ๊ฒฐ์ ํตํด ์
๋ ฅ๊ฐ์ ์ถ๋ ฅ์ ๊ทธ๋๋ก ์ ๋ฌ (๋
ผ๋ฌธ๋ฐ์ท)
1.3 Evaluation - ImageNet, CIFAR-10, COCO
1. ImageNet
- ๋จ์ํ ๊น๊ฒ ์๊ธฐ๋ง ํ ์ ๊ฒฝ๋ง๋ณด๋ค ์์ฐจ ํ์ต ๊ตฌ์กฐ๋ก ๋ณํํ์ฌ ๊น๊ฒ ์๋ ๊ฒ์ด ์ต์ ํํ๊ธฐ์ ํจ์ฌ ์์ํ๊ณ ์ฑ๋ฅ๋ ์ข์.
- ์์ฐจ๋ฅผ ํ์ตํ๋ ์ ๊ฒฝ๋ง์ ์ธต์ด ๊น์ด์ง์๋ก ์ ํ๋๊ฐ ๋์ด๋จ. (์ ํ๋ ํฌํ ๋ฐ ์ฑ๋ฅ ์ ํ ๋ฌธ์ ํด๊ฒฐ)
- 152-layer residual net์ผ๋ก top-5 error์์ 3.57%๋ฅผ ๊ธฐ๋กํ๋ฉฐ ILSVRC 2015์์ 1์๋ฅผ ๋ฌ์ฑํจ.
2. CIFAR-10 set
- 100์ธต ์ด์์ ์ ๊ฒฝ๋ง์ ์ฑ๊ณต์ ์ผ๋ก ํ์ตํ์.
- 1000์ธต ์ด์์ ๋ชจ๋ธ๋ ์คํํจ.
3. COCO
- ๋ง์ฐฌ๊ฐ์ง๋ก ์ข์ ์ฑ๋ฅ์ ๋ณด์ฌ COCO 2015์์ 1์๋ฅผ ๋ฌ์ฑํจ.
2.1 Residual Representations
| ์ด๋ฏธ์ง ์ธ์ |
- VLAD : ์์ฐจ ๋ฒกํฐ ๋ฅผ ์ฌ์ฉํ์ฌ ํน์ง ํํ
- ์ด๋ฏธ์ง์ ๋ค์ํ ์ง์ญ์์ ์ถ์ถํ ํน์ง์ ์ ๋ฒกํฐํํ ๊ฒ์ ๊ธฐ๋ฐ์ผ๋ก VLAD ํํ ์์ฑ
- ํน์ง์ ๋ค์ K๊ฐ์ ํด๋ฌ์คํฐ๋ก ๋ถ๋ฅํ์ฌ ๊ฐ ํน์ง์ ์ด ๊ฐ์ฅ ๊ฐ๊น์ด ํด๋ฌ์คํฐ(์๊ฐ์ ๋จ์ด)์ ํ ๋น๋จ. ์ด๋, ๊ฐ ํน์ง์ ์ด ์ํ ํด๋ฌ์คํฐ ์ค์ฌ๊ณผ์ ์ฐจ์ด๋ฅผ ๋ฒกํฐ๋ก ์ ์ฅํ์ฌ "ํน์ง์ ์ด ํด๋ฌ์คํฐ์ ์ค์ฌ์์ ์ผ๋ง๋ ๋ฒ์ด๋ ์๋์ง"๋ฅผ ๋ฐ์ํจ.
- Fisher Vector : VLAD์ ํ๋ฅ ์ ํ์ฅ ๋ฒ์
- K-means๊ฐ ์๋ GMM์ ๊ธฐ๋ฐ์ผ๋ก ๊ณ์ฐ๋จ.
- GMM์ ์๋ฆฌ๋ฅผ ๊ณ ๋ คํ์ฌ ํน์ง ๋ฒกํฐ๋ค์ด ๊ฐ ํด๋ฌ์คํฐ์ ํ ๋น๋๋ ๊ฒ์ด ์๋๋ผ ํด๋ฌ์คํฐ ๋ด์ ํ๋ฅ ์ ์ผ๋ก ๋ถํฌํ๋ค๊ณ ๊ฐ์ ํจ.
- "๊ฐ์ฅ ๊ฐ๊น์ด ํด๋ฌ์คํฐ ์ค์ฌ๊ณผ์ ์ฐจ์ด"๋ง ๊ธฐ๋กํ๋ ๊ฒ์ด ์๋๋ผ, ๊ฐ์ฐ์์ ๋ถํฌ๋ฅผ ์ด์ฉํ์ฌ ํน์ง ๋ฒกํฐ์ ๋ณํ ์์์ ํํํ๊ธฐ ๋๋ฌธ์ ํ๊ท ๋ฟ๋ง ์๋๋ผ ๋ถ์ฐ ์ ๋ณด๊น์ง ํฌํจํ์ฌ ๋์ฑ ํ๋ถํ ํน์ง์ ํ์ตํ ์ ์์.
- ๋น์ ํ์ ์ด๋ฉฐ ๋์ฑ ์ ๊ตํ ํน์ง ํํ์ด ๊ฐ๋ฅํด์ง.
- ๋๊ท๋ชจ ์ด๋ฏธ์ง ๊ฒ์ ๋ฐ ๋ถ๋ฅ์์ ๋งค์ฐ ํจ๊ณผ์ ์
| ํธ๋ฏธ๋ถ๋ฐฉ์ ์(PDE)๋ฅผ ํ๊ธฐ ์ํ ๋ฐฉ๋ฒ |
- ๋ค์ค ๊ฒฉ์ ๋ฐฉ๋ฒ (Multigrid Method)
- ์ด๋ฏธ์ง๋ฅผ ์์ฐจ ๊ธฐ๋ฐ์ผ๋ก ๋ถํ ํ์ฌ ์ ์ฐจ์(๋ฎ์ ํด์๋)์์ ํด๋ฅผ ๊ตฌํ ๋ค, ํด์๋๋ฅผ ์ ์ง์ ์ผ๋ก ๋ณด์ ํจ์ผ๋ก ์ต์ ํ ๊ณผ์ ์ ํจ์จ์ ์ผ๋ก ์ํํจ.
- ResNet์ด ์์ฐจ๋ฅผ ํ์ตํ๋ ๊ฒ๊ณผ ๋น์ทํ ์์
- ๊ณ์ธต์ ๊ธฐ์ ์ ์ฒ๋ฆฌ (hierarchical Basis Preconditioning)
- ๋ค์ค ๊ฒฉ์ ๋ฐฉ๋ฒ์ ๋์์ผ๋ก, ๋ค์ค ์ค์ผ์ผ์์ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ ๋, ๊ฐ ์ค์ผ์ผ ๊ฐ์ ์์ฐจ ๋ฒกํฐ๋ฅผ ํ์ฉํจ.
โ ์ด๋ ๋ฏ ์์ฐจ๋ฅผ ์ด์ฉํ๋ฉด ๋ถํ์ํ ๊ณ์ฐ์ ์ค์ด๊ณ ์ต์ ํ ๋ฌธ์ ๋ฅผ ๋ ์ฝ๊ฒ ํด๊ฒฐํ ์ ์์.
2.2 Shortcut Connections
1. MLP(๋ค์ธต ํผ์
ํธ๋ก )์์ "์
๋ ฅ โ ์ถ๋ ฅ"์ ์ง์ ์ฐ๊ฒฐํ๋ ์ ํ ๋ ์ด์ด ์ถ๊ฐ์ ๋ํ ์ฐ๊ตฌ
2. ๋ณด์กฐ ๋ถ๋ฅ๊ธฐ(auxiliary classifier)
- ๋ช๋ช ์ค๊ฐ ๊ณ์ธต์ ๊ธฐ์ธ๊ธฐ ์์ค ๋ฐ ํญ๋ฐ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ๋ณด์กฐ ๋ถ๋ฅ๊ธฐ์ ์ง์ ์ฐ๊ฒฐ๋๊ธฐ๋ ํ์.
- GoogleNet์์ ์ฌ์ฉ๋จ.
3. Inception ๋คํธ์ํฌ
- ๊น์ ๋คํธ์ํฌ๋ฅผ ํจ์จ์ ์ผ๋ก ํ์ตํ๊ธฐ ์ํด, ์์ปท ์ฐ๊ฒฐ์ ํฌํจํ ๋ค์ํ ๊ฒฝ๋ก๋ฅผ ์ฌ์ฉ
- GoogleNet์ Inception ๋ชจ๋์์๋ ์์ ๊ฒฝ๋ก์ ๊น์ ๊ฒฝ๋ก๋ฅผ ํจ๊ป ์ฌ์ฉํ์ฌ ํน์ง์ ์ถ์ถ
4. highway networks (์์ปท ์ฐ๊ฒฐ + ๊ฒ์ดํธ ๊ธฐ๋ฅ)
3 Deep Residual Learning
3.1 Residual Learning
- H(x) : ์ํ๋ ํจ์ (์ถ๋ ฅ๋๋ ์์ธก๊ฐ)
- F(x)=H(x)โx : ์ถ๋ ฅ๊ฐ โ ์์ธก๊ฐ
โ H(x)=F(x)+x
- ์ฌ๋ฌ ๊ฐ์ ๋น์ ํ ์ธต์ด ๋ณต์กํ ํจ์๋ฅผ ์ ๊ทผ์ ์ผ๋ก ์ถ์ ํ ์ ์๋ค๋ ๊ฒ์ ์์ฐจ ํจ์ ์ญ์ ์ถ์ ํ ์ ์์์ ์๋ฏธํจ.
- ๋ฐ๋ผ์ ํด๋น ๋
ผ๋ฌธ์์๋ ํ์ต์ ํธ์ด๋ฅผ ์ํด ๋คํธ์ํฌ๊ฐ F(x)=H(x)โx๋ฅผ ์ถ์ ํ๋๋ก ํจ.
- ์ค์ ์์๋ Introduction ์์ ์ ์ํ ์์์ ๊ฐ์ด H(x)๊ฐ ํญ๋ฑํจ์์ผ ๊ฐ๋ฅ์ฑ์ ๋ฎ์ง๋ง, ๊ทธ์ ๋น์ทํ ํจ์๋ผ๋ฉด F(x)๋ฅผ ํตํด ์์ฃผ ์์ ๋ณํ๋ง ํ์ตํ๋ฉด ๋๋๊น ์ฌ์ ํ ํจ๊ณผ์ ์.
- ์คํ ๊ฒฐ๊ณผ, ํ์ต๋ ์์ฐจ ํจ์F(x)์ ์ถ๋ ฅ๊ฐ์ด ์์ ๊ฒ์ผ๋ก ๋ณด์ H(x)=x์ ๊ฐ๊น์ ์์ ์๋ฏธํจ. ์ด๋ ํญ๋ฑ๋งคํ์ด ์ข์ ์ด๊ธฐ๊ฐ ์ญํ ์ ํ๋ค๋ ๊ฒ์ ์์ฌํจ.
3.2 Identity Mapping by Shortcuts
y=F(x,Wiโ)+x โ - (1)
- x : ์
๋ ฅ ๋ฒกํฐ
- y : ์ถ๋ ฅ ๋ฒกํฐ
- F(x,Wiโ) : ์์ฐจ ํจ์
- ๊ฐ์ค์น ํน์ ๋ณต์กํ ์ฐ์ฐ์ด ์๋ค๋ ๊ฒ์ ์ค์ ์ ์ฉ ์, ํ๋ฌ์ค๊ฐ ๋๋ ์ข์ ์์์ธ ๋์์ ๊ธฐ์กด์ plain ๋คํธ์ํฌ์ ๊ฐ์ ์กฐ๊ฑด์์ ์ฑ๋ฅ์ ๋น๊ตํ ๋๋ ์ค์ํ ์ญํ ์ ํจ.
ํ๋ ฌ ์ฐ์ฐ์ ์ํด F์ x์ ์ฐจ์์ ๋ฐ๋์ ๋์ผํด์ผ ํจ! ์ฆ, ์
๋ ฅ๊ณผ ์ถ๋ ฅ์ ์ฑ๋ ๊ฐ์๊ฐ ๊ฐ์์ผ ํจ. ๋ง์ฝ ์ฑ๋ ๊ฐ์ ์ฆ๊ฐ ๋ฑ์ ์ด์ ๋ก ๋์ ์ฐจ์์ด ๋ฌ๋ผ์ง๋ค๋ฉด ๋ค์ (2)์์ ํตํด ์กฐ์ ํด์ผํจ.
y=F(x,Wiโ)+Wsโx โ - (2)
- Wsโ๋ Conv 1x1 ์ฐ์ฐ์ ์ํํ๋ ์ ํ ๋ณํ ํ๋ ฌ๋ก, ์ฑ๋ ์๋ฅผ ์กฐ์ ํด์ฃผ๋ ์ญํ ์ ํจ.
- ํด๋น ์(2)๋ ํ๋ ฌ์ ์ฐจ์์ด ๋ค๋ฅธ ๊ฒฝ์ฐ์๋ง ์ฌ์ฉํจ. ์ด์ธ์ ๊ฒฝ์ฐ์๋ ์์ ์ ์ํ ์(1)์ ํ์ฉํจ.
์์ฐจ ํจ์ F์ ํํ๋ ์ ์ฐํ๊ธฐ์ 2๊ฐ ํน์ ๊ทธ ์ด์์ ์ธต์ ๊ฐ์ง ์ ์์. ๋ค๋ง, 1๊ฐ์ ์ธต์ผ๋ก๋ง ์ด๋ฃจ์ด์ ธ ์๋ค๋ฉด, ์(1)์ y=W1โx+x ์ ๊ฐ์ ์ ํ์์ ๊ฐ๊น์์ง๊ณ , ์ด๋ ์ด๋ ํ ์ฅ์ ๋ ์ง๋์ง ์๊ธฐ์ ์ถ์ฒํ์ง ์์.
| ์์ |
<๊ทธ๋ฆผ2>์์์ฒ๋ผ 2๊ฐ์ ์ธต์ด ์๋ ๊ฒฝ์ฐ, ์์ ๋ค์๊ณผ ๊ฐ์.
F=W2โฯ(W1โx)
- ฯ๋ ReLUํจ์๋ฅผ ์๋ฏธํจ.
- ํธํฅ์ ์ ๋จ์ํ๋ฅผ ์ํด ์๋ต๋จ.
<๊ทธ๋ฆผ2>
์ ๊ฒฝ๋ง์ ์์ฐจ๋ฅผ ํ์ตํ๋ฉฐ, ํญ๋ฑ ์์ปท ์ฐ๊ฒฐ์ ํตํด ์
๋ ฅ๊ฐ์ ์ถ๋ ฅ์ ๊ทธ๋๋ก ์ ๋ฌ (๋
ผ๋ฌธ๋ฐ์ท)
3.3 Network Architectures
<๊ทธ๋ฆผ3>
์ผ์ชฝ๋ถํฐ ์์๋๋ก VGGnet, plain network, residual network (๋
ผ๋ฌธ๋ฐ์ท)
1. Plain Network (<๊ทธ๋ฆผ3>์์ ๊ฐ์ด๋ฐ ๋ชจ๋ธ)
- ์ฃผ๋ก VGGnet์ผ๋ก๋ถํฐ ์๊ฐ์ ๋ฐ์ ์ค๊ณ๋จ.
- ๋๋ถ๋ถ 3x3 ํํฐ๋ฅผ ํ์ฉํจ.
๋ค์ 2๊ฐ์ ๊ท์น์ ๋ฐ๋ฆ.
- ๊ฐ์ ํฌ๊ธฐ์ ์ถ๋ ฅ๋งต์ ๋์ถํด์ผ ํ๊ธฐ ๋๋ฌธ์ ๋๋ถ๋ถ์ ์ธต์ ํํฐ ๊ฐ์๋ ๋์ผํจ.
- ๋ง์ฝ ์ฑ๋ ๊ฐ์๋ฅผ 2๋ฐฐ๋ก ๋๋ ค๊ธฐ ์ํด ์ถ๋ ฅ๋งต์ ํฌ๊ธฐ๋ฅผ ๋ฐ์ผ๋ก ์ค์ผ ๋๋, ํํฐ์ ๊ฐ์๋ฅผ 2๋ฐฐ๋ก ๋๋ฆผ. ์ด๋ pooling์ด ์๋๋ผ conv layer์์ stride=2๋ก ์ค์ ํจ์ผ๋ก์จ ์ถ๋ ฅ๋งต์ ํฌ๊ธฐ๋ฅผ ์ค์
- ๋ง์ง๋ง ๋ถ๋ถ์์ global average pooling์ ์ฌ์ฉํ์ฌ ์ถ๋ ฅ๋ ํน์ง ๋งต์ ๋ฒกํฐ๋ก ๋ณํํจ.
( โป๋งต์ ํฌ๊ธฐ๋ฅผ ์ค์ด๋ ๋์์ ์ฑ๋ ๊ฐ์๋ฅผ ๋๋ฆฌ๋ฉด์ ๋ฒกํฐ๋ก ๋๋ฌํ๋ ๊ณผ์ ์ VGGnet ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ์ <๊ทธ๋ฆผ5>๋ฅผ ์ฐธ๊ณ )
- ์ต์ข
์ ์ผ๋ก softmax๋ฅผ ์ฅ์ฐฉํ FC layer(1x1x1000)์ ์ ๋ฌํจ์ผ๋ก์จ ImageNet 1000๊ฐ ๋ฐ์ดํฐ๋ฅผ ๋ถ๋ฅํจ.
2. Residual Network
- plain network์ ์์ปท ์ฐ๊ฒฐ ์ถ๊ฐํจ.
- ๋๋ถ๋ถ์ ๊ฒฝ์ฐ ์์ ์ ์ํ ์(1)์ ์ ์ฉํจ.
- ์ค๊ฐ์ค๊ฐ ์ฑ๋์ ๊ฐ์๊ฐ 2๋ฐฐ๊ฐ ๋๋ฉด์ /2 ํ์๋ ๊ตฌ๊ฐ์๋ ์ ์ฉํ ๋ฐฉ๋ฒ์ ๋ค์ 2๊ฐ์ง์.
- ๊ทธ๋๋ก ์(1)์ ์ ์ฉํ๊ณ ํด๋น ๊ตฌ๊ฐ์ ์
๋ ฅ๋งต์ ์ฑ๋์ zero padding์ ์ฌ์ฉํจ. (x๋ ์ด์ ์ธต์์ ๋ ์์ ์ฑ๋ ๊ฐ์๋ฅผ ๊ทธ๋๋ก ๊ฐ๊ณ ์ค๊ธฐ ๋๋ฌธ์ F๊ฐ ์ด์ ์ฐจ์์ ๋ง์ถ๊ธฐ ์ํด x์์ ๋ถ์กฑํ ์ฑ๋ ๋ถ๋ถ์ 0์ผ๋ก ์ฑ์์ ์ฑ๋์ ์๋ฅผ ์ฆ๊ฐ์ํจ๋ค๋ ์๋ฏธ์ zero padding์.)
- ์(2)๋ฅผ ์ ์ฉํจ. (ํญ๋ฑ ์์ปท ์ฐ๊ฒฐ ๋ถ๋ถ์ ์ ํ ๋ณํํ ์)
3.4 Implementation
- S๋ฅผ ์ค์ ํ ๋ multi-scale ์ฌ์ฉ โ [256, 480] ์์ S๊ฐ ๋๋ค์ผ๋ก ์ ํจ.
- 224x224 ํฌ๊ธฐ๋งํผ crop ์งํํจ. ๋๋ถ์ด ์ข์ฐ๋ฐ์ ์ผ๋ก ๋ฐ์ดํฐ ์ฆ๊ฐํจ.
- ๊ฐ ํฉ์ฑ๊ณฑ ์ฐ์ฐ ์ดํ ํ์ฑํ ํจ์์ ํต๊ณผ์ํค๊ธฐ ์ , ๋ฐฐ์น ์ ๊ทํ๋ฅผ ์งํํจ.
- He ์ด๊ธฐ๊ฐ ์ฌ์ฉํจ.
- ํ์ต๋ฅ ์ 0.1๋ถํฐ ์์ํด์ ์ค์ฐจ๊ฐ ๋์ด๋๋ฉด 10โ1๋งํผ ๊ณฑํด์ค. ์ต์ข
ํ์ต๋ฅ ์ 60ร10โ1.
- ๊ฐ์ค์น ๊ฐ์(weight decay) = 0.0001
- ๋ชจ๋ฉํ
= 0.9
4 Experiments - ImageNet Classification
- training data : 128๋ง ๊ฐ
- validation data : 5๋ง ๊ฐ
- testing data : 10๋ง ๊ฐ
<๊ทธ๋ฆผ4>
๋ชจ๋ธ ๊ตฌ์กฐ (Plain, Residual ๋ชจ๋ ๋์ผ. ์ฐจ์ด๋ ์์ปท ์ฐ๊ฒฐ ์ฌ์ฉ ์ฌ๋ถ) (๋
ผ๋ฌธ๋ฐ์ท)
1. Plain Networks
<๊ทธ๋ฆผ5>
ImageNet - Plain Net์ error (18์ธต vs. 34์ธต) (๋
ผ๋ฌธ๋ฐ์ท)
- 18์ธต๊ณผ ๋น๊ตํ์ ๋ 34์ธต ๋ชจ๋ธ์ด training, validation ๋ชจ๋์์ ์ฑ๋ฅ์ด ๋ ๋๋นด์.
- Introduction์์ ์ดํด๋ณธ ๋ฐ์ ๊ฐ์ด, ๊ธฐ์ธ๊ธฐ ์์ค ๋ฐ ํญ๋ฐ ๋ฑ์ ๋ฌธ์ ๋ ์๋.
- ์ฐ๊ตฌ ๊ฒฐ๊ณผ, ๊น์ plain ๋ชจ๋ธ์ ์๋ ด๋ฅ ์ด ๊ธฐํ๊ธ์์ ์ผ๋ก ๋ฎ์์ง์ ํ์ธํจ. ๋ค์ ๋งํด, parameter์ ๋ณํ๋ฅผ ์ฃผ์ด๋ ์ค์ฐจ๊ฐ ํฌ๊ฒ ์ค์ง ์์ ์ต์ ํ๊ฐ ์ด๋ ต๋ค๋ ๋ป์.
2. Residual Networks
<๊ทธ๋ฆผ6>
ImageNet - ResNet์ error (18์ธต vs. 34์ธต) (๋
ผ๋ฌธ๋ฐ์ท)
- baseline์ <๊ทธ๋ฆผ4>์์ ๋ณผ ์ ์๋ฏ Plain Networks์ ๋์ผํจ. ์์ปท ์ฐ๊ฒฐ๋ง ์ถ๊ฐํจ.
- training, validation ๋ชจ๋์์ ๋ ๋์ ์ฑ๋ฅ์ ๋ณด์ด๊ณ ์์.
| Conclusion |
| Deeper Bottleneck Architectures |
<๊ทธ๋ฆผ9> 2๊ฐ์ 3x3 layers vs. 1x1 layer๋ฅผ ์ด์ฉํ ๋ณ๋ชฉ ๊ตฌ์กฐ (๋
ผ๋ฌธ๋ฐ์ท)
- ํ์ต์๋๋ฅผ ๋์ด๊ธฐ ์ํด ๋ณ๋ชฉ ๊ตฌ์กฐ๋ฅผ ๊ณ ์ํจ.
- ๊ฐ ์์ฐจ ํจ์๋ฅผ <๊ทธ๋ฆผ9>์ ๊ฐ์ด 1x1โ3x3โ1x1 ๋ก ๊ตฌ์ฑํจ.
- ํญ๋ฑ ์์ปท ์ฐ๊ฒฐ์ด ์ค์ํ ์ญํ ์ ํ๋๋ฐ, ๋ง์ฝ ํญ๋ฑ ์์ปท ์ฐ๊ฒฐ์ด ์๋ projection shortcut, ์ฆ ์ง์ ์ (C)๋ฅผ ์ฌ์ฉํ ๊ฒฝ์ฐ, ์๊ฐ ๋ณต์ก๋์ ๋ชจ๋ธ ํฌ๊ธฐ๊ฐ 2๋ฐฐ๊ฐ ๋จ. ๋ฐ๋ผ์ ๋ฐ๋์ ํญ๋ฑ ์์ปท ์ฐ๊ฒฐ์ ์ฌ์ฉํด์ผ ํจ.
๊น์ด๊ฐ ์๋ก ๋ค๋ฅธ 6๊ฐ์ ResNet์ ์์๋ธํ์ฌ ๋ค์๊ณผ ๊ฐ์ ๊ฒฐ๊ณผ๋ฅผ ๋์
<๊ทธ๋ฆผ10> ์ต์ข
๊ฒฐ๊ณผ (๋
ผ๋ฌธ๋ฐ์ท)
๐ค ๋ด ์๊ฐ
- ์์ฐจ๋ฅผ ํ์ตํ๋ค๋ ๊ฐ๋
์ด ์ ์ ํ๋ฉด์๋ ๊ทธ ๊ณผ์ ์ด ์ฒ์์๋ ์ฝ๊ฒ ์ดํด๋์ง ์์์.
- ๋
ผ๋ฌธ ๊ตฌ์กฐ๊ฐ ํน์ดํด์ ๊ฐ์ธ์ ์ผ๋ก ์ฝ๊ธฐ ํ๋ค์์.
- 0 Abstract์ 1 Introduction ๊ฒน์น๋ ๋ด์ฉ๋ ๋ง๊ณ , introduction์์ ์๊ฐ๋ณด๋ค ๋ฅํ๊ฒ ์ค๋ช
ํด์ค์ ์ฝ๋ ์ฌ๋์ผ๋ก ํ์ฌ๊ธ ์คํ๋ ค ํท๊ฐ๋ฆฌ๊ฒ ๋ง๋ฆ. ์น์ ํ ๋
ผ๋ฌธ์ ์๋์์.
- ๊ทธ๋ฆฌ๊ณ ๋ฌด์๋ณด๋ค ๋ ํผ๋ฐ์ค๋ฅผ ์น์ ํ๊ฒ ์ ์จ์ค. ๋ณธ๋ฌธ ์์ฑํ ๋, ๋ง์ง๋ง์ ์์ฐฝ ์ ๋ฆฌํด๋ ๋ ํผ๋ฐ์ค ๋ชจ์์์ [40] ์ด๋ฐ์์ผ๋ก ๋ฐ์ค๋๊น ์ด๋ค ์ ํ ๋ชจ๋ธ ๋ฐ ๋
ผ๋ฌธ์ ๋งํ๋ ๊ฒ์ธ์ง ํท๊ฐ๋ ธ์...
๊ธ์ด ์ ๋ง ์ ์ ๋ฆฌ๋์ด ์๋ค์ !! ์ข์ ๊ธ ๊ฐ์ฌํฉ๋๋ค โฐ(ยฐโฝยฐ)โฏ