๐ ์ค๋์ CNN์ ๊ฐ์ฅ ๊ธฐ๋ณธ์ค์ ๊ธฐ๋ณธ์ธ AlexNet ๋ ผ๋ฌธ๋ฆฌ๋ทฐ๋ฅผ ์งํํ๊ฒ ์ต๋๋ค. ์ฒซ ๋ฆฌ๋ทฐ์ด๊ธฐ์ ๋ง์ด ๋ถ์กฑํ์ง๋ง, AlexNet์ ์ด๋ ต์ง ์์ ๋ ผ๋ฌธ์ด์๊ธฐ์ ์ฝ์ ์ ์์๋ค๊ณ ์๊ฐํฉ๋๋ค.
๋ ผ๋ฌธ ๋งํฌ: ImageNet Classification with Convolutional Neural Networks
์ด ๊ธ ์ฒ์์๋ ๊ณผ๊ฑฐ์ ํ์ฌ์ ์ฐจ์ด์ ๋ํด์ ๋งํด์ฃผ๊ณ ์๋ค. ๊ณผ๊ฑฐ๋ณด๋ค ํ์ฌ ๋ง๊ณ ์ง ์ข์ ๋ฐ์ดํฐ ์ ์ ์์งํ ์ ์๋ค๊ณ ๋งํ๊ณ ์๋ค. ์ด๋ฐ ์ํฉ์์ CNN์ ์ ์ ์ฐ๊ฒฐ๊ณผ ๋งค๊ฐ๋ณ์๋ฅผ ํตํด ์ด๋ก ์ ์ผ๋ก ์ข์ ์ฑ๋ฅ ๋ํ๋ผ ์ ์๋ค. ํ์ง๋ง ๊ณผ๊ฑฐ์๋ ๊ฐ ๋น์ผ ๋น์ฉ์ผ๋ก ์ธํด ์ฌ์ฉํ์ง ๋ชปํ๋ค๋ฉด, ํ์ฌ๋ ์ด์ด ์ข๊ฒ๋ GPU์ ๋ฐ๋ฌ๋ก ๊ฐ๋ฅํ๊ฒ ๋์๋ค. ์ด ํ์๋ ๊ฐ๋จํ๊ฒ CNN ๊ตฌ์กฐ์ ์ด๋ค ๋ฐฉ๋ฒ์ผ๋ก ๊ณผ์ ํฉ์ ์ ์ดํ๋์ง ๊ฐ๋ตํ๊ฒ ๋์์๋ค.
ImageNet ๋ฐ์ดํฐ ์
์ ์ฝ 1500๋ง๊ฐ์ ๊ณ ํด์๋ ์ด๋ฏธ์ง์ ์ฝ 22,000๊ฐ์ ๋ฒ์ฃผ๋ฅผ ๊ฐ์ง๊ณ ์๋ค. ILSVRC ์์๋ ImageNet์ subset์ ์ฌ์ฉํ๋ฉฐ ๋๋ต 120๋ง๊ฐ์ training ์ด๋ฏธ์ง์ 50,000๊ฐ์ validation ์ด๋ฏธ์ง, 150,000๊ฐ์ testing ์ด๋ฏธ์ง๋ก ๊ตฌ์ฑ๋์ด์์ต๋๋ค.
์ด๋ฏธ์ง์ ํฌ๊ธฐ๋ 256 X 256 ๊ณ ์ ํ์๊ณ , resize ๋ฐฉ๋ฒ์ ๋์ด์ ๋์ด ์ค ๋ ์งง์ ๋ถ๋ถ์ 256์ผ๋ก ๊ณ ์ ์ํค๊ณ , ์ค์์์ crop ํ๋ค. ๊ฐ ์ด๋ฏธ์ง์ pixel์ traing set์ ํ๊ท ์ ๋นผ์ normalize ํด์ฃผ์์ต๋๋ค.
โ ์์ ๋ฐฉ๋ฒ์ ๋ํ ์ค๋ช ์ ์๋ตํ๊ฒ ์ต๋๋ค. ๊ฐ๋จํ๊ฒ ์ด์ผ๊ธฐํ๋ฉด ์์ ๋ฐฉ๋ฒ๋ก ๋ค์ด test error rate ๋ฐ ๋น์ฉ์ ์ค์ฌ์ฃผ๋ ๋ฐฉ๋ฒ๋ก ๋ค์ ๋๋ค.
์๋ ํ๋ Tensorflow๋ก ์์ฝ๋ ํ ์ ๋๋ค.
์์ ๋คํธ์ํฌ ์ํคํ ์ณ๋ 6์ฒ๋ง๊ฐ์ ํ๋ผ๋ฏธํฐ๊ฐ ์ฌ์ฉ๋์์ต๋๋ค. ์ด๋ฏธ์ง๋ฅผ ILSVRC์ 1000๊ฐ classes๋ก ๋ถ๋ฅํ๊ธฐ ์ํด์๋ ์๋นํ overfitting ์์ด ์ ๋ง์ parameters๋ฅผ ํ์ต ์ํค๋ ๊ฒ์ ์ด๋ ต๋ค๊ณ ๋งํฉ๋๋ค.
๊ฐ๋จํ๊ฒ Data Augmentation์ ๋ฐ์ดํฐ๋ฅผ ๋๋ฆฌ๋ ๊ฒ์ ๋๋ค. 2๊ฐ์ง ๋ฐฉ๋ฒ์ผ๋ก Data Augmentation์ผ๋ก ์งํํ์ผ๋ฉฐ, 2๊ฐ์ง ๋ฐฉ๋ฒ ๋ชจ๋ little computation์ผ๋ก ์ํํ ์ ์์ต๋๋ค.
์ฒซ๋ฒ์งธ ๋ฐฉ๋ฒ์ผ๋ก๋ extracting five 224 X 224 patches(the four corner and one center patch) & horizontal reflections ๋ฐฉ๋ฒ์ผ๋ก, ์์ ๋ฐฉ๋ฒ์ผ๋ก ๊ธฐ์กด์ ๋ฐ์ดํฐ์ ์ฝ 2048๋ฐฐ์ ๋ฐ์ดํฐ๋ฅผ ์์งํ ์ ์์ต๋๋ค.
๋๋ฒ์งธ ๋ฐฉ๋ฒ์ผ๋ก๋ PCA๋ฅผ ํตํด RGB pixel ๊ฐ์ ๋ณํ๋ฅผ ์ฃผ์์ต๋๋ค. PCA๋ฅผ ์ํํ์ฌ RGB ๊ฐ ์์์ ๋ํ eigenvalue๋ฅผ ์ฐพ์ต๋๋ค. eigenvalue์ ํ๊ท 0, ๋ถ์ฐ 0.1์ธ ๊ฐ์ฐ์์ ๋ถํฌ์์ ์ถ์ถํ ๋๋ค ๋ณ์๋ฅผ ๊ณฑํด์ RGB ๊ฐ์ ๋ํด์ค๋๋ค.
* ์์ ๋ฐฉ๋ฒ๋ค๋ก top-1 ์๋ฌ์ 1%๋ฅผ ์ค์ผ ์ ์์๋ค๊ณ ํฉ๋๋ค.
Test์์ ๋ชจ๋ ๋ด๋ฐ์ ์ฌ์ฉํ์ง๋ง, ๊ฒฐ๊ณผ ๋์ถํ ๋ 0.5๋ฅผ ๊ณฑํด์ฃผ์๋ค. ์ฒ์ ๋ ๊ฐ์ Fc์์ Dropout์ ๋์ถํ๊ณ , dropout์ ํตํด overfitting์ ํผํ ์ ์์๊ณ , ์๋ ดํ๋๋ฐ ํ์ํ ๋ฐ๋ณต์๋ ๋ ๋ฐฐ ์ฆ๊ฐ๋์์ต๋๋ค.
Train ๋ชจ๋ธ์๋ SGD(stochastic gradient descent) ์ฌ์ฉํ์ผ๋ฉฐ, batch size = 128, momentum = 0.9 and weight decay = 0.0005 ๋ฅผ ์ ์ฉ์์ผฐ๋ค.