์ฐ๋ฆฐ ์์ CNN๊ณผ CV์ ํตํด ์ธ๊ฐ์ ์๊ฐ์ ์ธ์ง์ ๋ชจ๋ฐฉํ๋ ๋ฐฉ๋ฒ๋ก ์ ๋ํด ์์๋ดค๋ค์ด๋ฒ ์ฅ๋ถํฐ๋ Computer Vision์ tasks ์ค image classification์ ๋ฐ์ ๊ณผ์ ์ ์ดํด๋ณผ๊ฒ์ด๋ค. LeNet-5, AlexNet๋ถํฐ VGG๊น์ง ๋ชจ๋ธ๋ค์ ์์๋ณด๋ฉฐ ๊น์ layer๋ฅผ ๊ฐ์ง ๋ ๋ฐ์ํ๋ Degradation problem์ ์ดํด๋ณด๊ฒ ๋ค.
Image Classification๋
์ ์ฒด ์ด๋ฏธ์ง์ lable ๋๋ class๋ฅผ ํ ๋น ํ๋ ์์ ์ด๋ค. ์ด๋ฏธ์ง๋ ๊ฐ ์ด๋ฏธ์ง์ ๋ํด ํ๋์ class ๊ฐ์ง ๊ฒ์ผ๋ก ์์๋๊ณ , ์ด๋ฏธ์ง ๋ถ๋ฅ ๋ชจ๋ธ์ ์ด๋ฏธ์ง๋ฅผ ์ ๋ ฅ์ผ๋ก ์ฌ์ฉํด ์ด๋ฏธ์ง๊ฐ ์ํ ํด๋์ค์ ๋ํ ์์ธก์ ๋ฐํ๋จ๋ค.
์ฆ. ์ด๋ฏธ์ง์ class๋ฅผ ๋งคํํ๋ ์์ ์ผ๋ก, ํด๋น ์ด๋ฏธ์ง์ category level์ ์ฐ๊ฒฐํ๋ ์ง๋๋ฅผ ๊ทธ๋ฆฌ๋ ๊ฒ์ด๋ค.
๐ ์ฐ๋ฆฌ๊ฐ ์ด์ธ์์ ๋ชจ๋ ์ ๋ณด๋ฅผ ๊ธฐ์ตํ ์ ์๋ค๋ฉด ๋ชจ๋ ์ด๋ฏธ์ง๋ฅผ ๋ถ๋ฅ ํ ์ ์์ง ์์๊น? ๊ทธ๋ ๋ค๋ฉด ์ด๋ค ๋ฐฉ์์ผ๋ก ๋ชจ๋ ์ด๋ฏธ์ง๋ฅผ ๋ถ๋ฅํด์ผ ํ ๊น?
๐
ฐ ๋ชจ๋ ์ด๋ฏธ์ง ๋ฐ์ดํฐ๋ฅผ K-NN(k nearest neighbors)๋ฐฉ์์ ์ ์ฉํ๋ฉด ๋ถ๋ฅํ ์ด๋ฏธ์ง์ ๊ทผ์ฒ ์ด์ ๋ฐ์ดํฐ๋ฅผ ์ฐพ๊ณ ๊ทธ ์ด์๋ฐ์ดํฐ์ label data๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ๋ถ๋ฅํ ์ ์์ง ์์๊น?
์ฆ, ๊ฒ์์ผ๋ก ์๊ฐํ ์ ์์ ๊ฒ์ด๋ค.
๐โโ๏ธ k nearest neighbors : ์ฟผ๋ฆฌ ๋ฐ์ดํฐ์ ๊ฐ์ฅ ๊ฐ๊น์ด ์ด์ ๋ฐ์ดํฐ๋ฅผ ์ฐพ๊ณ ์ด์ ๋ฐ์ดํฐ์ ๋ผ๋ฒจ ๋ฐ์ดํฐ๋ฅผ ์ฐธ์กฐํ์ฌ ๋ถ๋ฅํ๋ ๊ฒ
๐ ํ์ง๋ง ์๋ฌด๋ฆฌ ์ปดํจํฐ ์ฑ๋ฅ์ด ์ข์์ง๋๋ผ๋ ์ธ์์ ๋ชจ๋ ์ด๋ฏธ์ง๋ฅผ ๊ฐ์ง๊ณ ๋ชจ๋ ์ด๋ฏธ์ง ๊ฐ ์ ์ฌ๋๋ฅผ ๊ณ์ฐํ๋ฉด Time complexity(๊ณ์ฐ๋ณต์ก๋)์ Memory complexity(๋ฉ๋ชจ๋ฆฌ ๋ณต์ก๋)๊ฐ ๋ฌดํ๋์ ๊ฐ๊น์ง ์์๊น?
๐
ฐ ๊ทธ๋ ๋ค๋ฉดsingle layer neural networks์ธ perceotron ๋ชจ๋ธ์ ํตํด ์ด๋ฏธ์ง๋ฅผ ์์ถํด๋ณด์
๐คฆโโ๏ธ ํ์ง๋ง layer๊ฐ ํ๋๋ฐ์ ์๋ ๋จ์ํ ๋ชจ๋ธ์ด๋ผ ๋ณต์กํ ์ด๋ฏธ์ง ๋ถ๋ฅ ๋ฌธ์ ๋ฅผ ํ๊ธฐ์ ๋๋ฌด ๋จ์ํ๋ค.
๐คฆโโ๏ธ ๋ํ single fully connected layer network์ด๊ธฐ ๋๋ฌธ์ ํ๋์ ํน์ง(์ ๋ต์ ํด๋นํ๋ ํน์ง)์ ๋ฝ๊ธฐ์ํด ๋ชจ๋ ํน์ง์ ๋ฝ๊ฒ ๋๋ ๋ชจ๋ ๋ฐ์ดํฐ๋ฅผ ํ๊ท ์ํจ ๊ฒ๊ณผ ๊ฐ์ ๊ฒฐ๊ณผ๋ง ๋์ค๋ฉด์ ๊ณ์ฐํด์ผ ๋๋ ํ๋ผ๋ฏธํฐ๊ฐ ๋๋ฌด ๋ง๋ค.
๐คฆโโ๏ธ ํ์ต ๋ฐ์ดํฐ์ ๋ฌ๋ฆฌ ๋์์ด ์๋ฆฐ ์ฌ์ง์ด ๋ฃ์ด์ฃผ๋ฉด ์ข์ง ๋ชปํ ๊ฒฐ๊ณผ๋ฅผ ๋ด๋ณด๋ด๋ ๋ฌธ์ ์ ์๋ค.
๐ ๊ทธ๋ ๋ค๋ฉด ์ด๋ฏธ์ง์ ๊ณต๊ฐ์ ์ ๋ณด๋ฅผ ์ถ์ถํ๋ฉด์ ํ๋ผ๋ฏธํฐ๋ ์ ๊ฒ ๊ณ์ฐํด์ผ๋๋ ๋ฐฉ๋ฒ์ด ์์๊น?
๐
ฐ convolution์ ํตํด์ ๊ณต๊ฐ์ ํน์ฑ์ ๋ฐ์ํด ๊ตญ๋ถ์ ์ธ ์์ญ๋ง ์ถ์ถํ๋ฉด ์ ์ ํ๋ผ๋ฏธํฐ๋ก ํน์ง ์ถ์ถ์ด ๊ฐ๋ฅํ๋ค!
๐โโ๏ธ CNN์ classification ๋ฌธ์ ๋ฟ๋ง์๋๋ผ ๋ค์ํ cv๋ฌธ์ ์์ backbone์ด ๋๋ค. CNN์ผ๋ก ์ถ์ถํ ํน์ง๋งต์ ์ด์ฉํด image-level classification, classification+regression, pixel level classification ๋ฑ์ผ๋ก ๋ฐ์ ๋์๋ค.
LeNet-5
๐โโ๏ธ Conv(C1) - Subsampling(S2) - Conv(C3) - Subsampling(S4) - Conv(C5) - FC - FC , ์ฝ 6๋ง๊ฐ์ ํ๋ผ๋ฏธํฐ๋ก ๊ตฌ์ฑ๋์๋ค.
1998๋ Yann LeCun์ ๋ ผ๋ฌธ 'Gradient-Based Learning Applied to Document Recognition' ์ ๋ด๊ฒจ์๋ CNN ์ ๊ฒฝ๋ง์ ๊ตฌ์กฐ๋ฅผ ์๋ฏธํฉ๋๋ค
CNN์ ์์ผ๋ก ์ ํ ์ฐํธ ๋ฒํธ๋ฅผ ํจ์จ์ ์ผ๋ก ํ์ธํ๊ธฐ ์ํด ๊ณ ์๋์๋ค.
๐โโ๏ธ CNN์ ์ด๋ฐ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ filter(kernel)์ ํตํด layer์ receptive field๋ฅผ local๋ก ์ ํํจ์ผ๋ก์จ local feature๋ฅผ ์ถ์ถํ๋ค.
๐โโ๏ธ receptive field๋ convolution์ ๊ฑฐ์น output tensor์ ํ๋์ ๊ฒฐ๊ณผ๊ฐ์ด ์๋ณธ ์ด๋ฏธ์ง์์ ๋ด๋นํ๋ ๋ฒ์๋ผ๊ณ ํ ์ ์๋ค.
๐โโ๏ธ ๋ฐ๋ผ์ ์ธต์ด ๊น์ด์ง์๋ก ๋ ๋์ receptive field์ ๊ฐ๋ ๊ฒ์ด๋ค.
K : kernel(filter) size
L : layers ์
receptive field size = L x (K-1) + 1
๐ ouput size = (1,1), kernel size = (3,3), layers 2๊ฐ ์ผ๋ receptive field size?(stride 1, input image(5,5))
๐
ฐ receptive field size = (2 x 2 + 1, 2 x 2 + 1) = (5,5)
๐โโ๏ธ ๋์ผํ weights์ bias๋ฅผ ๊ณต์ ํ๋ kernel๋ค์ ํตํด ์ ๋ ฅ์์ ๋ชจ๋ ์์น์์ ๋์ผํ ํน์ง์ ์ถ์ถํ๋ค. ์ฆ, forward pass์์๋ kxk kernel๊ณผ stride์ ๋ง์ถฐ feature map(input data)์ ๋์๋ค๋๋ฉฐ ๊ณ์ฐํ์ง๋ง back propagation์์๋ ํ๋์ Weight์งํฉ๊ณผ bias๋ง ํ์ตํ๋ค.
๐โโ๏ธ ํ๋ฒ conv ํตํด feature map์ด ์์ฑ๋๋ฉด ์์น ์ ๋ณด์ ์ค์์ฑ์ด ๋จ์ด์ง๋ค.
๊ฐ ํน์ง์ ์์น ์ ๋ณด๋ ํจํด์ ์๋ณํ๋ ๊ฒ๊ณผ๋ ๋ฌด๊ดํ๊ณ , ์
๋ ฅ๊ฐ์ ๋ฐ๋ผ ํน์ง์ด ๋ํ๋๋ ์์น๊ฐ ๋ค๋ฅผ ๊ฐ๋ฅ์ฑ์ด ๋์ ์์น ์ ๋ณด๋ ์ ์ฌ์ ์ผ๋ก ์ ํดํ๋ค.
๋ฐ๋ผ์ feature map์์ ํน์ง๋ค์ ์์น์ ๋ํ ์ ํ๋๋ฅผ ๊ฐ์์ํค๊ธฐ ์ํด pooling(sun-sampling)์ ํตํด feature map์ ํด์๋๋ฅผ ๊ฐ์์์ผฐ๋ค.
์ด๋ LeNet5์ average pooling์ ์ํํด ํด์๋๋ ๊ฐ์ํ๊ณ distortion & shift์ ๋ํ ๋ฏผ๊ฐ๋๋ฅผ ๊ฐ์์์ผฐ๋ค.
๋ํ ์์น ์ ๋ณด์ ๋ํ ์์ค์ feature map size๊ฐ ์์์ง์๋ก ๋ ๋ง์ filter๋ฅผ ์ฌ์ฉํ์ฌ ๋ค์ํ feature๋ฅผ ์ถ์ถํ์ฌ ์ํธ๋ณด์ํ๋๋ก ํ์๋ค.
AlexNet๋
- https://bskyvision.com/421
Alex Khrizevsky๊ฐ ๋ฐํํ 'ImageNet Classification with Deep Convolutional Neural Networks'์์ ์๊ฐ๋ ๋ชจ๋ธ์ด๋ค.
AlexNet 2012๋ ์ ๊ฐ์ต๋ ILSVRC(ImageNet Large Scale Visual Recognition Challenge) ๋ํ์ ์ฐ์น์ ์ฐจ์งํ ์ปจ๋ณผ๋ฃจ์ ์ ๊ฒฝ๋ง(CNN) ๊ตฌ์กฐ์ด๋ค.
์ฆ, CNN์ ๋ถํฅ์ ์์ฃผ ํฐ ์ญํ ์ ํ ๊ตฌ์กฐ๋ผ๊ณ ๋งํ ์ ์๋ค
๐ LeNet-5์ ์ฐจ์ด์ ์ ๋ฌด์์ผ๊น?
๐
ฐ ๊ธฐ๋ณธ ๊ตฌ์กฐ๋ ์ ์ฌํ๋ ์๋์ ๊ฐ์ ์ฐจ์ด์ ์ด ์๋ค.
- ReLU ํจ์๋ฅผ ์ฌ์ฉํ์ฌ gradient vanishing ๋ฌธ์ ์ํ
- 2๊ฐ์ GPU๋ก ๋ณ๋ ฌ์ฐ์ฐ์ ์ํํ๊ธฐ ์ํ ๋ณ๋ ฌ์ ์ธ ๊ตฌ์กฐ
- Local Response Normalization
- overlapping pooling
- Data argumentation(1.2 millions์ ImageNet ํ์ต) & regularization(์ ๊ทํ) ๊ธฐ์ ์ธ Dropout ์ฌ์ฉ
- 11x11 convolution filter ์ฌ์ฉ
- 7๊ฐ์ hidden layers, 605K neurons, 60million parameters๋ก ๋ ์ปค์ง ๋ชจ๋ธ
๐ ReLUํจ์๋ฅผ ์ฌ์ฉํ ์ด์ ?
๐
ฐ sigmoid๋ ํ์ดํผ๋ณผ๋ฆญํ์ ํธ๋ ์ ๊ฒฝ๋ง์ด ๊น์ด์ง ์๋ก ๊ธฐ์ธ๊ธฐ๊ฐ ์๋ฉธ๋๋ ๋ฌธ์ ๊ฐ ๋ฐ์ํจ
sigmoid ํจ์๋ x๊ฐ์ด ์์์ง์ ๋ฐ๋ผ ๊ธฐ์ธ๊ธฐ๊ฐ ๊ฑฐ์ 0์ผ๋ก ์๋ ดํ๊ณ , ํ์ดํผ๋ณผ๋ฆญํ์ ํธ ํจ์๋ x๊ฐ์ด ์ปค์ง๊ฑฐ๋ ์์์ง์ ๋ฐ๋ผ ๊ธฐ์ธ๊ธฐ๊ฐ ํฌ๊ฒ ์์์ง๊ธฐ ๋๋ฌธ์ gradient vanishing์ด ๋ฐ์ํ๋ค
๋ํ singmoid๋ ํ์ดํผ๋ณผ๋ฆญํ์ ํธ ํจ์๋ ๋ฏธ๋ถ์ ์ํด ์ฐ์ฐ์ด ํ์ํ ๋ฐ๋ฉด ReLUํจ์๋ ๋จ์ ์ธ๊ณ๊ฐ์ด๋ฏ๋ก ๋ฏธ๋ถ์ด ์ฝ๋ค.
ReLUํจ์๋ ์ ํ๋๋ฅผ ์ ์งํ๋ฉด์ Tanh๋ณด๋ค 6๋ฐฐ๊ฐ ๋ ๋น ๋ฅด๊ณ , gradient vanishing ๋ฌธ์ ์ํ๋๋ค
AlexNet ์ดํ๋ก๋ ReLU๋ฅผ ์ฌ์ฉํ๋ ๊ฒ์ด ์ ํธ๋์๋ค.
๐ Local Response Normalization ์ฌ์ฉํ ์ด์ ?
๐
ฐ ReLUํจ์๋ ์ผ๋ถ ๊ฐ์ค์น์ ์ถ๋ ฅ๊ฐ์ด ์ฃผ๋ณ ๊ฐ์ค์น์ ๋นํด ๋งค์ฐ ํด ์ ์๊ธฐ ๋๋ฌธ์ ๊ทธ ๊ฐ์ ์ฃผ๋ณ ๊ฐ์ค์น์ ๋น์ทํ๊ฒ ๋ง์ถฐ์ฃผ๋ ์ ๊ทํ ๋ฐฉ๋ฒ์ด๋ค.
์ฆ, Excited neuron์ ์ฃผ๋ณ์ ์๋ ๋ค๋ฅธ ๋ด๋ฐ์ ๋นํด ํจ์ฌ ๋ฏผ๊ฐํ๊ธฐ ๋๋ฌธ์ Excited neuron์ ์ฃผ๋ณ ๋ด๋ฐ์ผ๋ก ์ ๊ทํ์์ผ Excited neuron์ subdue ํ๋ค
LRN์ ์ฌ์ฉํ๋ฉด feature map์ ๋ช ์์ ์ ๊ทํ ์์ผ์ค๋ค๊ณ ์๊ฐํ๋ฉด ๋๋ค
LRN์ ์ ์ฉํ์ ๋์ ๋ณํ์ ์ ์ฌํ ์ด๋ฏธ์ง์ด๋ค
๐โโ๏ธ ์ดํ ๋ชจ๋ธ์์๋ LRN์ ์ฌ์ฉ๋์ง ์๊ณ batch nomalization์ ์ฌ์ฉํ๋ค
๐ overlapping pooling์ด๋?
๐
ฐ CNN์์ pooling์ feature map์ ํฌ๊ธฐ๋ฅผ ์ค์ด๊ธฐ ์ํจ์ด๊ณ , overlapping pooling์ pooling kernel์ด ์์ง์ด๋ ๋ณดํญ์ธ stride๋ฅผ ์ปค๋ ์ฌ์ด์ฆ๋ณด๋ค ์๊ฒ ํ๋ ๊ฒ์ด๋ค.
๐โโ๏ธ LeNet-5์์๋ non-overlapping average pooling์ด ์ฌ์ฉํ์ฌ ๋ฐ๋ฉด์ AlexNet์ overlapping maxpooling์ ์ด์ฉํ์๋ค.
๐ overlapping pooling์ ์ ์ฌ์ฉํ์๊น?
๐
ฐ overlapping pooling์ ํ๋ฉด pooling kernel์ด ์ค์ฒฉ๋๋ฉด์ top-1, top-5 ์๋ฌ์จ์ ์ค์ด๋๋ฐ ํจ๊ณผ๊ฐ ์๋ค
๐โโ๏ธ top-1, top-5 ์๋ฌ์จ์ ์ด๋ฏธ์ง ๋ถ๋ฅ์ ์ฑ๋ฅ์ ํ๊ฐํ๊ธฐ ์ํ ์๋ฌ์จ์ด๋ค
๐โโ๏ธ over fitting์ ๋ง๊ธฐ ์ํ ๊ท์ ๊ธฐ์ ์ ์ผ์ข
์ด๋ค, fully connected layer์ ๋ด๋ฐ ์ค ์ผ๋ถ ๋ด๋ฐ ๊ฐ์ 0์ผ๋ก ๋ฐ๊ฟ๋ฒ๋ฆฌ๋ฉด์ ํ์ต์ ์งํํ๋ ๊ฒ์ด๋ค.
0์ด ๋ ๋ด๋ฐ๋ค์ forward pass back propagation์๋ ์๋ฌด๋ฐ ์ํฅ์ ๋ฏธ์น์ง ์๋๋ค.
๐โโ๏ธ over fitting์ ๋ง๊ธฐ ์ํ ๋ ๋ค๋ฅธ ๋ฐฉ๋ฒ์ผ๋ก ๋ฐ์ดํฐ์ ๋ณํ์ ์ฃผ์ด ๋ฐ์ดํฐ์ ์์ ๋๋ฆฌ๋ ๊ฒ์ด๋ค
๐โโ๏ธ LesNet-5rk 6๋ง๊ฐ์ ํ๋ผ๋ฏธํฐ ์ธ๊ฒ์ ๋นํด AlexNet์ 6์ฒ๋ง๊ฐ์ ํ๋ผ๋ฏธํฐ๋ก ์ฒ๋ฐฐ ๋ง์์ก๊ธฐ ๋๋ฌธ์ ๊ทธ๋งํผ ๋ง์ ํ์ต ๋ฐ์ดํฐ๊ฐ ํ์ํ๋ค.
๐ ์ 11x11 kernel์ ์ฌ์ฉํ์๊น?
๐
ฐ receptive field size๋ฅผ ํค์ฐ๊ธฐ์ํด ํํฐ ์ฌ์ด์ฆ๋ฅผ ํค์ ์ผ๋
Larger size filters are used to cover a wider range of the input image
๋ ๋์ ๋ฒ์์ ์
๋ ฅ ์ด๋ฏธ์ง๋ฅผ ์ปค๋ฒํ๊ธฐ ์ํด ๋ ํฐ ํฌ๊ธฐ์ ํํฐ๊ฐ ์ฌ์ฉ๋ฉ๋๋ค.
๐ ์ผ๋ถ์์๋ง activation map(feature map)์ด crossํ๋ ์ด์ ๋ ๋ฌด์์ผ๊น?
๐
ฐ ๋ชจ๋ ๋ถ๋ถ์์ crossํ๋ฉด ์๊ฐ์ด ์ค๋ ๊ฑธ๋ฆฌ๊ธฐ ๋๋ฌธ์ ์ผ๋ถ์์๋ง ์ํํ๋ค๊ณ ํ๋ค.
๐ Fully connected Layers ๋์ด๊ฐ๊ธฐ ์ vectorํ๋ tensor์ ํฌ๊ธฐ๋ ์ด๋ป๊ฒ ๋ ๊น?(2,3D -> 1D๋ก ๋ณํํ๋ ๊ณผ์ )
๐
ฐ 2๊ฐ๋ก ๋ณ๋ ฌ์ ์ผ๋ก ํ์ตํ๊ธฐ ๋๋ฌธ์ vectorํ ๊ณผ์ ์์ 2048์ด ์๋ 2048X2์ธ 4096๊ฐ๊ฐ ๋๋ค.
VGGNet๋
์ฅ์คํฌ๋ ๋ํ ์ฐ๊ตฌํ์ด ๋ฐํํ Very Deep Convolutional Networks for Large-Scale Image Recognition ๋ ผ๋ฌธ์์ ์๊ฐ๋ ๋ชจ๋ธ์ด๋ค.
VGG-16 ๋ชจ๋ธ์ ImageNet Challenge์์ Top-5 ํ ์คํธ ์ ํ๋๋ฅผ 92.7% ๋ฌ์ฑํ๋ฉด์ 2014๋ ์ปดํจํฐ ๋น์ ์ ์ํ ๋ฅ๋ฌ๋ ๊ด๋ จ ๋ํ์ ์ฐ๊ตฌ ์ค ํ๋๋ก ์๋ฆฌ๋งค๊นํ์๋ค.
๐โโ๏ธ ํด๋น ๋ ผ๋ฌธ์ ํต์ฌ์ ๋คํธ์ํฌ์ ๊น์ด๋ฅผ ๊น๊ฒ ๋ง๋๋ ๊ฒ์ด ์ฑ๋ฅ์ ์ด๋ค ์ํฅ์ ๋ฏธ์น๋์ง ํ์ธํ๊ณ ์ ํ๊ฒ์ด๋ค.
๐ AlexNet์ ์ฐจ์ด์ ์ ๋ฌด์์ผ๊น?
๐โโ๏ธ AlexNet๋ณด๋ค 2๋ฐฐ ์ด์ ๊น์ ๋คํธ์ํฌ์ ํ์ต ์ฑ๊ณตํ์์ผ๋ฉฐ ImageNet Challenge์์ AlexNet์ ์ค์ฐจ์จ์ ์ ๋ฐ(16.4 > 7.3)์ผ๋ก ์ค์๋ค.
๐โโ๏ธ VGG๋ ๊ฐ๋จํ ๋ชจ๋ธ์ ๋ฐฐํด ๋์ ๊ฒฐ๊ณผ๋ฌผ์ ๋ณด์ฌ์คฌ์.
๐โโ๏ธ 3x3 filter๋ฅผ ํตํด ๋คํธ์ํฌ์ ๊น์ด 16์ธต, 19์ธต ๋ฑ์ผ๋ก ๊น์ด๋ฅผ ๊น๊ฒ ๋ง๋ค์ด ์ฑ๋ฅ์ ๋์๋ค.
๐ ์ด๋ป๊ฒ 16โ19 ๋ ์ด์ด์ ๊ฐ์ด ๊น์ ์ ๊ฒฝ๋ง ๋ชจ๋ธ์ ํ์ต์ ์ฑ๊ณตํ์๊น?
๐
ฐ filter ์ฌ์ด์ฆ๊ฐ ํฌ๋ฉด ์ด๋ฏธ์ง์ ์ฌ์ด์ฆ๊ฐ ๊ธ๋ฐฉ์ถ์ ๋๊ธฐ ๋๋ฌธ์ ๋คํธ์ํฌ์ ๊น์ด๋ฅผ ์ถฉ๋ถํ ๊น๊ฒ ๋ง๋ค์ง ๋ชปํ์ง๋ง ๋ชจ๋ convolution layer์์ 3x3 filter๋ง ์ฌ์ฉํ์ฌ ๋คํธ์ํฌ๋ฅผ ๊น๊ฒ ๋ง๋ค์๋ค.
๐ ์ ๋ชจ๋ Convolutional layer์์ 3x3 ํํฐ๋ง ์ฌ์ฉํ์๊น?
๐
ฐ VGG ์ด์ ๋ชจ๋ธ๋ค์ ํฐ receptive field๋ฅผ ๊ฐ๊ธฐ ์ํด 11x11, 7x7 filter๋ฅผ ์ฌ์ฉํ์์ผ๋ VGG๋๋ 3x3 filter๋ฅผ ๋ฐ๋ณต์ ์ผ๋ก ์ฌ์ฉํ์ฌ 7x7 filter์ ํจ๊ณผ๋ฅผ ๋ณด์๋ค. 2x2 max pooling๋ฅผ ํตํด receptive field ์ฌ์ด์ฆ๋ฅผ ์ถฉ๋ถํ ํฌ๊ฒ ์ ์งํ ํ๊ณ ,
๐โโ๏ธ 7x7 filter 1๋ฒ ์ํ VS 3x3 filter 3๋ฒ ์ํ
1. ๊ฒฐ์ ํจ์์ ๋น์ ํ์ฑ ์ฆ๊ฐ
๐โโ๏ธ ๋คํธ์ํฌ์ ๊น์ด๊ฐ ๊น์ด์ง๋ฉด feature map์ ๋์ผํ receptive field์ ๋ํด ๋ ์ถ์์ ์ธ ์ ๋ณด๋ฅผ ๋ด๊ฒ ๋๋ฏ๋ก ์ฃผ์ํด์ผํ๋ค.
๐โ VGG์ฐ๊ตฌํ์ A์ A-LRN ๊ตฌ์กฐ์ ์ฑ๋ฅ์ ๋น๊ตํจ์ผ๋ก์ ์ฑ๋ฅํฅ์์๋ ๋ณ๋ก ํจ๊ณผ๊ฐ ์๋ค๊ณ ์คํ์ ํตํด ํ์ธํ๋ค
๐โโ๏ธ ๋ ๊น์ ๋คํธ์ํฌ๋ ๋ ํฐ capacity(์์ฉ์ฑ)์ non-linearity(๋น์ ํ์ฑ) ๊ฐ๋ฅํ๊ฒ ํ๋ค. ๋ํ ๋ ํฐ receptive fields๋ฅผ ๊ฐ์ง๊ฒ ํด neural network๋ ๋ ๊น์ด์ง๊ณ ๋ ๋์ด์ก๋ค.
๐ ํ์ง๋ง ๋ ๊น์ด์ง๋๊ฒ ๋ ๋์ด์ง๋๊ฒ ๋ฐ๋์ ์ข์๊น?
๐
ฐ ๋ ๋ฃจ ํจ์๋ฅผ ํตํด Gradient vanishing ๋ฌธ์ ๋ฅผ ์ด๋์ ๋ ํด๊ฒฐํ์ง๋ง ๋ ๊น์ด์ง network๋ gradient vanishing(๊ฒฝ์ฌ์์ค)๊ณผ exploding(๊ฒฝ์ฌํญ๋ฐ)์ ์ ๋ฐํด ์ต์ ํ๋ฅผ ๋์ฑ ํ๋ค๊ฒ ํ๋ฉฐ ๊ณ์ฐ๋ณต์ก๋(computationally complex)๊ฐ ๋์ฑ ๋์ด๋๋ค.
๐gradient vanishing(๊ฒฝ์ฌ์์ค)๊ณผ exploding(๊ฒฝ์ฌํญ๋ฐ)์ด ์ผ์ด๋๋ฉด ์ด๋ค ๊ฒฐ๊ณผ ๋ํ๋ ๊น?
๐
ฐ ๋ ๊น์ ๋คํธ์ํฌ๋ over-fitting(์ค๋ฒํผํ
)์ ๋ถ๋ฅผ๊ฒ์ด๋ผ๋ ์์ธก๊ณผ ๋ค๋ฅด๊ฒ ์ค์ ๋ก๋ Degradation problem์ ๋ฐ์์ํจ๋ค
๐ Degradation problem์ ๋ฌด์์ผ๊น?
๐ ฐ ์ ํ๋๊ฐ ์ด๋ ์๊ฐ ์ ์ฒด ๋๊ณ layer๊ฐ ๋ ๊น์ด์ง์๋ก ์ฑ๋ฅ์ด ๋ ๋๋น ์ง๋ ํ์์ ๋งํ๋ค.
๐ ๊ทธ๋ ๋ค๋ฉด ์ดํ ๋ชจ๋ธ๋ค์ Degradation problem๋ฅผ ์ด๋ป๊ฒ ํด๊ฒฐํ์๊น?
๐
ฐ ๋ค์ ์ฅ์์ Degradation์ ํด๊ฒฐํ ๋ชจ๋ธ์ธ GoogLeNet,ResNet ๋ฑ์ ์๊ฐํ ๊ฒ์ด๋ค.