๐ ๋ณธ ๋ฆฌ๋ทฐ๋ U-Net ๋ฐ ๋ฆฌ๋ทฐ๋ฅผ ์ฐธ๊ณ ํด ์์ฑํ์ต๋๋ค.
๐ฉโ๐ป ์ค๋์ Semantic segmentation ์ค ํ๋์ U-Net ๋ ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ์งํํด๋ณด๊ฒ ์ต๋๋ค. ์ ๋ชฉ์์ ๋ณผ ์ ์๋ฏ์ด ๋ณธ ๋ ผ๋ฌธ์ด ์ํ๊ณ์ด๊ณผ ๋ง์ ๊ด๋ จ์ด ์๋ ๊ฒ์ ์ ์ ์์ต๋๋ค. ์ ์ํ์ ๋ํด ๋ฌด์งํ๊ธฐ์.... ๋ฐฉ๋ฒ๋ก ์์ฃผ์ ๋ฆฌ๋ทฐ๋ฅผ ์งํํ ์์ ์ ๋๋ค.
๐ U-Net: Contracting path and expanding path
๐ Overlap Tile strategy
๐ Elastic Deformation for Data Augmentation
โ Semantic Segmentation๋ ๊ธฐ์กด์ Image Classification๊ณผ ๋ค๋ฅด๊ฒ, ๊ฐ pixel๋ง๋ค class label๋ฅผ ๊ตฌ๋ถํด์ผํฉ๋๋ค. Segmentation์ ์ํํ๊ธฐ ์ํด ๋จผ์ , U-Net์ด locaizeํ ์ ์์ด์ผํฉ๋๋ค. ๋๋ฒ์งธ๋ก patch๋ผ๊ณ ๋ถ๋ฆฌ๋ training data๊ฐ training image๋ณด๋ค ํจ์ฌ ๋ ๋ง์์ผํฉ๋๋ค.
โ ๊ธฐ์กด์ ์ ๋ต๋ค์๋ ๋ ๊ฐ์ง ์๊ฐํด์ผํ ๋ถ๋ถ์ด ์กด์ฌํฉ๋๋ค. ๋จผ์ ๊ธฐ์กด์ sliding window์๋ ๋ง์ ์ค๋ณต์ด ์กด์ฌํ๋ค๋ ์ ์ ๋๋ค. ๋๋ฒ์งธ๋ก localization ์ ํ๋์ context๋ฅผ ์ฌ์ฉํ๋ ๊ฒ์ trade-off ๊ด๊ณ๊ฐ ์กด์ฌํ๋ค๋ ์ ์ ๋๋ค. ๋ ํฐ Patch(context)๋ฅผ ์ฌ์ฉํ ๊ฒ์ ๋ ๋ง์ max-pooling์ด ํ์ํ๋ฉฐ ์ด๋ localization์ ์ ํ๋๋ฅผ ๋ฎ์ถฅ๋๋ค.
โ ๊ฒฐ๊ณผ์ ์ผ๋ก U-Net์ Fully Convolutional Network๋ฅผ ์ฌ์ฉํด ์ํคํ ์ฒ๋ฅผ ๊ตฌ์ฑํฉ๋๋ค. ๋ํ FCN ๊ตฌ์กฐ๋ฅผ ์์ ๋ฐ ํ์ฅ์ ํตํด ์ ์ training ์ด๋ฏธ์ง๋ก ๋ ์ ์๋ฏธํ segmentation๋ฅผ ํ ์ ์๋ค๊ณ ๋งํฉ๋๋ค.
โ ์์ Overlap-tile strategy๋ฅผ ์ฌ์ฉํด seamless segmentation์ ๊ฐ๋ฅํ๊ฒ ํ ์ ์์ต๋๋ค. ํ๋์ ์ ์ ๋ฒ์๋ก ๋ ธ๋์ ์ ์ ๋ฒ์๋ฅผ ์์ธกํ๊ฒ ๋๋๋ฐ, ํ๋์ ์ ์ ๋ฒ์ ์ผ๋ถ๊ฐ ๊ธฐ์กด์๋ ์ด๋ฏธ์ง๊ฐ ์ผ๋ถ๊ฐ ์๋์ง๋ง, mirroring์ ํตํด ์ด๋ฏธ์ง๊ฐ ์๋ ๋ถ๋ถ ์ฑ์ ํ์ต์ ์งํํฉ๋๋ค.
โ U-Net์ ์ ์ฒด์ ์ธ ๊ตฌ์กฐ ํํ๋ฅผ ๋ณผ ์ ์์ต๋๋ค. ๊ฐ์ด๋๋ฅผ ๊ธฐ์ค์ผ๋ก ๊ฑฐ์ ๋์นญ์ธ ๊ฒ์ ์ ์ ์์ผ๋ฉฐ, ์ข์ธก์ contracting path ๊ทธ๋ฆฌ๊ณ ์ฐ์ธก์ expansive path๋ผ๊ณ ๋ถ๋ฆ ๋๋ค.
โ contracting path์ ๊ตฌ์กฐ๋ ์ ํ์ ์ธ convolution network๊ตฌ์กฐ๋ผ๊ณ ์ ์ ์์ต๋๋ค. ๊ฐ๊ฐ์ block(?)์ด 2๊ฐ์ 3x3 convolutions๊ณผ ReLU ๊ทธ๋ฆฌ๊ณ 2x2 Max pooling์ผ๋ก ์ด๋ฃจ์ด์ ธ์์ต๋๋ค. ๋ํ downsamplingํ ๋ feature channels์ ๋ ๋ฐฐ๋ก ์ฆ๊ฐ์ํต๋๋ค.
โ expansive path๋ 2x2 convolution("up-convolution")์ธ upsampling์ ๋ฐฉ์์ผ๋ก ์ด๋ฃจ์ด์ ธ ์์ต๋๋ค. ๋ํ contracting path๋ก๋ถํฐ ์จ crop๋ feature map์ ์ฌ์ฉํด concat์ ์งํํฉ๋๋ค. crop์ ํ๋ ์ด์ ๋ ๊ฐ convolution๋ง๋ค ๊ฐ์ฅ์๋ฆฌ pixel ์ ๋ณด๋ค์ด ์์ค๋๊ธฐ ๋๋ฌธ์ ๋๋ค. ์ด๋ convolution ๊ณผ์ ์์ padding ํ์ง ์๋ ์ด์ ๋ผ๊ณ ๋ ๋งํ ์ ์๋ค๊ณ ์๊ฐ๋ฉ๋๋ค.
โ ์ด 23๊ฐ์ convolution layer๋ก ์กด์ฌํ๋ฉฐ, connected layer๋ ์กด์ฌํ์ง ์์ต๋๋ค. ๊ฐ์ธ์ ์ผ๋ก๋ ์์ ๋คํธ์ํฌ ๊ทธ๋ฆผ์ด ์ง๊ด์ ์ผ๋ก ์ ์ค๋ช ๋์ด์๋ค๊ณ ์๊ฐํฉ๋๋ค.
โ Unpadded convolution์ ์ฌ์ฉํ๊ธฐ ๋๋ฌธ์ output image๋ input ๋ณด๋ค ์์ต๋๋ค. ๊ทธ๋ ๊ธฐ ๋๋ฌธ์ ๋ ํฐ input ์ฌ์ด์ฆ์ batch size๋ฅผ ์ฌ์ฉํ๋ฉฐ ์ด๋ ํ๋์ ์ด๋ฏธ์ง๋ง๋ค ๋ฐฐ์น ์๋ ์ค์ด๋ค๊ฒ๋๋ค. ์ด ๋ถ๋ถ์ ๋ณด์์ ์ํด momentum(0.99)๋ฅผ ์ฌ์ฉํด ๊ณผ๊ฑฐ์ ์ ๋ณด๋ฅผ ๋ ๋ง์ด ๋ฐ์๋๋ฆฝ๋๋ค.
โ U-Net์์ ์ฌ์ฉํ ์ ๋์งํจ์(์ ๊ฐ์ ๊ฒฝ์ฐ์๋ ์์คํจ์๋ผ๊ณ ์ดํดํ์ต๋๋ค..)์ ๊ฒฝ์ฐ pixel-wise(ํฝ์ ๋จ์์) soft-max๋ฅผ ์ต์ข feature map์์ cross entropy์ ๊ฒฐํฉ๋ ์ฌ์ฉํฉ๋๋ค.
โ Soft-max๋ ์์ ์๊ณผ ๊ฐ์ด ๋ก ์ ์ ๋ฉ๋๋ค. ์ ๊ฒฝ์ฐ feautre map k์์์ activation์ด๋ผ๊ณ ํ๋ฉฐ, ๋ ํฝ์ ํฌ์ง์ ์ ์๋ฏธํฉ๋๋ค. ๋๋ฌธ์ ๋ ํด๋์ค์ ์๋ฅผ ์๋ฏธํ๊ณ , ์ approximated maximun-function์ ์๋ฏธํฉ๋๋ค.
โ ์ ์ฒด์ ์ธ ์ ๋์งํจ์์ ๊ตฌ์กฐ๋ ์์ ๊ฐ์ต๋๋ค.
โ ๋ํ ์ ๋ ผ๋ฌธ์ ์ํ๊ด๋ จ ์ฃผ์ ๋ฅผ ๋ค๋ฃจ๋ฉฐ, ๊ฒฝ๊ณ๋ถ๋ถ์ ๋ถ๋ฆฌํ๊ธฐ ์ํด์ Weight map์ pre-computeํ๋ค๊ณ ํฉ๋๋ค. ๊ฐ๊ฐ์ training dataset์ ํน์ ํด๋์ค์์ ํฝ์ ์ ๋ค๋ฅธ ๋น๋๋ฅผ ๋ณด์ ํ๊ธฐ ์ํด ๊ฐ ์ง์ ์ง์ค ๋ถํ ์ ๋ํ ๊ฐ์ค์น ๋งต์ ๋ฏธ๋ฆฌ ๊ณ์ฐํ๋ค. ๋ํ ๋คํธ์ํฌ์ ๊ฒฝ๊ณ๊ฐ ์ ์ ๋ถ๋ถ์ ๋ถ๋ฆฌํ๊ธฐ ์ํด pre-compute๋ฅผ ์งํํฉ๋๋ค.
โ ์์ ์์์ ํต์ฌ์ ๊ณผ ๋ผ๊ณ ๋งํ ์ ์์ต๋๋ค. ์ ๊ฐ์ฅ ๊ฐ๊น์ด cell(์ธํฌ)์ ๊ฑฐ๋ฆฌ, ๋ ๋๋ฒ์งธ๋ก ๊ฐ๊น์ด cell์ ๊ฑฐ๋ฆฌ๋ผ๊ณ ๋งํ ์ ์์ต๋๋ค.
โ U-Net์์๋ ์ํ ๋ฐ์ดํฐ์ ๋ง๋ Elastic Deformation์ ์ ์ํฉ๋๋ค. ์ด๋ invariacneํ๊ณ robustํ๋ค๋ ํน์ฑ์ ๊ฐ์ง๊ณ ์์ต๋๋ค. ์ด๋ฅผ ์ ์ํ ์ด์ ๋ ์ผ๋ฐ์ ์ผ๋ก ์ธํฌ ๋ฐ์ดํฐ๋ฑ๊ณผ ๊ฐ์ ๊ฒ์ ๊ตฌํ๊ธฐ๊ฐ ์ด๋ ค์ฐ๋ฉฐ, ๊ฐ๋์ ๋ฐ๋ผ ๋ค๋ฅด๊ฒ ๋๋ฌธ์ ์ฌ์ฉํ๋ค๊ณ ํฉ๋๋ค. ์์ธํ ๋ด์ฉ์ ๋ ผ๋ฌธ ๋ฐ ์๋ฃ๋ฅผ ์ฐพ์๋ณด์๋ ๊ฒ์ ์ถ์ฒ๋๋ฆฝ๋๋ค.