Semantic segmentation
data:image/s3,"s3://crabby-images/9fd5b/9fd5b128988fbc2a869ce6ceb9d511f5b438eecc" alt=""
- Image classification을 영상 단위가 아니라 pixel 단위로 시행하고, 같은 class는 모두 같은 물체로 판단
- 이미지에 있는 모든 픽셀에 대한 예측을 하는 것이기 때문에 dense prediction 이라고도 불림
data:image/s3,"s3://crabby-images/71909/71909176fa759b78b8295535a1fa999c740afa0b" alt=""
- 영상 컨텐츠에 대한 이해
- 특정 object에 대한 처리(computational photography)
Sematic segmentation architectures
FCN, Fully Convolutional Networks
data:image/s3,"s3://crabby-images/0025b/0025b10c79956dbc2b799d82af0c8fe64a26e85a" alt=""
- First end-to-end architecture for semantic segmentation
end-to-end
: 입력부터 출력까지 모두 미분 가능한(학습 가능한) NN의 형태
입력&출력만 있으면 NN을 학습시켜서 target task 수행 가능
- 이전까지는 사람의 손으로 알고리즘을 결합해 semantic segmentation을 수행했었기 때문에 data가 많아도 학습 가능한 부분이 제한적이었음
- FCN은 input의 해상도가 자유롭고, 출력도 input의 해상도에 따라 맞출 수 있고, 그 사이의 NN이 모두 학습 가능한 형태기 때문에 문제를 바로 풀 수 있게 됨
data:image/s3,"s3://crabby-images/fd6e2/fd6e25d598560f016a9c363b3b2b46d6982f33cb" alt=""
data:image/s3,"s3://crabby-images/64b39/64b39c746d1c86bba5b4ec51b4f12ba17b261031" alt=""
- Fully connected layer: 공간 정보를 고려하지 않고 fixed dimensional vector가 주어지면 또다른 fixed dimensional vector로 출력
data:image/s3,"s3://crabby-images/72f7e/72f7eb32222d25c76c7f66eb489634f60abc66b5" alt=""
- Fully convolutional layer: 입출력이 모두 activation map 형태라서 spatial coordinate가 유지된 형태로 수행됨, 1x1 conv로 구현
--> 공간에 대한 정보가 남아있다
data:image/s3,"s3://crabby-images/2f0be/2f0befe4e1603494c65257e251c0ebd2b550b4dc" alt=""
- 더 넓은 context를 판단하고 더 정답에 가까운 결론을 얻고싶어 stride, pooling layer를 이용해 receptive field를 키움
- 하지만 receptive field를 키우면 최종 activation map의 해상도는 매우 low한 trade-off가 발생
- 이를 해결하기 위해 upsampling layer를 이용
Transposed convolution
Convolution 계산을 하면 feature map이 작아진다. 반대로 feature map이 커지게 하려면 어떻게 해야할까? 단순하게 생각해보면 Convolution 계산과정을 역으로 하면 된다.
data:image/s3,"s3://crabby-images/fa216/fa216b8deab70e47551027e14cf28552ec787bc9" alt=""
- Input에 filter를 먹여서 겹치게 output을 출력해서 크기를 키움
data:image/s3,"s3://crabby-images/269fe/269feb4b8f9d728b0538da787524d96fe6f04b9b" alt=""
data:image/s3,"s3://crabby-images/63450/634509885751d594889b753beed8f028413304bc" alt=""
-
Transposed Convolution에서는 input의 빨간색 원소를 3x3 kernel에 곱해서 output의 대응하는 자리에 집어넣는다.
-
같은 방법으로 input의 파란색 원소를 3x3 kernel에 곱해서 output의 대응하는 위치에 집어넣는다.
-
이 때 output에 겹치는 구간(빗금 표시)이 발생하는데, 겹치는 부분의 값은 모두 더해준다.
data:image/s3,"s3://crabby-images/a61c5/a61c50d0b762b63c5816f471e49d25491e436a3a" alt=""
data:image/s3,"s3://crabby-images/72c46/72c465c94e36d735404b62d670e8a3111c60717d" alt=""
- Transposed convolution를 사용할 땐 위와 같은 checkboard artifact가 생기지 않도록 convolution size와 stride parameter를 잘 tuning해줘야 함
Upsampling
data:image/s3,"s3://crabby-images/2b4a4/2b4a46ee6ceb83e12fa2f468df111ddff34e12dd" alt=""
-
Stride, pooling을 제거하면 고해상도의 activation map을 얻게되나 receptive field의 size가 작기 때문에 영상의 전반적인 context를 파악하지 못하는 trade-off
-
그래서 일단은 작게 만들어서 receptive field를 최대한 키워 성능을 높이고 나중에 upsampling으로 강제로 해상도를 맞춰줌
data:image/s3,"s3://crabby-images/4acd4/4acd477e0011394bd656c823632988066c68b8f9" alt=""
-
Transposed convolution은 애매하게 일부분만 overlap(중첩)되는 문제가 생겼던 반면에, upsampling은 그런 중첩 문제가 없고 골고루 영향을 받게 만듬
-
Upsampling convolution은 upsampling operation을 2개로 분리
- Nearest-neighbor(NN), Bilinear 같은 interpoltaion을 먼저 적용
이땐 학습 가능한(learnable) parameter가 들어있지 않음
- 여기에 학습 가능한 learnable upsampling으로 만들어주기 위해 convolution layer를 적용
data:image/s3,"s3://crabby-images/a64b5/a64b54a14490dc1e8d6699918074e3f7459192cd" alt=""
- 위는 각 layer별로 activation map의 해상도와 의미에 대한 정보
- semantic segmentation에 필요한 것은 둘 모두(전체적인 정보+경계에 대한 detail)
data:image/s3,"s3://crabby-images/e78a2/e78a2e4b95bfbf23744997c0d03670526fce0ab3" alt=""
- 각 layer의 activation map을 concat해서 최종 output을 만들어서 각 class마다의 score를 출력
data:image/s3,"s3://crabby-images/1fd43/1fd431fe12bd7f279fa38a6a50c9157cd70ce956" alt=""
- 중간단계의 특징들을 합쳐서 쓰는 것이 도움이 되는 것을 볼 수 있음
HyperColumns for object segmentation
data:image/s3,"s3://crabby-images/0d04f/0d04ffa87324cd4e14f48b61350d38cc6fad9552" alt=""
- Hypercolumn at a pixel is a stacked vector of all CNN units on that pixel
- FCN과 마찬가지로 낮은 layer와 높은 layer의 특징을 해상도를 맞춰놓고 합쳐서 사용하는 것을 제시
- Fine localized information is extracted from earlier layers
- Coarse semantic information is extracted from latter layers
data:image/s3,"s3://crabby-images/34422/34422ee1c07e4a2123896eb123a31cd9343dea54" alt=""
U-Net
-
영상과 비슷한 size의 출력을 가지는 모델이나 object detection, segmentation 등 영상 전체가 아니라 일부분을 좀 더 자세하게 봐야되는 기술들은 U-Net에 기원을 둔게 많음
-
Fully convolutional
-
Skip connection으로 낮은 층의 feature와 높은 층의 feature를 결합하는 방법을 제시해서 더 정교한 segmentation을 구현
data:image/s3,"s3://crabby-images/9a7af/9a7affbea3a61ee5ec2b8067bfeb5efde6fd54c3" alt=""
- 낮은 layer에서 전달된 특징이 localized 된 정보를 준다
- 공간적으로 높은 해상도와 입력이 약간 바뀌는 것만으로 민감한 정보를 제공하기 때문에 경계선이나 공간적으로 중요한 정보들은 뒤쪽 layer에 바로 전달하는 중요한 역할을 한다
data:image/s3,"s3://crabby-images/f617c/f617c83bf6c1861b8099b8fbd9831439e6e51f35" alt=""
- Contracting path, encoding
- 입력 영상을 3개의 layer에서 convolution시키고 pooling을 통해 (receptive field를 크게 확보하기 위해서) 해상도를 낮추고 channel 수를 2배로 늘림(64->128)
- 이 과정을 몇 번 거쳐서 작은 activation map을 구하고 거기에 영상의 전반적인 정보가 잘 녹아있다고 가정
data:image/s3,"s3://crabby-images/a4aab/a4aab198fb0f5af4b664d903fa92068b5d5fc35b" alt=""
- Upsampling, expanding path, decoding
- Upsampling하는 대신에 단계적으로 activation map의 해상도와 channel size를 늘려줌
- Activation map의 해상도와 channel size는 contracting path에서부터 오는, 대칭되는 layer와 맞춰서 낮은 층에 있는 activation map을 합쳐서 사용할 수 있게 만들어줌
- Channel 수는 절반으로 줄어들면서 해상도는 늘어나는 구조
- 합치는건 concat을 사용
data:image/s3,"s3://crabby-images/f3708/f37082ab42899f762d3d61e1ac651a1b025db15a" alt=""
- Activation(feature) map의 해상도는 절반씩 줄고, 2배로 늘어남
- Channel 수는 2배씩 늘고, 절반으로 줄어듬
data:image/s3,"s3://crabby-images/612d1/612d1b979e9b38a0dadc39cb58f80eb7c9725288" alt=""
- U-Net에서는 downsampling과 upsampling이 굉장히 빈번하게 일어나기 때문에 feature map의 size는 항상 짝수여야한다는 특징이 존재
DeepLab
Segmentation에서 한 획을 그었던 논문
- CRF(Conditional Random Field)라는 후처리
- Atrous(Dilated) Convolution의 사용
CRF, conditional random field
data:image/s3,"s3://crabby-images/f9243/f92438e54c510ccd36e4b74d5ae87e45581be750" alt=""
-
Pixel간의 관계를 이어서 regular한 grid(pixel map)을 관찰
-
모든 NN model은 처음 NN을 하면 DCNN output과 같이 굉장히 blur한 output이 나오는 단점이 존재
-> 입력이 feeding 되고 나서 출력이 나오고, 그 출력을 다시 입력과 비교대조하는 feedback이 없는 feed-forward 구조이기 때문
-
이를 해결하기 위해 출력 score map과 이미지의 edge 같은 경계선을 뽑아 score map이 경계선에 잘 맞도록 확산을 시킴
-
반대로 background에 대한 score는 물체 경계까지 확산돼서 fore-background의 경계선을 굉장히 tight하게 만들어주는 알고리즘
Dilated Convolution
data:image/s3,"s3://crabby-images/70d4a/70d4ae23df3a67aa88675ed2045f56293d64fda1" alt=""
-
convolution 할 때 dilation factor만큼 일정 공간을 넣어줌
위에서는 weight 사이를 1칸씩 띄어서 parameter 수는 늘리지 않으면서 실제 convolution kernel보다 넓은 영역을 고려할 수 있게 만듬
-
Dilated Convolution을 반복 사용해서 receptive field가 exponential하게 증가하는 효과를 얻을 수 있다
data:image/s3,"s3://crabby-images/65327/653273199ab8e6b4654ae8975b99af103de68aff" alt=""
-
DeepLab v3에서는 semantic segmentation의 입력해상도가 워낙 크기 때문에 연산이 오래걸리는 것을 줄이기 위해 dilate convolution을 depth-wise convolution과 결합한 Astous Convolution을 사용
-
기존 convolution은 channel 전체에 걸쳐 내적을 했던 반면, astrous convolution은 depthwise-pointwise로 나눔
DeepLab v3+
data:image/s3,"s3://crabby-images/df6c9/df6c92a1ca3d0a2cba476c613121a3f5333803a5" alt=""
- 가장 최신 모델
- Encoder
- DCNN에서 dilated convolution으로 더 큰 receptive field를 갖는 CNN을 적용해서 feature map을 구함
- 그 후 Astrous spatial pyramid pooling을 통해 다양한 rate의 dilate conv를 통해 multi-scale을 처리
- 이렇게 구해진 다양한 feature map은 concat을 통해 1x1 conv시킴
- Decoder
- Low level feature를 구하고, pyramid pooling을 거친 feature를 upsampling한 결과를 concat으로 결합
- 다시 upsampling으로 최종 segmentation map을 추출
Reference
data:image/s3,"s3://crabby-images/fecc8/fecc8cf121d97bafde315d909a684379fc6e5d5a" alt=""