Receptive field를 확장시킨 model
DeepLab v2

-
ASPP(Atrous Spatial Pyramid Pooling)
다양한 rate의 dilated conv 사용해서 더한 것
-
ResNet101 backbone 사용

bottle neck 구조의 conv block이 연속되어있는 형태
skip connection 사용
-
성능비교
VGG 16 : 64.89
ResNet101 : 69.2
ResNet101 + ASPP : 70.4
ResNet101 + ASPP + CRF : 71.4
backbone 변경 영향이 젤크고 그다음이 ASPP

PSPNet
FCN의 문제점
- MismatchedRelationship
주변물체와 어울리지않는 물체로 예측
- ConfusionCategories
분류가 비슷한 카테고리
- InconspicuousClasses
배경과 비슷한 물체

위의 문제점 모두 전체적인 맥락을 보지 못하는 것임.
FCN도 maxpooling을 사용했지만 이론적인 rf와 실제 rf는 차이가 있음
Pyramid pooling module

다양한 크기의 average pooling 적용 후 concat하여 receptive field를 넓힘
(concat 할때 크기가 다른 것은 upsampling을 통해 맞춰줌)
성능

DeepLab v3


- ASPP
- 1x1 conv
- 이전 v2에서 ASPP에서보다 rate 종류가 1개 적어짐
DeepLab v3+

- 수정된 Xception backbone
- encoder의 low level feature를 decoder에 넘겨줌
- Atrous separable convolution을 적용한 ASPP모듈 사용
Depthwise conv + Pointwise conv
채널이 여러개면 필터의 채널도 여러개로 해서 한꺼번에 계산하는 것이 아니라 채널별로 따로 conv하고(depthwise) 각 채녈합친후 1x1 conv를 한다(pointwise)


- 바로 upsampling하는대신 4배 -> 4배 두번에 걸쳐서 점진적인 upsampling

down sampling 과정과 upsampling 과정 둘 다 좀더 점진적으로
model 구조

- input : 512x512
- backbone에서 나온 low-level features는 128x128
- ASPP에서 나온 map은 32x32 -> upsample x4
- 위의 둘을 concat
- upsample x4
DeepLab v1부터 DeepLab v3+까지 정리
KEWORDS
- receptive field
- dilated conv
- DeepLab - ASPP
- PSPNet - Pyramid pooling module
- Atrous separable convolution