MobileNet 논문요약

bolim·2022년 1월 19일
0

Paper

목록 보기
3/8

MobileNet

link : https://arxiv.org/pdf/1704.04861.pdf

Introduce & Prior Work

  • 이전 연구들은 대부분 네트워크를 작게 만드는 것을 위주로 연구를 하였다. 이 논문은 efiiciency 관점에서 연구하였다.
  • 이 논문에서는 효과적인 네트워크 구조와 2개의 하이퍼파라미터로 latency가 매우 낮고 효율적인 mobile을 위한 모델을 만든다.

MobileNet Architecture

  • depthwise structure 기반으로 한다. → standard convolution에서 depthwize convolution이랑 1x1 convolution 으로 factorize한 컨볼루션

  • depthwise separable convolution은 1) filtering 과 2) combining(1x1 convolution)으로 2가지 층으로 나눈다. (기존 컨볼루션은 1층)

    → 이와 같은 factorization은 computation과 model size를 떨어뜨리는 효과를 준다.

스크린샷_2021-08-15_오후_5 15 35

standard convolution

스크린샷_2021-08-15_오후_6 49 38
  • standard convolution computational cost :

    DKDKMNDFDFD_K * D_K * M * N * D_F * D_F ( M : input channels, N : ouput channels, K : kernel )

    → M개의 input channels가 있고, D_K x D_K 크기의 커널 사이즈를 가지고 N개의 output channels과 D_F x D_F 피처맵을 내는 연산량

  • Depthwise separable convolition은 output 채널과 커널 사이즈와의 상호작용을 막기위해서 그리고 충분한 계산감소를 위해 사용

Depthwise separable convolution

스크린샷_2021-08-15_오후_6 51 10
  • 2 layers : 1. depthwise convolution(filtering), 2. pointwise convolutions(combining)

  • input 채널마다 하나의 필터

  • depthwise convolution computational cost :

    DKDKMDFDFD_K * D_K * M * D_F * D_F ← pointwise conv. 제외

    DKDKMDFDF+MNDFDFD_K * D_K * M * D_F * D_F + M * N * D_F * D_F ← 포함

Network Structure and Training

스크린샷_2021-08-16_오전_9 27 05
  • 마지막 층을 제외한, 모든 층은 batchnorm, ReLU가 있다. 마지막층은 분류를 해야하니까 softmax(no nonlinearity)
스크린샷_2021-08-16_오전_9 37 52
  • mobileNet에서 계산은 거의 1x1 conv.의 비중이 크다.(계산 시간의 95%, 파라미터는 75% 차지)
스크린샷_2021-08-16_오전_10 10 23
  • 작은 모델은 오버피팅할 가능성이 적기 때문에 정규화나 데이터를 불리기를 덜 해도 괜찮다.(no weight decay)

Width Multiplier: Thinner Models

  • α : width multiplier → 네트워크를 균일하게 얇게 하는 역할
  • M, N → αM, αN ( α가 1보다 작아야 감소)

Resolution Multiplier: Reduced Representation

  • ρ : resolution multiplier
  • D_F → ρD_F

α, ρ 모두 포함하는 cost

DKDKαMρDFρDF+αMαNρDFρDFD_K * D_K * αM *ρ D_F *ρ D_F + αM * αN *ρ D_F *ρ D_F

  • 계산과 파라미터 감소

Experiments

스크린샷_2021-08-16_오후_1 10 23
  • full conv. 와 depthwise separable conv.로만 비교하면 1% accuracy 감소, 파라미터와 계산이 많이 감소

Conclusion

  • depthwise separable convolutions이 기반인 MobilNets롤 보여주었다.
  • 특히 2가지의 파라미터( width multiplier, resolution multiplier )의 트레이드오프로 더 작고 빠른 효율적인 모델을 만들 수 있다.
profile
나는야 호기심 많은 느림보🤖

0개의 댓글