ResMLP

Treeboy·2023년 2월 16일
0

Image classification 을 MLP로 할 수 있다?

간단한 네트워크 구조인데, 패치가 서로 상호작용하는 linear layer 과, 채널 사이의 상호작용 없는 two-layer feed forward network 가 있다고 한다.

ViT를 더욱 간소화한 구조라고 한다.

  • Self attention 을 linear layer 로 바꿈. 즉, 아키텍쳐가 linear layer과 GELU non-linearity 로만 구성되어 있음.

훈련이 더욱 안정적이라고 한다. 특히, 정규화가 필요 없다고 하며, 이는 self-attention 을 linear layer 로 바꾼 결과라고 주장한다.

Linear layer 덕에 visualization 이 쉬워지는데, lower layer 에서는 convolution, final layer 에서는 long range 를 볼 수 있다고 한다.

Architecture

NxN non-overlapping patch (16x16) 을 N^2 d-dimensional embedding space 로 보내고 Residual Multi-Layer Perceptron layers 를 통과시킴. 결과 임베딩은 average pooling 을 통해 이미지를 나타내게 됨.

이 임베딩에 fc 붙이면 classifier 된다 이말이야.

Layer normalization 을 affine transformation 으로 바꿨다고? 뭔소린진 모르겠지만 일단 ok

Affα,β(x)=Diag(α)x+βAff_{\alpha,\beta}(x)=Diag(\alpha)x+\beta
  • Inference time cost 가 없음
  • Batch statistic 에 의존하지 않음

Layerscale 이랑 비슷하다고 언급함

이렇게 하면 linear layer 이 positional embedding 을 implicit 하게 수행할 수 있다고 하지만, 근거가 있는지는 의문.

0개의 댓글