Image classification 을 MLP로 할 수 있다?
간단한 네트워크 구조인데, 패치가 서로 상호작용하는 linear layer 과, 채널 사이의 상호작용 없는 two-layer feed forward network 가 있다고 한다.
ViT를 더욱 간소화한 구조라고 한다.
훈련이 더욱 안정적이라고 한다. 특히, 정규화가 필요 없다고 하며, 이는 self-attention 을 linear layer 로 바꾼 결과라고 주장한다.
Linear layer 덕에 visualization 이 쉬워지는데, lower layer 에서는 convolution, final layer 에서는 long range 를 볼 수 있다고 한다.
NxN non-overlapping patch (16x16) 을 N^2 d-dimensional embedding space 로 보내고 Residual Multi-Layer Perceptron layers 를 통과시킴. 결과 임베딩은 average pooling 을 통해 이미지를 나타내게 됨.
이 임베딩에 fc 붙이면 classifier 된다 이말이야.
Layer normalization 을 affine transformation 으로 바꿨다고? 뭔소린진 모르겠지만 일단 ok
Layerscale 이랑 비슷하다고 언급함
이렇게 하면 linear layer 이 positional embedding 을 implicit 하게 수행할 수 있다고 하지만, 근거가 있는지는 의문.