ResMLP

Treeboy·2023년 2월 16일

Image classification 을 MLP로 할 수 있다?

간단한 네트워크 구조인데, 패치가 서로 상호작용하는 linear layer 과, 채널 사이의 상호작용 없는 two-layer feed forward network 가 있다고 한다.

ViT를 더욱 간소화한 구조라고 한다.

Self attention 을 linear layer 로 바꿈. 즉, 아키텍쳐가 linear layer과 GELU non-linearity 로만 구성되어 있음.

훈련이 더욱 안정적이라고 한다. 특히, 정규화가 필요 없다고 하며, 이는 self-attention 을 linear layer 로 바꾼 결과라고 주장한다.

Linear layer 덕에 visualization 이 쉬워지는데, lower layer 에서는 convolution, final layer 에서는 long range 를 볼 수 있다고 한다.

Architecture

NxN non-overlapping patch (16x16) 을 N^2 d-dimensional embedding space 로 보내고 Residual Multi-Layer Perceptron layers 를 통과시킴. 결과 임베딩은 average pooling 을 통해 이미지를 나타내게 됨.

이 임베딩에 fc 붙이면 classifier 된다 이말이야.

Layer normalization 을 affine transformation 으로 바꿨다고? 뭔소린진 모르겠지만 일단 ok

Aff_{\alpha,\beta}(x)=Diag(\alpha)x+\beta

Inference time cost 가 없음
Batch statistic 에 의존하지 않음

Layerscale 이랑 비슷하다고 언급함

이렇게 하면 linear layer 이 positional embedding 을 implicit 하게 수행할 수 있다고 하지만, 근거가 있는지는 의문.

Treeboy

이전 포스트

Git push permission 오류

다음 포스트

ResMLP

Architecture

Git push permission 오류

혁펜하임 AI Deep Dive 7주차 노트

0개의 댓글

관련 채용 정보