https://arxiv.org/abs/2407.08083
Mamba는 선형 시간 복잡성을 가진 새로운 State Space Model (SSM)을 제안
효율적인 Input dependant selection 메커니즘으로 긴 시퀀스를 처리
Mamba in Vision Tasks
Vision Mamba (Vim)
Proposed Hybrid Architecture
MambaVision Model
1D sequence Input을 변환하여 학습 가능한 hidden state로 변환
Sequence parameter A, B, C는 계산 효율성을 위해 Discrete parameter로 변환
Discrete parameter를 사용한 새로운 식
크기가 T인 Input sequence의 경우, Kernel K를 사용한 Global convolution 적용
Sequence length 와 Embedding dimension 를 갖는 Input 를 가정할 때, 3단계와 4단계에서 레이어 의 출력은 다음과 같이 계산 가능
Norm과 Mixer는 각각 Layer normalization과 Token mixing 블록의 Selection을 나타냄
일반적으로 Layer normalization은 Norm으로 사용됨
레이어가 주어졌을 때, 처음 레이어는 MambaVision mixer 블록을 사용하며 나머지 레이어는 Self-attention을 사용