A Survey on Visual Mamba

김윤서·2024년 5월 28일

reveiw

2. Formulation of Mamba

2.1 State Space Models(SSMs)

2.2 Other Key Concepts in Mamba

3. Mamba for Vision

3.1 Visual Mamba Block

ViM
VSS(The Visual State Space block)

3.2 Pure Mamba

ViM-based(Vision Mamba)
VSS-based(VMamba)

3.3 Mamba with other Architectures

Mamba와 다른 기술을 합쳐서 사용할 수 있는 것을 알아보자.

3.3.1. Mamba with Convolution

Res-VMamba: Fine-Grained Food Category Visual Classification Using Selective State Space Models with Deep Residual Learning

Mamba와 합성곱을 결합하기 위해 Mamba는 local information을 얻을 수 있는 능력을 도입한다.
RES-VMAMBA는 VMamba 모델 내에 residual learning framework를 도입함. -> 원래 VMamba 구조에 내재된 글로벌 및 로컬 상태 기능을 동시에 활용가능
-> 이 구조는 입력 이미지를 처리하는 스템모듈 이후에, 4개의 독립적인 단계에 걸쳐 일련의 VSS블록이 순차적으로 배열됨.

-> VMamba 구조를 백본으로 채택하고, 원시 데이터를 직접 특성 맵에 통합한다. (이 통합이 global residual mechanism이고, VSS 블록의 residual 구조와 구별한다)

-> 이통합은 개별 VSS 블록에 의해 포착된 지역적 세부 사항과 처리되지 않은 입력에 내재된 포괄적인 글로벌 기능을 공유하도록 하여, 모델의 표현 능력을 향상시키고, 시각적 데이터의 종합적인 이해가 필요한 작업에서 성능을 개선하려는 목적을 가진다.

ResNet에서 영감을 받음

3.3.2 Mamba with Recurrence

VMRNN: Integrating Vision Mamba and LSTM for Efficient and Accurate
Spatiotemporal Forecasting

Mamba 블록의 장기 시퀀스 모델링 능력과 LSTM의 시공간 표현 능력을 활용하기 위해, VMRNN셀은 ConvLSTM의 모든 가중치와 편향을 제거하고 VSS블록을 사용하여 수직으로 공간적 종속성을 학습한다.

VMRNN 셀을 기반으로 두 가지 변형이 제안된다. -> VMRNN-B와 VMRNN-D 이다.

VMRNN-B

주로 VMRNN 레이어르 쌓는 것에 의존.

VMRNN-D

더 많은 VMRNN셀을 통합하고 패치 병합 및 패치 확장 레이어를 도입한다.
패치 병합 레이어는 다운 샘플링을 담당하여 데이터의 공간적 차원을 효과적으로 줄임. 이는 계산 복잡성을 감소시키고, 더 추상적이고 글로벌한 특징을 포작하는 데 도움을 준다.
패치 확장 레이어는 업 샘플링에 사용되거, 공간적 차원을 증가시켜 디테일을 복원하고 재구성 단계에서 특징의 정밀한 위치를 가능하게 한다.

-> 재구성 레이어는 VMRNN 레이어의 숨겨진 상태를 입력 크기로 다시 조정하여 다음 시점에 대한 예측 프레임을 생성한다.
-> 다운샘플링 및 업샘플링 과정을 통합하면 상당한 이점을 가짐.
-> 다운샘플링은 입력 표현을 단순화하여 모델이 더 높은 수준의 특징을 처리할 수 있게하고, 이는 계산량을 줄임. 특히, 데이터 내의 복잡한 패턴과 관계를 더 추상적으로 이해하는 데 유리함.

3.3.3 Mamba with Attention

State Space Models for Event Cameras
SSM-ViT 블록은 세가지 블록으로 구성됨.
1. 셀프 어텐션 블록 (Block-SA) : 즉각적인 공간적 관계에 중점을 두어 근처 특징의 세부 표현 제공
2. 확장 어텐션 블록(Grid-SA) : 전체적인 관점을 제공하여 포괄적인 공간적 관계와 전체 입력 구조를 포착
3. SSM 블록 : 연속적인 시간 단계 간의 일관성과 부드러운 정보 전환을 보장

SSM과 self-attention을 통합함으로써 SSM-ViT 블록은 더 빠른 학습과 시간 집계를 위한 매개변수 조정이 가능하다.