시리즈 시작 전에

changwoo·2024년 2월 19일

Do We Need Attention?

목록 보기
1/3

Overview


일단 간략하게, Mamba까지의 과정(sequentual model)을 보면 :

  • RNN : sequential data를 처리를 위한 neural net
  • LSTM : vanilla RNN의 vanishing gradient 문제해결을 위한 gating mechanism 도입
  • Transformer(Attention) : 전체 데이터를 한번에 training, 계산비용이 높음
  • SSM & S4 : fixed learned matrices를 이용 -> training, inference 가속, transformer에 비해 메모리 사용량이 줄어듦 -> LRDs(long range dependencies) 문제 해결에 강점
  • Mamba(S6) : input dependency의 부족으로 인한 SSM 한계를 학습 matrices를 input-dependent하게 바꾸는 것으로 해결, GPU를 효율적으로 사용

(참고 blog :Shallow Dive into RNN, Transformers, SSM, S4, and Mamba)

현재, (아마도?) Transformer architecture를 대체할 만한 모델로 유일하게 SSM-based model이 거론되고 있는 것으로 알고있다.

Transformer의 등장이 아래와 같은 과정을 거쳤듯이 :

Albert Gu쌤의 State Space Model 4부작 :

  1. HiPPO : Recurrent Memory with Optimal Polynomial Projections
  2. LSSL: Combining Recurrent, Convolutional, and Continuous-time Models with Linear State-Space Layers
  3. S4: Efficiently Modeling Long Sequences with Structure State Spaces
  4. Mamba: Linear-Time Sequence Modeling with Selective State Spaces

이 중 S4를 먼저 들고 하나하나 뜯어보며 Mamba까지 가보려고 한다.

0개의 댓글