일단 간략하게, Mamba까지의 과정(sequentual model)을 보면 :
RNN: sequential data를 처리를 위한 neural netLSTM: vanilla RNN의 vanishing gradient 문제해결을 위한 gating mechanism 도입Transformer(Attention): 전체 데이터를 한번에 training, 계산비용이 높음SSM & S4: fixed learned matrices를 이용 -> training, inference 가속, transformer에 비해 메모리 사용량이 줄어듦 -> LRDs(long range dependencies) 문제 해결에 강점Mamba(S6): input dependency의 부족으로 인한 SSM 한계를 학습 matrices를 input-dependent하게 바꾸는 것으로 해결, GPU를 효율적으로 사용(참고 blog :Shallow Dive into RNN, Transformers, SSM, S4, and Mamba)
현재, (아마도?) Transformer architecture를 대체할 만한 모델로 유일하게 SSM-based model이 거론되고 있는 것으로 알고있다.
Transformer의 등장이 아래와 같은 과정을 거쳤듯이 :
RNN encoder-decoder: Learning Phrase Representations using RNN Encoder–Decoder for Statistical Machine TranslationSeq2seq: Sequence to Sequence with Neural NetworkAttention mechanism: NEURAL MACHINE TRANSLATIONTransformer: Attention Is All You Need이 중 S4를 먼저 들고 하나하나 뜯어보며 Mamba까지 가보려고 한다.
