시리즈 시작 전에

changwoo·2024년 2월 19일

Do We Need Attention?

목록 보기

1/3

Overview

일단 간략하게, Mamba까지의 과정(sequentual model)을 보면 :

RNN : sequential data를 처리를 위한 neural net

LSTM : vanilla RNN의 vanishing gradient 문제해결을 위한 gating mechanism 도입

Transformer(Attention) : 전체 데이터를 한번에 training, 계산비용이 높음

SSM & S4 : fixed learned matrices를 이용 -> training, inference 가속, transformer에 비해 메모리 사용량이 줄어듦 -> LRDs(long range dependencies) 문제 해결에 강점

Mamba(S6) : input dependency의 부족으로 인한 SSM 한계를 학습 matrices를 input-dependent하게 바꾸는 것으로 해결, GPU를 효율적으로 사용

(참고 blog :Shallow Dive into RNN, Transformers, SSM, S4, and Mamba)

현재, (아마도?) Transformer architecture를 대체할 만한 모델로 유일하게 SSM-based model이 거론되고 있는 것으로 알고있다.

Transformer의 등장이 아래와 같은 과정을 거쳤듯이 :

RNN encoder-decoder: Learning Phrase Representations using RNN Encoder–Decoder for Statistical Machine Translation
Seq2seq: Sequence to Sequence with Neural Network
Attention mechanism: NEURAL MACHINE TRANSLATION
BY JOINTLY LEARNING TO ALIGN AND TRANSLATE
Transformer: Attention Is All You Need

Albert Gu쌤의 State Space Model 4부작 :

HiPPO : Recurrent Memory with Optimal Polynomial Projections

LSSL: Combining Recurrent, Convolutional, and Continuous-time Models with Linear State-Space Layers

S4: Efficiently Modeling Long Sequences with Structure State Spaces

Mamba: Linear-Time Sequence Modeling with Selective State Spaces

이 중 S4를 먼저 들고 하나하나 뜯어보며 Mamba까지 가보려고 한다.

changwoo

다음 포스트

시리즈 시작 전에

Do We Need Attention?

Overview

Albert Gu쌤의 State Space Model 4부작 :

SSM-related papers

0개의 댓글