

key, query, value에 대한 Mapping으로 정의할 수 있음
이를 dynamic system of dimension N=nd로 정의하면 아래와 같이 정의할 수 있음
linear attention이라면 각 mapping이 linear하게 정의됨
softmax라면 infinite dimensional 하게 정의됨 (softmax의 차원이 무한하므로) ⇒ 근사해서 finite dimension에서 관리하게됨→ seperable attention으로 정의가 가능함
S6
Delta_i 는 우리가 알고 있는 step size, learnable with input
b_i, c_i 역시 input-dependent한 state로 정의, B_i는 여기에 더불어 delta에 따라 변화함
기존 식에 적용하면 우리가 알고 있는 mamba 모델로 정의됨
또한 여기서 Lambda_i 는 만약 SSD처럼 아키텍처를 가지고 있다면 reversed sigmoid로 정리될 수 있음! → elementwise
qLSTM : input processing의 tanh를 제거하고 다시 작성하면 아래와 같이 작성할 수 있음
hidden dimension은 input channel의 수와 같음 (즉 차원이 nd 일 때 n=1인 경우)
RG-LRU : SSM과 유사한 형태로 정의됨. state expansion은 정의하지 않으므로 n=1 (state expansion : n > 1)
attention은 multihead로 바꿀 시 헤드 개수에 따라 파라미터가 증가하며 성능 향상에 도움이 되나 S6은 그런 경향성이 미미한 것으로 보인다.
따라서 S6에는 recursive structure가 더 중요한 역할을 하거나 eta에서의 정규화 파라미터 영향이 더 클 수 있따. 따라서 SSD, Linear attention, normalized attention 을 비교한다.
normalized attention ← mamba에서 영감을 받아서 각 요소마다 다르게 normalize 할 수 있도록 파라미터를 추가
결과를 보면 softmax가 제일 좋은데 SSD도 좋은 성능을 보이는걸 볼 수 있음!