๐ย ์ด SSM ์๋ฆฌ์ฆ๋ State-space model์ ๋ํ survey๋ฅผ ์งํํ๊ธฐ ์ํด์ Albert Gu์ ๋
ผ๋ฌธ๋ค์ HiPPO๋ถํฐ ์ต๊ทผ์ MAMBA๊น์ง ๋ฆฌ๋ทฐํฉ๋๋ค. ๊ฐ ๋
ผ๋ฌธ์ SSM๊ณผ ๊ด๋ จ๋ ๋ถ๋ถ์ ๋ํด์ ๊น์ด ์๊ฒ ์ ๋ฆฌํ ์์ ์ด๋ฉฐ, SSM๊ณผ ๊ด๋ จ์ด ์ ์ ๋ถ๋ถ๋ค์ ๊ฐ๋จํ๊ฒ ์ ๋ฆฌ๋๋ ์ ์ฐธ๊ณ ๋ถํ๋๋ฆฝ๋๋ค.
Motivation & Contributions
- HiPPO : ๋๋์ ๋์ ๋ฐ์ดํฐ๋ฅผ polynomial bases์ projectionํ๋ ๊ฒ.
- measures : ๊ณผ๊ฑฐ ์์ ์ ์ค์์ฑ์ ์ง์ ํ๋ ์ฒ๋
- HiPPO๋ measures๋ฅผ ์ด์ฉํด์ ์ต์ ์ function approximation๋ฅผ ํผ๋ค.
- ํน์ํ ๊ฒฝ์ฐ๋ก, HiPPO๋ GRU์ ์ผ๋ฐํ์ด๋ค. (์ด๋ SSM ๋ชจ๋ธ์ ๊ณตํต์ ์ธ ํน์ง์ด๋ค. )
๊ธฐ์กด์ sequential forecasting ์์์ ํ๊ณ์
- ๊ธฐ์กด์ ์๊ณ์ด ์์ธก ๋ฐฉ๋ฒ์ ์ผ๋ฐ์ ์ผ๋ก sequence length๋ time scale์ ๋ํ prior๊ฐ ํ์ํ๋ฉฐ ์ด ๋ฒ์๋ฅผ ๋ฒ์ด๋๋ฉด ํจ๊ณผ์ ์ด์ง ์๋ค. ์ด๋ distribution shift๊ฐ ์๋ ์ค์ ์์๋ ๋ฌธ์ ๊ฐ ๋ ์ ์๋ค.
โ ๋๋ค์์ ๋ชจ๋ธ๋ค์ long-term dependency๋ฅผ ์ ํฌ์ฐฉํ๋์ง์ ๋ํ ์ด๋ก ์ ๋ณด์ฅ์ด ๋ถ์กฑํจ.
- ์ด๋ฌํ ๋ฌธ์ ์ ์ ํด๊ฒฐํ๊ธฐ์ํด์ HiPPO์์๋ ๊ธฐ์กด ๋ฐฉ๋ฒ๋ค์ ๋ํ ํตํฉ๋ ๊ด์ ์ ๊ฐ์ง๊ณ , time scale์ ๋ํ prior ์์ด ๋ชจ๋ ๊ธธ์ด์ dependencies๋ฅผ ํด๊ฒฐํ ์ ์์ผ๋ฉฐ, ํด๋น ๋ฐฉ๋ฒ์ ๋ํ ์ด๋ก ์ ๋ณด์ฅ์ด ๊ฐ๋ฅํจ.
โ ํตํฉ๋ ๊ด์ : SSM์ recurrent model, Temporal convolution differential equation model์ ์ผ๋ฐํ์ด๋ค. (์ด๋ฐ ํตํฉ๋ ๊ด์ ์ผ๋ก์ ํด์์ ํ์์ฐ๊ตฌ์ธ LSSL์์ ์์ธํ๊ฒ ์ค๋ช
๋์ด์์.)
Methods
- ๋์ ๋๋ ๋ฐ์ดํฐ๋ฅผ polynomial basis์ projection ํ๊ธฐ ์ํด์๋
- a way to quantify the approximation
- suitable subspace( projection it onto a subspace of bounded dimension.)
- HiPPO builds upon a rich history of the well-studied orthogonal polynomial and related transforms in the signal processing literature.
์ ์ 1์ ๋ฐ๋ฅธ HiPPO์ ์ค๋ช
HiPPO๋ ์ฐ์ ํจ์ f:Rโฅ0โR์ด ์ฃผ์ด์ก์ ๋ (ground-truth)๋ฅผ ๋ชจ๋ ์๊ฐ t์ ๋ํด ํฌ์ ์ฐ์ฐ์ proj(t)์ ๊ณ์ ์ถ์ถ ์ฐ์ฐ์ coef(t)๋ฅผ ์ ์ํฉ๋๋ค. ์ฌ๊ธฐ์ proj(t)๋ ์๊ฐ t๊น์ง์ ํจ์ f๋ฅผ ๋คํญ์ g(t)โG๋ก ๋งคํํ์ฌ ๊ทผ์ฌ ์ค๋ฅ โfโคtโg(t)โL2(ฮผ(t))๋ฅผ ์ต์ํํ๊ณ , coeff๋ ๋คํญ์ g(t)๋ฅผ ฮผ(t)์ ๋ํด ์ ์๋ ์ง๊ต ๋คํญ์์ ๊ธฐ์ ๊ณ์ c(t)โRN์ผ๋ก ๋งคํํฉ๋๋ค. ์ด๋ ํจ์๋ฅผ ์๊ฐ์ ๋ฐ๋ผ ๋ณํํ๋ ์ธก์ ์ ๊ธฐ๋ฐํ ์ง๊ต ๋คํญ์์ผ๋ก ๊ทผ์ฌํ๋ ๋ฐฉ๋ฒ๋ก ์ ์ ๊ณตํฉ๋๋ค.
(hippo(f))(t)=coeftโ(projtโ(f))
์ ๋ฐ์ ์ผ๋ก HiPPO์์๋ OP๋ก๋ถํฐ basis๋ฅผ ๊ณ์ฐํ๋ค.
์ด๋ค OP๋ฅผ ์ ํํ๋์ง์ ๋ฐ๋ผ์ ๊ทผ์ฌ๋๋ ํจ์๊ฐ ๋ค๋ฅผ ๊ฒ.
์ ๋ฆฌ
- HiPPO: Recurrent Memory with Optimal Polynomial Projections
- ์ ํํ ์ฉ๋์ ๋ฌธ์ ๋ก ๋์ ๋ ๋ฐ์ดํฐ๋ก representation์ ์์ฑํ๊ธฐ ํ๋ค๋ค.
- HiPPO๋ continuous signal๊ณผ discrete time-series๋ฅผ polynomial basis ์์ projectionํจ์ผ๋ก์จ online ์์ถ์ ํ ์ ์๋ framework.
- ๊ณผ๊ฑฐ์ ๊ฐ ์์ ์ ์ค์์ฑ์ ์ง์ ํ๋ observation์ด ์ฃผ์ด์ง๋ฉด, HiPPO๋ ์์ฐ์ค๋ฌ์ด online function approximation ๋ฌธ์ ์ ๋ํ optimal solution์ ๋ง๋ ๋ค.
- GRU์ ๊ฐ์ recurrent network์ gating mechanism์ ์ผ๋ฐํ์ด๋ค.
- ์์ฒญ๋ continuous series data n-dimensional polynomial๋ก ์ ์.
HiPPO ๋
ผ๋ฌธ์ ์๋ง์ ๋ฐ์ดํฐ, long-sequence data๋ฅผ g(t)๋ก ์ถ์ฝํ๋ค. g(t)๋ก ์ถ์ฝํ๊ธฐ ์ํด์ orthogonal polynomial์ ์ฌ์ฉํ๋ค. ์ด orthogonal polynomial์ ๊ฐ ํญ ์์์ ๋ค์ด๊ฐ๋ ๊ณ์ c(t)๋ฅผ ๊ณ์ฐํ๋ ๊ฒ์ด ์ด ๋
ผ๋ฌธ์ ์ฃผ์ contribution์ด๋ค.
Appendix๋ฅผ ๋ณด๋ฉด, ์ด ๋
ผ๋ฌธ์์๋ ์ผ๋ จ์ ์ฆ๋ช
๊ณผ์ ์ ํตํด Orthogonal polynomial์ ๊ณ์์ ๋ฏธ๋ถ๊ฐ์ด ์๋์ ๊ฐ์ ์์์ผ๋ก ์ ๋ฆฌ๋จ์ ์ฆ๋ช
ํ๋ค.
dtdc(t)โ=A(t)c(t)+B(t)f(t)
๋ณต์กํ orthogonal polynomial ๋ก์ ๊ทผ์ฌ๋ฅผ ์์ ์๊ณผ ๊ฐ์ด ๊ฐ๋จํ ์์์ผ๋ก ์ ๋ฆฌํ๋ ๊ฒ์ ์์ฒญ๋ contribution
(์ฆ๋ช
๊ณผ์ ์ ์๋ต )์ด ๋๋ฉฐ, ํ์ ์ฐ๊ตฌ๋ค์ธ LSSL, S4, MAMBA๊น์ง ์ด์ด์ง๋ค.
์ฌ๊ธฐ์, A,B๋ ํ์ต๊ฐ๋ฅํ์ง ์๋ค.
Legendre orthogonal polynomial๋ฑ์ ํ๋ฉด์ A,B๋ฑ์ ๊ทผ์ฌํด์ ์ฌ์ฉํจ.