Anomaly Dectection์ ์์ฆ์ ์ข ์์๋ณด๋ฉด์, Time Series Forecasting ๋ถ์ผ๋ฅผ ๊ณ์ ์ ํ ์ ๋ฐ์ ์์๊ณ , Transformer์ sequence ์ ์ธ ํน์ง์ TSF์ ์ฌ์ฉํ ์์๊ฐ ์์๊น ํ์ฌ์ ์ด๋ ๊ฒ ์ฐพ์๋ณด๋ ์ค ์ข์ ๋
ผ๋ฌธ์ ์ฐพ๊ฒ ๋์๋ค.
๋๋๊ฒ๋,,, ์ด ๋
ผ๋ฌธ์ ์ ๋ช
ํ ๋ชจ๋ธ์ธ Transformer๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํ๋ ๋ชจ๋ธ๋ค์ด ์๊ณ์ด ์์ธก์ ์์ด์ ๊ณผ์ฐ ํจ๊ณผ์ ์ธ์ง ์๋ฌธ์ ๊ฐ์ง๊ณ ๊ฐ๋จํ ๊ตฌ์กฐ์ ๋ชจ๋ธ๊ณผ ๋น๊ตํ๋ฉฐ transformers๊ฐ ์๊ฐ ์ ๋ณด๋ฅผ ํ์ตํ์ง ๋ชปํจ์ ์ฆ๋ช
ํ๋ ๋
ผ๋ฌธ์ด๋ค...
์ฒ์ ์ด ๋
ผ๋ฌธ์ ์ฝ๋ ๋ถ๋ค์ด๋ผ๋ฉด ์ ํ๋ธ ์ฑ๋์ ๋จผ์ ๋ค์ด๊ฐ์ ์ด ๋
ผ๋ฌธ์ ๋ํด์ ํ ๋ฒ ๋จผ์ ๋ค์ด๋ณด๊ธธ ๋ฐ๋๋ค.
[์ํฉ]
[๊ฐ์ค๊ณผ ์คํ]
[์คํ ๊ฒฐ๊ณผ]
TSF๋ฅผ ์ํ Transformer ๋ชจ๋ธ ์ฐ๊ตฌ๋ ๋ง์ง๋ง,,, ์๋ฌธ์ด ๋ง๊ณ , ์ฑ๋ฅ๊ณผ ์ง๊ฒฐ๋์ง๋ ์๋๋ค๋ ํ์ด ๋ง์...
[Transformer?]
Transformer๋ NLP, speech recognition, computer vision ๋ฑ์ ๋ถ์ผ์์ ๊ฐ์ฅ ์ฑ๊ณต์ ์ธ sequence-modeling ์ํคํ ์ฒ
์ต๊ทผ์๋ ์๊ณ์ด ๋ถ์์๋ Transformer ๊ธฐ๋ฐ ์๋ฃจ์
๋ค์ด ๋ง์ด ์ฐ๊ตฌ๋์์
(Ex.) LongTrans
, Informer
, Autoformer
, Pyraformer
, FED-former
๋ฑ์ด LTSF ๋ฌธ์ ์์ ์ฃผ๋ชฉํ ๋งํ ๋ชจ๋ธ
Transformer ์ ๊ฐ์ฅ ์ฃผ์ํ ๋ถ๋ถ : multi-head self-attention (long sequence์ ์์๋ค ๊ฐ์ semantic correlations ์ ํจ๊ณผ์ ์ผ๋ก ์ถ์ถ)
โจ self-attention
์ ํน์ง
1) permutation-invariant (์
๋ ฅ ๋ฒกํฐ ์์์ ์์์ ์๊ด์์ด ๊ฐ์ ์ถ๋ ฅ์ ์์ฑ)
2) anti-order ํ์ฌ temporal information loss๋ฅผ ํผํ ์ ์์
๋ค์ํ positional encoding
์ ์ฌ์ฉํ๋ฉด ๋ช๋ช ordering information ์ ๋ณด์กดํ ์ ์์ง๋ง, ๊ทธ ์ดํ self-attention์ ์ ์ฉํ๋ฉด ์ด ๋ํ ์์ค์ ํผํ ์ ์์
๐ค ๋จ์ด์ ์์๋ฅผ ๋ฐ๊พธ๋๋ผ๋ ๋ฌธ์ฅ์ ์๋ฏธ๋ก ์ ์๋ฏธ๋ ๋๋ถ๋ถ ์ ์ง๋๋ NLP์ ๊ฐ์ ๊ฒฝ์ฐ ์์ ๋ฌธ์ ๋ฅผ ํน์ง์ด ํฌ๊ฒ ์๊ด์์ผ๋.. TSF์์ ๋ฌธ์ ๊ฐ ๋จ...
๊ทธ๋ ๋ค๋ฉด ,,,
Are Transformers really effective for long-term time series forecasting?
[์๊ณ์ด ๋ฐ์ดํฐ์ ํต์ฌ, ์์]
[์คํ ์ ์ค๋ฅ ์ ์]
[์คํ ๋ด์ฉ]
โ ๋ณธ ๋
ผ๋ฌธ์์ ์ค์ ์ฑ๋ฅ์ ํ์ธํ๊ธฐ์ํด Direct Multi-Step(DMS) forecasting ๊ณผ ๋น๊ต
๊ฐ์ค
: ์ฅ๊ธฐ ์์ธก์ ๋ฌผ๋ก , ๋ชจ๋ ์๊ณ์ด์ ์์ธกํ ์ ์๋ ๊ฒ์ ์๋๊ธฐ ๋๋ฌธ์ ๋น๊ต์ ๋ช
ํํ ์ถ์ธ(trend) ์ ์ฃผ๊ธฐ์ฑ(periodicity) ์ ๊ฐ์ง ์๊ณ์ด์ ๋ํด์๋ง ์ฅ๊ธฐ ์์ธก์ด ๊ฐ๋ฅํ๋ค์๋ก์ด ๋ชจ๋ธ ์ ์
: ์ ํ ๋ชจ๋ธ์ ์ด๋ฏธ ์ด๋ฌํ ์ ๋ณด๋ฅผ ์ถ์ถํ ์ ์๊ธฐ ๋๋ฌธ์, ๋ณธ ๋
ผ๋ฌธ์์ ๋งค์ฐ ๊ฐ๋จํ LTSF-Linear ๋ชจ๋ธ
์ ์๋ก์ด ๋น๊ต์ ๊ธฐ์ค์ผ๋ก ์ ์LTSF-Linear ๋ชจ๋ธ
: one-layer linear ๋ชจ๋ธ๋ง์ ํตํด ๊ณผ๊ฑฐ ์๊ณ์ด์ ๋ํ ํ๊ท๋ฅผ ์ํํ์ฌ ๋ฏธ๋ ์๊ณ์ด์ ์ง์ ์์ธก ์คํ ๋ฐ์ดํฐ์
: ๊ตํต, ์๋์ง, ๊ฒฝ์ , ๋ ์จ, ์ฌํด ์์ธก ๋ฑ์ ๋๋ฆฌ ์ฌ์ฉ๋๋ ๋ฒค์น๋งํฌ ๋ฐ์ดํฐ์
์คํ ๊ฒฐ๊ณผ
: LTSF-Linear
๋ ๋ชจ๋ ๊ฒฝ์ฐ์์ ๋ณต์กํ Transformer ๊ธฐ๋ฐ ๋ชจ๋ธ
๋ณด๋ค ์ฑ๋ฅ์ ์์ฌ, ์ฌ์ง์ด ๋ช๋ช ๊ฒฝ์ฐ์๋ ํฐ ์ฐจ์ด(20~50%)์ ์ฑ๋ฅ์ ๋ณด์Transformer ๊ธฐ๋ฐ ๋ชจ๋ธ ๋ฌธ์ ๋ฐ๊ฒฌ
: (Transformer ๊ธฐ๋ฐ ๋ชจ๋ธ๋ค์ ์ฃผ์ฅ๊ณผ๋ ๋ค๋ฅด๊ฒ) look-back window sizes ์ ์ฆ๊ฐ์๋ ๋ถ๊ตฌํ๊ณ ์์ธก ์ค๋ฅ๊ฐ ๊ฐ์ํ์ง ์์ long sequences์์ temporal relations์ ์ถ์ถํ๋๋ฐ ์คํจํ๋ ๊ฒ์ ๋ฐ๊ฒฌ [contributions]
โ
LSTF task์์์ Transformers์ ํจ๊ณผ์ ๋ํ ์ฒซ ๋ฒ์งธ ์๋ฌธ์ ์ ๊ธฐํ ์ฐ๊ตฌ
โ
๊ฐ๋จํ one-layer linear models์ธ LTSF-Linear์ Transformer ๊ธฐ๋ฐ LTSF ์๋ฃจ์
๋ค์ 9๊ฐ์ ๋ฒค์น๋งํฌ ๋ฐ์ดํฐ์
์ ํตํด ๋น๊ต
โ
LTSF-Linear๊ฐ LTSF ๋ฌธ์ ์ ์๋ก์ด baseline์ด ๋ ์ ์์
โ
๊ธฐ์กด Transformer ๊ธฐ๋ฐ ์๋ฃจ์
์ ๋ค์ํ ์ธก๋ฉด์ ๋ํ ์ฐ๊ตฌ ์ํ
1. long inputs์ ๋ชจ๋ธ๋งํ๋ ๋ฅ๋ ฅ
2. ์๊ณ์ด order์ ๋ํ sensitivity
3. positional encoding๊ณผ sub-series embedding์ ์ํฅ๋ ฅ ํจ์จ์ฑ ๋น๊ต
โ
๊ฒฐ๋ก ์ ์ผ๋ก, ์๊ณ์ด์ ๋ํ Transformer์ temporal modeling ๊ธฐ๋ฅ์ ์ ์ด๋ ๊ธฐ์กด LTSF ๋ฒค์น๋งํฌ์์๋ ๊ณผ์ฅ๋จ
vanilla Transformer ๋ชจ๋ธ
์ LTSF ๋ฌธ์ ์ ์ ์ฉ์ํฌ ๋์๋ ๋ ๊ฐ์ง ํ๊ณ์ ์ด ์กด์ฌInformer
๋ ์ด๋ฌํ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด complexity๋ฅผ ์ค์ด๊ณ , DMS ์์ธก ์ ๋ต์ ์ฌ์ฉํ๋ ์๋ก์ด Transformer ์ํคํ
์ฒ๋ฅผ ์ ์ Autoformer
์์ seasonal-trend decomposition ์ ๊ฐ neural block ์ด์ ์ ์ฒ์์ผ๋ก ์ ์ฉFEDformer
๋ ์ ๋ฌธ๊ฐ์ ์ ๋ต๊ณผ ๋ค์ํ kernel sizes์ moving average kernels๋ก ์ถ์ถํ trend components๋ฅผ ํผํฉํ ํํ๋ฅผ ์ ์ Transformer ์ํคํ
์ฒ์ self-attention layer๋ ์๊ณ์ด์ position information ์ ๋ณด์กดํ์ง ๋ชปํจ
โ ๊ทธ๋ฌ๋ ์๊ณ์ด์ local positional information ์ฆ ์๊ณ์ด์ ordering์ ๋งค์ฐ ์ค์ (+ hierarchial timestamps (week, month, year), agnostic timestamps (holidays and events)์ ๊ฐ์ global temporal information ๋ํ ์ ์ตํ ์ ๋ณด)
์๊ณ์ด inputs์ temporal context ๋ฅผ ๊ฐํํ๊ธฐ ์ํด SOTA Transformer ๊ธฐ๋ฐ ๋ชจ๋ธ๋ค์ ์ฌ๋ฌ embedding์ input sequence์ ํ์ฉ
+ fixed positional encoding channel projection embedding learnable temporal embeddings
+ temporal convolution layer๋ฅผ ํตํ temporal embeddings learnable timestamps
LogTrans
์ Pyraformer
๋ self-attention ๋ฉ์ปค๋์ฆ์ sparsity bias ๋ฅผ ๋์
LogTrans
๋ Logsparse mask ๋ฅผ ์ฌ์ฉํ์ฌ computational complexity๋ฅผ O(LlogL)๋ก ๊ฐ์Pyraformer
๋ hierarchically multi-scale temporal dependencies ๋ฅผ ํฌ์ฐฉํ๋ pyramidal attention ์ ํตํด time/memory complexity๋ฅผ O(L)๋ก ๊ฐ์Informer
์ FEDformer
๋ self-attention matirx์ low-rank property๋ฅผ ์ฌ์ฉInformer
๋ ProbSparse self-attention ๋ฉ์ปค๋์ฆ๊ณผ self-attention distilling operation ์ ํตํด complexity๋ฅผ O(LlogL)๋ก ๊ฐ์FEDformer
๋ random selection์ผ๋ก Fourier enhanced block ๊ณผ wavelet enhanced block ์ ์ค๊ณํด complexity๋ฅผ O(L)๋ก ๊ฐ์Autoformer
๋ original self-attention layer๋ฅผ ๋์ฒดํ๋ series-wise auto-correlation ์ค๊ณvanilla Transformer decoder
๋ autoregressiveํ ๋ฐฉ๋ฒ์ผ๋ก outputs์ ์์ฑํด ํนํ long-term predictions์์ ๋๋ฆฐ ์ถ๋ก ์๋์ error accumulation ๋ฐ์
- Informer
๋ DMS forecasting์ ์ํ generative-style decoder ๋ฅผ ์ค๊ณ
- Pyraformer
๋ fully-connected layer๋ฅผ Spatio-temporal axes์ concatenatingํ์ฌ decoder๋ก ์ฌ์ฉ
- Autoformer
๋ ์ต์ข
์์ธก์ ์ํด trend-cyclical components์ seasonal components์ stacked auto-correlation ๋ฉ์ปค๋์ฆ์ ํตํด ์ฌ์ ์๋
decomposed features๋ฅผ ํฉ์นจ
- FEDformer
๋ ์ต์ข
๊ฒฐ๊ณผ๋ฅผ decodeํ๊ธฐ ์ํด frequency attention block์ ํตํ decomposition scheme๋ฅผ ์ฌ์ฉ
Transformer ๋ชจ๋ธ์ ํต์ฌ ์ ์ ๋ paired elements ๊ฐ์ semantic correlations
โ๏ธ self-attention ์์ฒด๋ permutation-invariantํ๋ฉฐ temproal relations์ ๋ชจ๋ธ๋งํ๋ ๋ฅ๋ ฅ์ input tokens๊ณผ ๊ด๋ จ๋ positional encoding์ ํฌ๊ฒ ์ข์ฐ๋จ
โ๏ธ ์๊ณ์ด์ numerical data๋ฅผ ๊ณ ๋ คํด๋ณด๋ฉด, ๋ฐ์ดํฐ ์ฌ์ด์๋ point-wise semantic correlations ๊ฐ ๊ฑฐ์ ์์
์๊ณ์ด ๋ชจ๋ธ๋ง์์ ๊ฐ์ฅ ์ค์ํ ๋ถ๋ถ์ ์ฐ์์ ์ธ ๋ฐ์ดํฐ๋ค์ ์งํฉ์์์ temporal relations ์ด๋ฉฐ, ๋ฐ์ดํฐ ๊ฐ์ ์์๊ฐ Transformer์ ํต์ฌ์ธ paired
relationship๋ณด๋ค ์ค์ํ ์ญํ ์ ์ํ
positional encoding์ tokens์ ์ฌ์ฉํ์ฌ sub-series๋ฅผ embeddingํ๋ฉด ์ผ๋ถ ordering information์ ๋ณด์กดํ ์ ์์ง๋ง, permutation-invariantํ self-
attention ๋ฉ์ปค๋์ฆ์ ํน์ฑ์ ํ์ฐ์ ์ผ๋ก temporal information loss๊ฐ ๋ฐ์
LTSF-Linear์ ๊ธฐ์ด ์์์ weighted sum ์ฐ์ฐ์ ํตํด ๋ฏธ๋ ์์ธก์ ์ํด ๊ณผ๊ฑฐ ์๊ณ์ด ๋ฐ์ดํฐ๋ฅผ ์ง์ ํ๊ทํ๋ ๊ฒ
| Dataset
| Evaluation Metric
| Compared Method
FEDformer
, Autoformer
, Informer
, Pyraformer
, LogTrans
โ๏ธ LSTF-Linear๋ ๋ณ์ ๊ฐ์ correlations์ ๋ชจ๋ธ๋งํ์ง ์์์์๋ ๋ถ๊ตฌํ๊ณ , SOTA ๋ชจ๋ธ์ธ FEDformer๋ฅผ ๋๋ถ๋ถ์ ๊ฒฝ์ฐ multivariate forecasting์์ ์ฝ
20%~50% ๋์ ์ฑ๋ฅ์ ๋ณด์
โ๏ธ NLinear์ DLinear๋ distribution shift์ trend-seasonality features๋ฅผ ๋ค๋ฃจ๋ ๋ฅ๋ ฅ์์ ์ฐ์ธ
โ๏ธ univariate forecasting์ ๊ฒฐ๊ณผ์์๋ LTSF-Linear๊ฐ ์ฌ์ ํ Transformer ๊ธฐ๋ฐ LTSF ์๋ฃจ์
๋ค๊ณผ ํฐ ์ฐจ์ด๋ฅผ ๋ณด์
โ๏ธ Repeat ๋ชจ๋ธ์ long-term seasonal data(e.g, Electricity and Traffic)์์ ๊ฐ์ฅ ์ข์ง ์์ ์ฑ๋ฅ์ ๋ณด์์ง๋ง, Exchange-Rate ๋ฐ์ดํฐ์
์์ ๋ชจ๋ Transformer
๊ธฐ๋ฐ ๋ชจ๋ธ๋ค๋ณด๋ค ๋์ ์ฑ๋ฅ์ ๋ณด์
++++ ์ด๋ Transformer ๊ธฐ๋ฐ ๋ชจ๋ธ๋ค์ด ํ์ต ๋ฐ์ดํฐ์ ๊ฐ์์ค๋ฌ์ด change noises์ overfitํ์ฌ ์๋ชป๋ trend ์์ธก์ผ๋ก ์ด์ด์ ธ ์ ํ๋๊ฐ ํฌ๊ฒ ์ ํ๋ ์ ์์
++++ Repeat์ bias๊ฐ ์กด์ฌ X
โ๏ธ 3๊ฐ์ ๋ฐ์ดํฐ์
์ ๋ํ Transformer ๊ธฐ๋ฐ ๋ชจ๋ธ๋ค๊ณผ LTSF-Linear ๋ชจ๋ธ์ ์์ธก ๊ฒฐ๊ณผ
โ๏ธ Electricity(Sequence 1951, Variate 36), Exchange-Rate(Sequence 676, Variate 3), ETTh2(Sequence 1241, Variate 2)
โ๏ธ ํด๋น ๋ฐ์ดํฐ์
์ ๊ฐ๊ธฐ ๋ค๋ฅธ temporal patterns์ ๋ณด์
โ๏ธ input์ ๊ธธ์ด๊ฐ 96 steps์ด๊ณ , output horizon์ด 336 steps์ผ ๋ Transformer๋ Electricity์ ETTh2 ๋ฐ์ดํฐ์
์์ ๋ฏธ๋ ๋ฐ์ดํฐ์ scale๊ณผ bias๋ฅผ ํฌ์ฐฉํ๋๋ฐ ์คํจ
โ๏ธ ๋ํ Exchange-Rate ๋ฐ์ดํฐ์
์์๋ ์ ์ ํ trend๋ฅผ ์์ธกํ์ง ๋ชปํจ
๊ธฐ์กด Transformer ๊ธฐ๋ฐ ์๋ฃจ์ ์ด LTSF ์์ ์ ์ ํฉํ์ง ์๋ค๋ ๊ฒ์ ๋ํ๋
โ๏ธ Transformer ๊ธฐ๋ฐ ๋ชจ๋ธ๋ค์ ์ฑ๋ฅ์ ๊ธฐ์กด ์ฐ๊ตฌ์ ๊ฒฐ๊ณผ์ ๋์ผํ๊ฒ look-back window size๊ฐ ์ปค์ง๋ฉด์ ์ฑ๋ฅ์ด ์
ํ๋๊ฑฐ๋ ์์ ์ ์ผ๋ก ์ ์ง
โ๏ธ ๋ฐ๋ฉด LTSF-Linear ๋ชจ๋ธ์ look-back windows sizes๊ฐ ์ปค์ง์ ๋ฐ๋ผ ์ฑ๋ฅ์ด ํฅ์
์คํ ๊ฒฐ๊ณผ,,
โ๏ธ SOTA Transformers์ ์ฑ๋ฅ์ Far setting์์ ์กฐ๊ธ์ฉ ๋จ์ด์ง๋๋ฐ, ์ด๋ ๋ชจ๋ธ์ด ์ธ์ ํ ์๊ณ์ด ์ํ์ค์์ ์ ์ฌํ temproalinformation๋ง ํฌ์ฐฉํ๋ค๋ ๊ฒ์ ์๋ฏธ
โ๏ธ ๋ฐ์ดํฐ์
์ ๋ด์ฌ์ ํน์ฑ์ ํ์
ํ๋ ๋ฐ ์ผ๋ฐ์ ์ผ๋ก ๋ง์ ์์ ํ๋ผ๋ฏธํฐ๊ฐ ํ์ํ์ง ์์ผ๋ฏ๋ก, ํ๋์ ํ๋ผ๋ฏธํฐ๋ฅผ ํตํด periodicity๋ฅผ ๋ํ๋ผ ์ ์์
โ๏ธ ๋๋ฌด ๋ง์ ํ๋ผ๋ฏธํฐ๋ฅผ ์ฌ์ฉํ๋ ๊ฒ์ overfitting์ ์ ๋ฐํ ๊ฒ์ด๊ณ , ์ด๋ LTSF-Linear์ ์ฑ๋ฅ์ด Transformer๋ณด๋ค ์ข์๋ ๊ฒ์ ์ผ๋ถ๋ถ ์ค๋ช
โ๏ธ Informer์ ์ฑ๋ฅ์ ์ ์ง์ ์ผ๋ก ๋จ์ํํ ์๋ก ํฅ์๋์ด LTSF ๋ฒค์น๋งํฌ์์๋ self-attention ์ฒด๊ณ ๋ฐ ๊ธฐํ ๋ณต์กํ ๋ชจ๋์ด ํ์ํ์ง ์์์ ๋ํ๋
โ๏ธ ์ ์ฒด์ ์ผ๋ก LTSF-Linear ๋ชจ๋ธ๋ค์ด Transformer ๊ธฐ๋ฐ ๋ชจ๋ธ๋ค๋ณด๋ค ํ๊ท ์ ์ธ ์ฑ๋ฅ ํ๋ฝ์ด ๋ชจ๋ ๊ฒฝ์ฐ์ ์ปธ์ผ๋ฉฐ, ์ด๋ Transformers ๊ธฐ๋ฐ ๋ชจ๋ธ๋ค์ด temporal order
๋ฅผ ์ ๋ณด์กดํ์ง ์๋ ๊ฒ์ ๋ํ๋
โ๏ธ ๊ธฐ๋์๋ ๋ฌ๋ฆฌ ์คํ ๊ฒฐ๊ณผ ๋ ์์ ํฌ๊ธฐ์ training data์์์ ์์ธก ์ค๋ฅ๊ฐ ๋ ์๊ฒ ๋์ด
โ๏ธ whole-year data๊ฐ ๋ ๊ธธ์ง๋ง ๋ถ์์ ํ data size๋ณด๋ค ๋ ๋ถ๋ช
ํ temporal features๋ฅผ ์ ์งํ๊ธฐ ๋๋ฌธ์ผ๋ก ๋ณด์
โ๏ธ training์ ์ํด ๋ ์ ์ ๋ฐ์ดํฐ๋ฅผ ์จ์ผ ํ๋ค๊ณ ๊ฒฐ๋ก ์ง์ ์๋ ์์ง๋ง, ์ด๋ Autoformer์ FEDformer์ training data scale์ด ์ฑ๋ฅ์ ์ ํ์ ์ฃผ๋ ์์ธ์ ์๋๋ ๊ฒ์ ์ฆ๋ช
โ๏ธ ํฅ๋ฏธ๋กญ๊ฒ๋ vanilla Transformer(๋์ผํ DMS decoder)์ ๋น๊ตํ์ ๋, ๋๋ถ๋ถ์ Transformer๋ฅผ ๋ณํํ ๋ชจ๋ธ๋ค์ ์ค์ ์ถ๋ก ์๊ฐ๊ณผ ํ๋ผ๋ฏธํฐ์ ๊ฐ์๋ ๋น์ทํ๊ฑฐ๋ ๋ ๋์จ
โ๏ธ ๊ฒ๋ค๊ฐ vanilla Transformer์ memory cost๋ output length L = 720์์๋ ์ค์ง์ ์ผ๋ก ํ์ฉ ๊ฐ๋ฅํ ์์ค์ด๊ธฐ ๋๋ฌธ์ ์ ์ด๋ ๊ธฐ์กด ๋ฒค์น๋งํฌ์์๋ ๋ฉ๋ชจ๋ฆฌ ํจ์ธ์ด ๋์ Transformer์ ๊ฐ๋ฐ์ ์ค์์ฑ์ด ์ฝํ
Conclusion
ยท ๋ณธ ๋ ผ๋ฌธ์ long-term time series forecasting ๋ฌธ์ ์์ Transformer ๊ธฐ๋ฐ ๋ชจ๋ธ๋ค์ ํจ๊ณผ์ ๋ํ ์๋ฌธ์ ์ ์
ยท ๋๋ผ์ธ๋งํผ ๊ฐ๋จํ linear model์ธ LTSF-Linear ๋ฅผ DMS forecasting baseline์ผ๋ก ์ผ์ ๋ณธ ๋ ผ๋ฌธ์ ์ฃผ์ฅ์ ๊ฒ์ฆ
Future work
ยท LSTF-Linear๋ ๋ชจ๋ธ ์ฉ๋์ด ์ ํ๋์ด ์์ด ์ฌ๋ฌ ๋ฌธ์ ์ ์ด ๋ฐ์ํ๋ฉฐ, ํฅํ ์ฐ๊ตฌ์ ๊ธฐ์ค์ ์ญํ ์ ํ ๋ฟ์
ยท one-layer linear network๋ change points์ ์ํด ๋ฐ์ํ๋ temporal dynamics๋ฅผ ํฌ์ฐฉํ๋ ๋ฐ ์ด๋ ค์์ด ์์
ยท ์๋ก์ด ๋ชจ๋ธ ์ค๊ณ์ ๋ฐ์ดํฐ ์ ์ฒ๋ฆฌ, ๋ฒค์น๋งํฌ ๋ฑ์ ํตํด ๊น๋ค๋ก์ด LTSF ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ ๊ฐ๋ฅ์ฑ์ด ์์
๐ Reference
๋ ผ๋ฌธ ๋ฆฌ๋ทฐ
Transfomer ๊ธฐ๋ฐ TSF ๋ชจ๋ธ ์ข ๋ฅ