Anomaly Dectection을 요즘에 좀 알아보면서, Time Series Forecasting 분야를 계속 접할 수 밖에 없었고, Transformer의 sequence 적인 특징을 TSF에 사용한 예시가 없을까 하여서 이렇게 찾아보던 중 좋은 논문을 찾게 되었다.
놀랍게도,,, 이 논문은 유명한 모델인 Transformer를 기반으로 하는 모델들이 시계열 예측에 있어서 과연 효과적인지 의문을 가지고 간단한 구조의 모델과 비교하며 transformers가 시간 정보를 학습하지 못함을 증명하는 논문이다...
처음 이 논문을 읽는 분들이라면 유튜브 채널에 먼저 들어가서 이 논문에 대해서 한 번 먼저 들어보길 바란다.
[상황]
[가설과 실험]
[실험 결과]
TSF를 위한 Transformer 모델 연구는 많지만,,, 의문이 많고, 성능과 직결되지는 않는다는 평이 많음...
[Transformer?]
Transformer는 NLP, speech recognition, computer vision 등의 분야에서 가장 성공적인 sequence-modeling 아키텍처
최근에는 시계열 분석에도 Transformer 기반 솔루션들이 많이 연구되었음
(Ex.) LongTrans
, Informer
, Autoformer
, Pyraformer
, FED-former
등이 LTSF 문제에서 주목할만한 모델
Transformer 의 가장 주요한 부분 : multi-head self-attention (long sequence의 요소들 간의 semantic correlations 을 효과적으로 추출)
✨ self-attention
의 특징
1) permutation-invariant (입력 벡터 요소의 순서와 상관없이 같은 출력을 생성)
2) anti-order 하여 temporal information loss를 피할 수 없음
다양한 positional encoding
을 사용하면 몇몇 ordering information 을 보존할 수 있지만, 그 이후 self-attention을 적용하면 이 또한 손실을 피할 수 없음
🤔 단어의 순서를 바꾸더라도 문장의 의미론적 의미는 대부분 유지되는 NLP와 같은 경우 위의 문제를 특징이 크게 상관없으나.. TSF에선 문제가 됨...
그렇다면 ,,,
Are Transformers really effective for long-term time series forecasting?
[시계열 데이터의 핵심, 순서]
[실험 속 오류 제시]
[실험 내용]
⇒ 본 논문에선 실제 성능을 확인하기위해 Direct Multi-Step(DMS) forecasting 과 비교
가설
: 장기 예측은 물론, 모든 시계열을 예측할 수 있는 것은 아니기 때문에 비교적 명확한 추세(trend) 와 주기성(periodicity) 을 가진 시계열에 대해서만 장기 예측이 가능하다새로운 모델 제시
: 선형 모델은 이미 이러한 정보를 추출할 수 있기 때문에, 본 논문에선 매우 간단한 LTSF-Linear 모델
을 새로운 비교의 기준으로 제시LTSF-Linear 모델
: one-layer linear 모델만을 통해 과거 시계열에 대한 회귀를 수행하여 미래 시계열을 직접 예측 실험 데이터셋
: 교통, 에너지, 경제, 날씨, 재해 예측 등의 널리 사용되는 벤치마크 데이터셋 실험 결과
: LTSF-Linear
는 모든 경우에서 복잡한 Transformer 기반 모델
보다 성능을 앞섬, 심지어 몇몇 경우에는 큰 차이(20~50%)의 성능을 보임Transformer 기반 모델 문제 발견
: (Transformer 기반 모델들의 주장과는 다르게) look-back window sizes 의 증가에도 불구하고 예측 오류가 감소하지 않아 long sequences에서 temporal relations을 추출하는데 실패하는 것을 발견 [contributions]
✅ LSTF task에서의 Transformers의 효과에 대한 첫 번째 의문을 제기한 연구
✅ 간단한 one-layer linear models인 LTSF-Linear와 Transformer 기반 LTSF 솔루션들을 9개의 벤치마크 데이터셋을 통해 비교
✅ LTSF-Linear가 LTSF 문제의 새로운 baseline이 될 수 있음
✅ 기존 Transformer 기반 솔루션의 다양한 측면에 대한 연구 수행
1. long inputs을 모델링하는 능력
2. 시계열 order에 대한 sensitivity
3. positional encoding과 sub-series embedding의 영향력 효율성 비교
✅ 결론적으로, 시계열에 대한 Transformer의 temporal modeling 기능은 적어도 기존 LTSF 벤치마크에서는 과장됨
vanilla Transformer 모델
을 LTSF 문제에 적용시킬 때에는 두 가지 한계점이 존재Informer
는 이러한 문제를 해결하기 위해 complexity를 줄이고, DMS 예측 전략을 사용하는 새로운 Transformer 아키텍처를 제시 Autoformer
에서 seasonal-trend decomposition 을 각 neural block 이전에 처음으로 적용FEDformer
는 전문가의 전략과 다양한 kernel sizes의 moving average kernels로 추출한 trend components를 혼합한 형태를 제시 Transformer 아키텍처의 self-attention layer는 시계열의 position information 을 보존하지 못함
⇒ 그러나 시계열의 local positional information 즉 시계열의 ordering은 매우 중요 (+ hierarchial timestamps (week, month, year), agnostic timestamps (holidays and events)와 같은 global temporal information 또한 유익한 정보)
시계열 inputs의 temporal context 를 강화하기 위해 SOTA Transformer 기반 모델들은 여러 embedding을 input sequence에 활용
+ fixed positional encoding channel projection embedding learnable temporal embeddings
+ temporal convolution layer를 통한 temporal embeddings learnable timestamps
LogTrans
와 Pyraformer
는 self-attention 메커니즘에 sparsity bias 를 도입 LogTrans
는 Logsparse mask 를 사용하여 computational complexity를 O(LlogL)로 감소Pyraformer
는 hierarchically multi-scale temporal dependencies 를 포착하는 pyramidal attention 을 통해 time/memory complexity를 O(L)로 감소Informer
와 FEDformer
는 self-attention matirx에 low-rank property를 사용Informer
는 ProbSparse self-attention 메커니즘과 self-attention distilling operation 을 통해 complexity를 O(LlogL)로 감소FEDformer
는 random selection으로 Fourier enhanced block 과 wavelet enhanced block 을 설계해 complexity를 O(L)로 감소Autoformer
는 original self-attention layer를 대체하는 series-wise auto-correlation 설계vanilla Transformer decoder
는 autoregressive한 방법으로 outputs을 생성해 특히 long-term predictions에서 느린 추론 속도와 error accumulation 발생
- Informer
는 DMS forecasting을 위한 generative-style decoder 를 설계
- Pyraformer
는 fully-connected layer를 Spatio-temporal axes와 concatenating하여 decoder로 사용
- Autoformer
는 최종 예측을 위해 trend-cyclical components와 seasonal components의 stacked auto-correlation 메커니즘을 통해 재정의된
decomposed features를 합침
- FEDformer
는 최종 결과를 decode하기 위해 frequency attention block을 통한 decomposition scheme를 사용
Transformer 모델의 핵심 전제는 paired elements 간의 semantic correlations
✔️ self-attention 자체는 permutation-invariant하며 temproal relations을 모델링하는 능력은 input tokens과 관련된 positional encoding에 크게 좌우됨
✔️ 시계열의 numerical data를 고려해보면, 데이터 사이에는 point-wise semantic correlations 가 거의 없음
시계열 모델링에서 가장 중요한 부분은 연속적인 데이터들의 집합에서의 temporal relations 이며, 데이터 간의 순서가 Transformer의 핵심인 paired
relationship보다 중요한 역할을 수행
positional encoding와 tokens을 사용하여 sub-series를 embedding하면 일부 ordering information을 보존할 수 있지만, permutation-invariant한 self-
attention 메커니즘의 특성상 필연적으로 temporal information loss가 발생
LTSF-Linear의 기초 수식은 weighted sum 연산을 통해 미래 예측을 위해 과거 시계열 데이터를 직접 회귀하는 것
| Dataset
| Evaluation Metric
| Compared Method
FEDformer
, Autoformer
, Informer
, Pyraformer
, LogTrans
✔️ LSTF-Linear는 변수 간의 correlations을 모델링하지 않았음에도 불구하고, SOTA 모델인 FEDformer를 대부분의 경우 multivariate forecasting에서 약
20%~50% 높은 성능을 보임
✔️ NLinear와 DLinear는 distribution shift와 trend-seasonality features를 다루는 능력에서 우세
✔️ univariate forecasting의 결과에서도 LTSF-Linear가 여전히 Transformer 기반 LTSF 솔루션들과 큰 차이를 보임
✔️ Repeat 모델은 long-term seasonal data(e.g, Electricity and Traffic)에서 가장 좋지 않은 성능을 보였지만, Exchange-Rate 데이터셋에선 모든 Transformer
기반 모델들보다 나은 성능을 보임
++++ 이는 Transformer 기반 모델들이 학습 데이터의 갑작스러운 change noises에 overfit하여 잘못된 trend 예측으로 이어져 정확도가 크게 저하될 수 있음
++++ Repeat은 bias가 존재 X
✔️ 3개의 데이터셋에 대한 Transformer 기반 모델들과 LTSF-Linear 모델의 예측 결과
✔️ Electricity(Sequence 1951, Variate 36), Exchange-Rate(Sequence 676, Variate 3), ETTh2(Sequence 1241, Variate 2)
✔️ 해당 데이터셋은 각기 다른 temporal patterns을 보임
✔️ input의 길이가 96 steps이고, output horizon이 336 steps일 때 Transformer는 Electricity와 ETTh2 데이터셋에서 미래 데이터의 scale과 bias를 포착하는데 실패
✔️ 또한 Exchange-Rate 데이터셋에서도 적절한 trend를 예측하지 못함
기존 Transformer 기반 솔루션이 LTSF 작업에 적합하지 않다는 것을 나타냄
✔️ Transformer 기반 모델들의 성능은 기존 연구의 결과와 동일하게 look-back window size가 커지면서 성능이 악화되거나 안정적으로 유지
✔️ 반면 LTSF-Linear 모델은 look-back windows sizes가 커짐에 따라 성능이 향상
실험 결과,,
✔️ SOTA Transformers의 성능은 Far setting에서 조금씩 떨어지는데, 이는 모델이 인접한 시계열 시퀀스에서 유사한 temproalinformation만 포착한다는 것을 의미
✔️ 데이터셋의 내재적 특성을 파악하는 데 일반적으로 많은 수의 파라미터가 필요하지 않으므로, 하나의 파라미터를 통해 periodicity를 나타낼 수 있음
✔️ 너무 많은 파라미터를 사용하는 것은 overfitting을 유발할 것이고, 이는 LTSF-Linear의 성능이 Transformer보다 좋았던 것을 일부분 설명
✔️ Informer의 성능은 점진적으로 단순화할수록 향상되어 LTSF 벤치마크에서는 self-attention 체계 및 기타 복잡한 모듈이 필요하지 않음을 나타냄
✔️ 전체적으로 LTSF-Linear 모델들이 Transformer 기반 모델들보다 평균적인 성능 하락이 모든 경우에 컸으며, 이는 Transformers 기반 모델들이 temporal order
를 잘 보존하지 않는 것을 나타냄
✔️ 기대와는 달리 실험 결과 더 작은 크기의 training data에서의 예측 오류가 더 작게 나옴
✔️ whole-year data가 더 길지만 불완전한 data size보다 더 분명한 temporal features를 유지하기 때문으로 보임
✔️ training을 위해 더 적은 데이터를 써야 한다고 결론지을 수는 없지만, 이는 Autoformer와 FEDformer의 training data scale이 성능에 제한을 주는 요인은 아니란 것을 증명
✔️ 흥미롭게도 vanilla Transformer(동일한 DMS decoder)와 비교했을 때, 대부분의 Transformer를 변형한 모델들의 실제 추론 시간과 파라미터의 개수는 비슷하거나 더 나쁨
✔️ 게다가 vanilla Transformer의 memory cost는 output length L = 720에서도 실질적으로 허용 가능한 수준이기 때문에 적어도 기존 벤치마크에서는 메모리 효울이 높은 Transformer의 개발의 중요성이 약화
Conclusion
· 본 논문은 long-term time series forecasting 문제에서 Transformer 기반 모델들의 효과에 대한 의문을 제시
· 놀라울만큼 간단한 linear model인 LTSF-Linear 를 DMS forecasting baseline으로 삼아 본 논문의 주장을 검증
Future work
· LSTF-Linear는 모델 용량이 제한되어 있어 여러 문제점이 발생하며, 향후 연구의 기준선 역할을 할 뿐임
· one-layer linear network는 change points에 의해 발생하는 temporal dynamics를 포착하는 데 어려움이 있음
· 새로운 모델 설계와 데이터 전처리, 벤치마크 등을 통해 까다로운 LTSF 문제를 해결할 가능성이 있음
🔖 Reference
논문 리뷰
Transfomer 기반 TSF 모델 종류