시계열 연구를 하는데에 있어서 꼭 읽어보면 좋은 논문 같다.
이 논문에서는 그간의 LTSF이나 Spatio-Temporal Forecasting의 연구들에서 언급되던 논란들(Benchmarking issue나 technical appraches )을 없애고, 그간 많은 연구들이 성취한 advancements에 대한 통찰력을 제시한다.
Benchmarking issue 를 해결하기 위해 Multivariate Time Series Forecasting의 공정한 비교를 위한 벤치마크인 basicTS를 소개한다. 특히, 성능이 불안정한 경우, 혹은 성능이 일치하지 안는 경우를 없애기 위해서 합리적인 evaluation 방법을 제안한다.
또, 데이터 세트에대한 분류또한 진행해서 차후에 연구자들이 관련해서 혼란이 올 경우를 막고자 한다.
이 논문의 경우 LTSF,STF에 대한 범용적인 2023년의 분석 논문이다.
어떤 이슈들이 있는지
MTS dataset을 이 논문에서는 3가지로 분류한다.
Transformer-based models : 아주 강한 fitting 능력과 강한 inductive bias를 가지고 있다. 이는 해당 아키텍쳐가 데이터 분포에 대한 강한 가정을 한다고 볼 수있다.
반면에
Linear-based models : 간단한 모델이기때문에 복잡한 패턴을 포착하는데 약하지만, inductive bias라는 편향으로부터 자유로운 편이다. distribution drift가 심한 데이터셋의 경우, Transformer보다는 Linear-based model에서 더 우수한 성능을보일 것이다.
이 논문에서는 Figure 6과 같이 road map을 제안한다.
1) 시계열 데이터의 종류를 판단한다 (Clear/ Distribution Drift/ Unclear patterns).
2) 만약 distribution drift가 심하거나 Unclear pattern을 가지고 있는 데이터라면, Linear layers, MLPs, Vanilla Transformer등이 추천된다. 만약에 데이터가 깔끔한 유형이라면, 강력한 powerful sequence model들이 제안된다. (TCN, RNN, Transformer based models)
이때까지의 연구들은 Complex Sequence model 설계에 중점을 두고있지만, 데이터가 강력한 패턴일때만 효과적인 설계다.
하지만, 시계열 데이터는 자연어나 이미지데이터와 달리 노이즈나 외부 요인의 영향을 많이 받기 때문에 Distribution shift/ 예측할 수 없는 데이터의 변화들이 대부분이다.
그렇기 떄문에 Distribution drfit modeling . feature engineering , Uncertainity Estimation등에 더 관심을 많이 가져야한다.
Distribution drift 문제를 해결하기 위해서 online learning/ transfer learning 및 유사한 기술을 체택하거나 시계열의 예측 가능성을 연구하는 것이 우선시 되어야합니다.