딥러닝은 시계열 예측에 사용되었지만, 메인스트림 파라다임은 LSTM/RNN 에서부터 TCN, Transformer와 같은 neural network를 학습하는것에 기반하였다. Represent learning의 성공으로 인해 최근 시계열 예측에서 disentangeld feature representations를 학습하고 파인튜닝을 하는 것이 새로운 파라다임으로 부상하였다. 이 원리를 따라 우리는 새로운 시계열 representation learning 프레임워크를 제안하는데, long sequence 시계열 예측에 특화되어 CoST 라고 명명하였다. 이는 대조학습을 이용해 disentangeled seasonal-trend represenataions를 한다. CoST는 시간 도메인과 주파수 도메인의 대조 loss 를 만족하여 대조되는 트랜드와 시즈날 represenations를 각각 학습한다. CoST는 SOTA 방법보다 더 성능이 좋았으며, 다양한 backbone encoder, 다운스트림 리그레서에도 로버스트하다.
최근 시계열 예측은 jointly feature representations를 학습하는데, 이는 비선형 레이어를 쌓음으로써 feature extraction을 하여 리그레션 레이어를 예측에 집중하게 한다.
하지만, end to end로 jointly learning 하는 것은 노이즈의 집중을 통한 오버피팅 위험이 있다. 이는 representation이 entangled 되어 있으면 더 심해진다. 1차원의 feature가 다차원의 생성모델을 통한 local independent modules을 encodes하는 경우에 일어난다.

Fig.1 이 이에 대한 예시이다. oberved는 seasonal module과 non-liner trend module로 부터 생성된다. seasonal module의 경우 distribution shift를 겪어도 trend module의 invariant 때문에 resonable prediction을 하는데 문제가 없다. 그러나, entangled feature representation을 observed data로부터 학습한다면, 학습된 모델이 distribution shift를 다루는데 어려움이 있다. 즉 end to end approach로는 데이터가 non-stationary 환경에서 생성된다면 잘 generalize 할 수 없다. 그러므로, 이 연구에서는 disentangeld seasonal - trend representations를 학습하는데 중점을 두어 시계열 예측에 효과적으로 한다.
이 goal을 위해 structural time seires models 이라는 아이디어를 사용한데, 이는 시계열을 sum of trend, seasonal, error variables 로 구성한다. 그리고 prior 지식을 활용하여 시계열 representation을 학습한다. 처음에는 causal lens를 통해 disentangled seasonal-trend representations를 학습하는 것의 필요성을 언급하고, 그러한 representations가 에러 변수의 interventions에 robust하다는 것을 설명한다. 그리고 에러 변수의 interventions를 데이터 augmentation을 통해 시뮬레이션하고 대조학습을 통해 disentangled seasonal-trend representation을 학습한다.
이러한 motivation을 통해 LSTF(Long Sequence Time-seires Forecasting) task를 제안한다. 여기서 Cost는 inductive bias를 활용하여 disentatnveld seasonal-trend representation을 학습한다. CoST는 효과적으로 trend representations를 학습하였고, auto-regressive experts의 mixture을 통해 lookback window selection 문제를 완화하였다. 또한 더 강력한 seasonal representations를 학습하였는데, learnable Fouirier layer를 활용하였다. Intra frequency Interactions를 통해서 이루어졌다. Trend와 seasonal representations는 contrasive loss function에 의해 학습된다. Trend representation은 타임 도메인에서 학습되었으며, 반면에 seasonal represenatation은 주파수 도메인의 contrastive loss 함수로 학습된다. 우리의 contribution은 다음과 같다.
1. causal perspective로 보아 대조학습으로 disentangled seasonal-trend representations를 학습하는 것의 이점을 보인다.
2. CoST를 제시하여, 시계열 표현 학습방법이 inductive biasess를 모델 아키텍쳐에 활용함으로써 disentangeld seasonal & trend representations를 학습하고, frequency domain contrasitive loss를 활용하여 discriminative seasonal representations를 부각한다.
3. CoST 는 존재하는 SOTA 모델보다 21.3%의 improvement 를 보여준다. 또한 각 module의 benefit으로부터 CoST가 다양한 백본 인코더와 다운스트림 리그레셔에 로버스트 한다는 것을 보여준다.
Lookback winodw h가 주어질 때, 우리의 goal은 next k step을 예측하는 것이다. g(.) 은 prediction mapping function이며, X햇은 X의 next k time step을 예측한다. g(.)의 prediction과 representation 사이의 관계를 학습하는것보단, observed data에서 feature representations을 학습하는 것에 중점을 두어 예측 정확도를 높였다. 이것을 하기 이전에, nonlinear feature embedding function V = f(X)을 학습하기 위해 m차원의 원본 신호를 d차원의 latent space로 각 타임스탬프마다 변환하였다. 결과적으로, final timestamp의 representation vh는 downstream regressor로 사용되어 예측이 이루어진다.

복잡한 데이터는 다수의 소스로부터의 관계에서 비롯된다. 좋은 representation은 설명 소스를 잘 disentangle 해야 한다. 그렇게 하지 않으면 이상한 feature를 학습하여 iid data distribution setting에서 잘 transfer 할 수 없다.
이 goal 을 achive 하기 위해서, 시계열 structural priors를 도입해야 한다. Baesian Structural Time Series models 아이디어를 차용하여 그림 2에서와 같이 관측 데이터 X는 error variable E 와 error-free latent variable X 로부터 만들어진다. X는 즉 트렌드 변수 T와 시즈널 변수 S로 부터 만들어진다. E가 예측이 불가능하기 때문에 최적의 예측이 T 와 S로만 이루어진 X를 예측하는 것이라 볼 수 있다.
처음으로 우리는 end to end deep 예측 방법을 조사하여 time lagged relationship 과 multivatriate interactions를 관측 데이터 X로부터 모델링 하였다. 그러나, 각 X 는 예측 불가능한 노이즈인 E를 포함하였고, 이상 correlation을 학습하였다. 결과적으로, error-free latent variable X 을 학습하고자 하였다.
두번째로, 독립 매커니즘 가정에 의해, seasonal 과 trend 모듈들은 영향을 서로간에 미치지 않는다. 그러므로 각 매커니즘이 분포 변화가 발생해도, 다른쪽은 remains unchanged되어 있다. disentangleing seasonality and trend는 non-stationary 특성에 잘 맞는다.
S, T는 E의 변화에 따라 invartiant 하다. S, T의 representations를 학습하는 것은 stable 관계를 찾게 해주며 최적의 예측(X)을 다양한 에러에도 가능하게 해 준다. 타겟 X가 unknown 이므로, 우리는 proxy 대조 학습을 construct 한다. 특별히 우리는 data augmentations를 사용하여 에러 E에 대해 T와 S의 invariant representation을 하여 대조학습을 진행한다. 모든 가능한 variations of errors를 만들기 어렵기 때문에, 3가지 피티컬한 어그멘테이션을 셀렉한다. scale, shift & jitter. 크고 다양한 에러를 simulate 하며, 이는 더 좋은 representation을 하는 좋은 방법이다.
제시된 CoST 프레임워크가 disentangled seasonal-trend representations을 학습하는지 검증한다. 각 타임 스텝에서 disentangled representations 를 seasonal & trend components로 나누어져, 즉 V = [V (T);V (S)] V (T) : RhdT, V (S) : RhdS, d = dT + dS 이다.

전체적인 프레임워크는 다음과 같다. 처음으로, 인코더 백본으로 관측치를 latent space로 mapping 한다. 다음으로, 트랜드와 시즈널 표현들을 중간 표현에서부터 구축한다. 구체적으로, Trend Feature Disentangler (TFD), trend representations를 autoregressive experts의 mixture 및 시간 도메인의 contrastive loss를 통해 구함. Seasonal Feature Disentangler(SFD)는 seasonal representations를 learnable Fourier layer와 주파수 도메인 contrastive loss를 통해 학습한다. 전체적인 loss function은 
이다. 알파는 하이퍼파라미터로 트랜드와 시즈널 팩터의 밸런스를 맞추기 위한 것이다. 결과적으로 우리는 Feature Disentaglers를 만들어 마지막 output representations를 구축한다.
underlying trend는 시계열을 모델링하는데 중요하다. Auto-regressive filtering은 광범위하게 사용된 방법으로 time-lagged causal relationships를 이전 관측에서 캡쳐한다. 가장 challenging problem은 적절한 lookback window를 설정하는 것이다. 작은 윈도우는 under-fitting 을 야기하고, 큰 윈도우는 over fitting을 야기하고 over-parameterization 이슈를 야기한다. 가작 적절한 솔루션은 hyper parameter를 최적화는 것인데, 이는 그리드서치를 밸리데이션 로스로 하는 것이다. 하지만 이런 접근은 너무 계산적으로 expensive하기 때문에 mixture of auto-regressive experts를 사용하여 적절한 lookback window를 설정할 것을 제안한다.
fig.3b 에 나타난 것으로 auto-regressive experts의 mixture로써 Loss = log2(h/2) 이다. 각 experts는 1d causal convolution을 implemented 하였으며, d input channel과 dT output channels로 이루어져 있다. i번째의 expert의 커널 사이즈는 2^i 이다. 각 expert의 output은 matrix로 V틸다^(T,i) = CausalConv(V틸다 , 2^_i). 이다. 마지막으로 average-pooling operation은 performed over the outputs로 최족 trend representation을 얻는다.

Contrastive loss 를 employ 하여 discriminative trend representations를 한다. 구체적으로 MoCo를 적용하여 다양한 대조 학습을 통한 positive pair의 representation를 obtain하고, 다이나믹 dictionary를 통해 negatrive pair를 얻는다. 타임도메인의 대조 loss는 다음과 같다.

샘플 VT에 의해 처음으로 random time step t를 select하고, projection head, one-layer MLP를 적용하여 q를 얻고 k는 각각 상응되는 샘플을 encoder/dynamic dictionary에서 대응되는 augmentation을 한다.
주파수 도메인의 spectral 분석은 seasonality detection에 많이 사용된다. 주파수 도메인에서 학습하기 위해서는 두가지 이슈가 있다.
1. intra-frequency interactions 를 어떻게 서포트 하는지
2. 다른 seasonality 패턴을 구분하기 위해 어떤 방식의 learning signal로 representations을 구분할 수 있는지
스탠다드 백본 아키텍처는 쉽게 intra frequency level interaction을 캡처한다. 따라서 learnable Fourier layer를 사용한 SFD를 도입한다. seasonal features를 주기성의 이전 지식 없이 학습하기 위해, 주파수 도메인의 각 주파수별로 contrastive loss가 도입된다.
Seasonal Featur Disentangler(SFD)
SFD는 DFT로 구성되어 Intermediate features를 주파수 도메인으로 맵핑한다. 그리고 learnable Fourier layer로 들어가게 된다. learnable Fourier layer은 리니어 레이어 엘리멘트 별로 이행된다. 각 주파수에 affine 변환을 적용하여 유니크한 일련의 complex-valued parameters이다. 왜냐하면 우리는 이 레이어가 invariant translation하지 않다고 기대하기 때문이다. 마지막으로 다시 inverse DFT로 타임도메인으로 바꾼다.

다른 seasonal 패턴 간 구분을 위해 fr domain loss function을 도입하였다. 우리의 데이터 augmentation이 error variable의 intervention으로 해석될 수 있기 때문에 seasonal 정보가 변하지는 않음으로, 주파수 도메인의 contrastive loss 는 주파수가 주어졌을 때의 다른 periodic 패턴간 구분과 대응된다. 복잡한 값을 가진 로스 함수의 이슈를 극복하기 위해, 각 주파수는 유니크하게 amplitude와 phase 로 나타나진다. 따라서 로스펑션은 두가지로 다음과 같이 나타난다.

ETT(Electricity Transformer Temperature), Electricity, Weather : univariate forecasting
multivariate 와 univariate forecasting 2가지를 위한 세팅을 하였음.
multivariate : multivariate 인풋과 아웃풋을 포함하고 모든 데이터셋의 차원을 고려함. Univariate : univariate 인풋과 아웃풋을 포함함.
MSE MAE를 평가 매트릭스로 사용하여 60/20/20 train/val/test split을 함. self-supervised learning approaches 는 처음으로 train split 으로 학습이 되고, 학습된 representations으로 전체 예측 길이를 직접적으로 예측한다. Validation set이 적절한 ridge regression regularization term 알파로 사용된다.
CoST와 다른 학습 방법에서, 백본 인코더는 Temporal Convolution Network에 사용된다. 모든 방법이 dimensionality 320을 사용한다. 스탠다드 하이퍼 파라미터 세팅을 모든 데이터셋에 사용하며, 배치 사이즈는 256이고 learning rate는 1e-3 이다. 모멘텀은 0.9이며 weight decay는 1e-4이다. SGD optimizer 사용 및 cosine annealing 사용. MoCo implementation은 256 로스 사이즈를 사용하며, 모멘텀은 0.999이다. 만개의 샘플보다 적으면 2000 iteration을 사용하였다.

Representation learning과 End-to-End Forecasting 으로 나눌 수 있는데, 우리의 모델이 SOTA 퍼포먼스를 보여주었고, end-to-end forecasting approach보다 MSE가 좋았다. CoST는 relevant한 features를 더 많이 학습함으로써 trend 와 seasonal features 를 더 잘 구분하여 학습하였음을 알 수 있다.

작은 값의 알파를 사용하는 것이 대부분의 데이터셋에서 좋은 성능을 보였다.

처음으로, CoST의 컴포넌트의 퍼포먼스를 테스트하였다. trend와 seasonal components는 베이스라인을 통틀어 향상이 었었으며 또한 trend와 seasonal components는 optimal performace를 보여줬다.

다음으로, 백본에 대해서 contrastive loss를 구해 various backbone encoders에 robust한지 보았다. TCN은 보통의 백본 인코더이며, 우리는 LSTM, Transformer 인코더를 사용해 파라미터 사이즈를 맞췄다. 우리의 어프로치가 가장 성능이 좋음을 알 수 있었다.
Regressors는 윌의 ridge regression이 성능이 가장 좋음을 확인할 수 있다.

학습한 representations를 seasonal & trend components인지 시각화하였다. 데이터는 2가지의 trend와 seasonal 패턴을 합성하여 만들었다. T-SNE를 통해 우리의 접근이 representation이 더 높은 클러스터링성을 보임을 알 수 있고, 특히 seasonal patterns에서 이 특징이 두드러짐을 알 수 있었다.
Deep Forecasting 은 보통 end-to-end supervised learning task였는데, RNN을 통한 2018년의 연구에서부터, 최근에는 transformer를 접목한 시계열 예측 모델이 주를 이루고 있다.
하지만 최근 표현 학습은 다양한 contrastive pairs를 통해 이루어지고 있다. 2021년에 transformer를 이용한 방식, complex 대조 학습을 이용한 방식, temporally hierarchical representations를 사용한 방식에서 아무도 trend 와 seasonal을 나누어 학습을 진행한 경우가 없었다. 반면에 시계열 classification task에 집중되어있다.
전통적인 시계열 분해 테크닉은 2018년에 시계열을 분해해 seasonal 과 trend components로 분해해 해석력을 높인것이다. 최근 연구에서는 이것이 좀 더 로버스트해지고 효과적으로 변했다. 이러한 방법은 raw time series를 representation을 학습한다기 보다는 오리지날의 input space에서의 해석력을 높이기 위해 사용되어졌다. 2017년에는 인공 신경망을 통해 모델의 예측력을 높이고 periodic activation function을 통해 periodic components를 모델링 하기도 하였다. 우리의 연구와는 다르게 이러한 모델들은 단 하나의 time series per model 이므로, decomposed seasonal-trend representations 가 아니다.
우리의 연구 결과로 표현 학습과 다운스트림 예측 태스크는 기존의 end-to-end supervised learning보다 시계열 예측에서 효과적인 파라다임임을 알 수 있었다. 우리는 이것을 casusal 한 관점에서 설명하였고 CoST를 제안하여 대조 학습 프레임워크가 disentangled seasonal-trend represenatation를 학습함을 보였다. 광범위한 empirical 분석은 CoST가 이전의 SOTA보다 더 효과적임을 알 수 있었으며 다양한 choices에서 인코더와 regressor들을 통해 다양한 백본에도 로버스트 함을 보였다. 미래에는 이 연구를 확장시켜 다른 시계열 intelligence task에도 사용할 예정이다.