한줄 요약 : 단순히 비정상성을 감소시켜 과도한 정상화를 초래하는 이전 연구들과 달리, 시계열의 정상성을 높이고 내부 메커니즘을 개선하여 비정상 정보를 다시 통합함으로써 데이터 예측 가능성과 모델의 예측 능력을 동시에 향상시키는 효율적인 방법을 제안

(1) Normalization module
시간 축을 따라 슬라이딩 윈도우 방식을 사용하여 정상화를 수행
정규화 모듈 공식 :

(2) De-normalization module

기존 문제점 :
지나친 정상화화 문제를 해결하기 위해 “정상화 없이 얻은 Attention을 근사”하고, “원래 비정상 데이터에서 특정 시간적 의존성을 발견할 수 있는 메커니즘”을 제안
(1) Analysis of the plain model
고유의 비정상적 정보를 사라지게 하는 것으로 부터 과도한 정상화 문제가 발생함.
기존 비정상적인 시계열의 Attention을 근사

정상화된 시계열 데이터를 기반으로 attention을 계산하는 과정

(2) De-stationary Attention
(5) 번 식에 의거하여 핵심은 양의 스케일링 스칼라 1) 과 시프팅 벡터 2) 를 근사하는 것
깊은 모델에서 선형 특성은 거의 유지되지 않기 때문에, 실제 요인을 추정하고 활용 X
비정상화인 x, Q, K의 통계로부터 비정상화 요인을 MLP 레이어를 통해 직접 학습하려고 함
De-stationary Attention 계산 식 :

1) 과 2)는 모든 레이어에서 비정상적 어텐션을 수행하기 때문에, 비정상적 어텐션 매커니즘은 시간적 의존성을 정상적 시계열인 Q′, K′과 비정상적 시계열인 x, µx, σx에서 학습하고 정상화된 값 V’에 곱함
즉 정상화된 시계열의 예측 가능성에서 이점을 얻으면서 원시 시계열의 고유한 시간적 의존성을 동시에 유지 가능
(3) 전체 아키텍쳐 설명

다변량 예측 결과 에 따르면, 제안한 프레임워크를 탑재한 기본 Transformer 모델은 모든 벤치마크와 예측 길이에서 일관되게 좋은 성능
특히, 비정상성이 높은 데이터셋에서 다른 딥러닝 모델들보다 뛰어난 성과 보임
예를 들어, 예측 길이가 336인 경우 Exchange 데이터셋에서 17% MSE 감소(0.509 → 0.421), ILI 데이터셋에서 25% 감소(2.669 → 2.010)를 달성
구체적인 결과:
다양한 예측 길이(O = 96, 192, 336, 720)에서의 다변량 및 단변량 예측 결과는 표 2와 표 3에 요약
모델별로 적용된 프레임워크에 따른 성능 향상을 보여줌. 평균적으로, Transformer, Informer, Reformer, Autoformer 모델에서 각각 49.43%, 47.34%, 46.89%, 10.57%의 성능 향상을 달성
특히, 비정상성이 강한 데이터셋(Exchange, ILI, ETTm2 등)에서 더 큰 성능 개선을 확인가능