기존의 많은 트랜스포머 기반의 시계열 예측 모델들이 global dependencies를 잘 모델링해왔다. 시계열 트랜스포머의 경우 lookback window가 길수록 성능이 떨어지고, computation이 폭발적으로 증가한다는 한계점이 있다.
각각의 temporal token들의 unified 임베딩은 여러 변수들을 변수 중점적인(variate-centric) representation 학습에 실패하거나 의미없는 attention map을 만들 수 있다.
(즉, 기존의 시계열 transformer들이 위의 그림과 같이 시계열 데이터를 input으로 사용하는 것과 multivariate correlation을 사용하는 것이 적절하지 않다고 함.)
어떤 것들이 변했느냐에 따라서 보면, embedding시에 시계열 전체에 대한 임베딩을 한다는 점인 것같다.
기존에는 특정 포인트 별로 여러 변수를 한번에 임베딩했다면, iTransformer는 각 변수별로 임베딩을 한다는 점이다.
이런 면에서는 Channel Independent / Channel dependent를 이야기한 논문과 이야기하는 방향이 비슷하다고 느껴진다.
iTransformer는 기존 transformer의 구성요소는 전부 그대로 두고 감싸는 architecture만 수정함.
개인적으로 Crossformer에서 시계열 데이터를 해석하는 방식과 어느정도 비슷한 맥락을 가지고 있다고 생각한다.