이후 gated fusion operation을 수행하여 해당 정보를 time series tokens과 통합하여 prediction을 생성하는 데 사용
Zτ,iNτ=Gate⊙Zτ,iNτ+(1−Gate)⊙Mτ,iNτ
Gate=σ(Zτ,iNτWg1+Mτ,iNτWg2+bg)
Wg1,Wg2,bg는 learnable parameter임
4.2 Language-TS Transformer
Motivation
domain들이 temporal patterns나 distribution에서 큰 차이를 보일 때 발생하여 예측 성능 저하를 초래하는 domain confusion를 해결하기 위해 domain instruction을 사용
domain instruction은 사람이 작성하여 각 도메인의 데이터를 설명하는 문장으로, 각 time series data의 출처를 식별하고 forecasting strategy를 조정할 수 있도록 domain identification information을 모델에게 제공
Language-TS Transformer를 활용하여 domain instruction과 time series의 joint representation을 학습하고, 이를 통해 cross-domain generalization을 가능하게 함
Model Design
language와 time series modalities를 통합하기 위해 pretrained language model을 활용. 시계열 데이터의 자기 회귀적 특성(autoregressive nature)을 고려하여 casual masking을 사용하여 input의 temporal order를 유지하는 GPT2을 backbone model로 설정
casual masking을 사용할 때 input order가 중요. time series를 먼저 배치하면 Transformer는 time series을 처리하는 동안 domain instruction에 접근할 수 없음. 따라서 instructions을 time series 앞에 배치하여 모델이 contextual identifier를 활용하여 도메인 간 예측 성능을 향상시킬 수 있도록 함
수식
입력 연결 및 위치 임베딩
Hτ,iIτ+Nτ=(Eτ,iIτ∥Zτ,iNτ)+Wpos
eτ: domain τ의 instruction Eτ,iIτ: 임베딩 값 Wpos: pretrained language model의 learnable positional embeddings Hτ,iIτ+Nτ: Language-TS-Transformer의 input으로, domain마다 첫번째 차원이 다를 수 있고 Transformer는 다양한 길이의 입력을 처리하기 때문에 가능
UniTime 모델에서 제안된 여러 디자인 요소들의 효과를 검증하기 위해 Ablation Study를 진행.
Domain Instruction의 중요성
w/o instructions 모델의 경우, 모든 데이터셋에서 성능이 크게 저하되었으며, 특히 ETTm1과 Illness 데이터셋에서 큰 폭의 성능 하락 보였음. 이는 모델이 각 시계열 데이터의 출처를 식별하고 적절한 예측 전략을 적용하는 데 Domain Instruction이 필수적임을 보여줌.
domain confusion(여러 도메인의 데이터를 잘 구별하지 못하는 문제)를 겪는지 조사하기 위해서 T-SNE 시각화를 통해 w/o instructions 모델과 w/ instructions model의 hidden representation을 확인해 본 결과, Domain Instruction을 사용한 모델에서 각 도메인 데이터가 명확하게 클러스터링되는 것을 확인.
Masking을 통한 안정적인 학습
Masking을 제거한 모델(w/o masking)은 일부 데이터셋에서 만족스러운 성능을 보였지만, Illness 데이터셋에서는 성능이 크게 저하됨.
Masking이 없는 경우 각 데이터셋의 검증 손실 곡선이 불균형하게 나타나 모델 선택 과정에 어려움을 야기.
Light Transformer와 Reconstruction Loss의 효과
Light Transformer를 제거(w/o LightTrans)하거나, 과거 히스토리 재구성에 대한 보조 손실 함수를 비활성화(w/o reconstruction)하면 전반적인 성능이 저하.
5.4 Zero-Shot Transferability Analysis
source Domain(training)에서 target Domain(unseen)으로의 방법과 기본 모델의 Transferability에 대해 확인.
setup
Source Domain: ETTh1, ETTm1, ETTm2 데이터셋을 사용하여 모델을 훈련.
Target Domain: 훈련에 사용되지 않는 3가지 도메인에 대해 zero-shot testing 실행.
In-domain Transfer: ETTh2 (Source Domain과 동일한 도메인)
Out-domain Transfer: Electricity (Source Domain과 관련성이 있는 도메인)
Out-domain Transfer: Weather (Source Domain과 완전히 다른 도메인)
Trasfer protocol
Zero-Shot Transfer를 수행하기 위해서는 Unseen Domain에 적합한 Domain Instruction을 선택해야 함. --> instruction selection protocol 제안.
historical observations(과거 관측치)를 두 부분으로 나누어 첫 번째 부분은 prediction을 generate하기 위해 model input으로 사용하고, 두 번째 부분은 forecasting loss 계산에 사용.
해당 loss를 기반으로 어떤 Instruction이 Unseen Domain에 가장 적합한지 판단.
Results
UniTime 모델은 대부분의 경우에서 baseline 모델들을 능가하며 뛰어난 Zero-Shot Transferability 성능을 보임.
3가지 Zero-Shot 데이터셋 모두 ETTh1 데이터의 Instruction을 선택.
ETTh2는 ETTh1과 strong connection을 가지므로 선택.
Electricity와 Weather 데이터셋 또한 ETTh1의 Instruction을 선택한 것은 similar underlying patterns을 공유하고 있기 때문으로 해석.
UniTime 모델이 다양한 도메인에 대해 adaptability를 가진다고 해석 가능.
5.5 Exploration Studies on Language Models
언어 모델과 관련된 요소에 대해 추가적인 조사 진행.
input order
time series data를 insturction 앞에 배치하여 입력 순서를 변경하는 효과 확인
time series token은 casual mask의 존재로 인해 instruction token에 참여할 수 없음
Unitime이 변경했을 때보다 성능적으로 더 우수함을 확인
성능의 차이는 Language-TS Transformer 다음에 decoder를 사용하기 때문인데, 이 디코더는 지침 토큰의 정보를 사용하여 예측을 생성하여 변경된 입력 순서의 영향을 완화
Initialization
GPT-2의 사전 훈련된 가중치를 사용하지 않고 무작위로 초기화된 가중치 선택
기본 모델보다 성능이 대체로 낮은 걸 확인할 수 있음. 이는 방대한 언어 코퍼스에서 학습된 사전 훈련된 가중치가 텍스트 정보를 효과적으로 처리하는 데 우수함을 나타냄
Tunability
Pretrained language model의 tuning을 진행
Freeze PLM: 전체 언어 모델을 고정
FPT PLM: 언어 모델의 대부분 매개변수를 고정 (positional embedding과 layer normalization components만 조정하고, self-attention, feed-forward network 등의 요소는 고정된 상태로 유지)
fully tuning의 경우가 FPT, Freeze의 경우보다 best performance를 얻음
전체 언어 모델을 고정하더라도 성능이 비교적 높음
language model이 time series token을 처리하고 합리적인 hidden representationn을 생성할 수 있는 기능을 가지고 있음을 시사
FPT 방법에서 parameter의 작은 subset만 조정해야 한다는 점을 보면 performance와 effficiency 사이의 good balance를 가지고 있음
이는 계산 리소스가 제한적일 때 고려할 수 있는 요소가 될 것으로 보임
6. Conclusion
다양한 time series application domains을 수용할 수 있는 unified forecasting model을 개발하기 위해 새로운 패러다임인 UniTime을 제안
광범위한 평가를 통해 UniTime이 최첨단 forecasting performance와 zero-shot transferability을 향상시키는 데 효과적임을 확인
이 연구가 general time series forecasting의 foundation model을 구축하기 위한 중요한 단계라고 생각함