[NIPS 2024] Are Self-Attentions Effective for Time Series Forecasting?

진서연 ·2025년 2월 16일

Paper Reading

목록 보기

27/28

Transformer의 Self-Attention이 시계열 예측에 정말 필요한지 평가.
기존 Transformer 아키텍처를 재설계하여 Self-Attention을 제거하고 Cross-Attention만을 활용하는 새로운 모델 제안.
이 모델이 성능을 유지하면서도 더 효율적인지 검증.

Self-Attention은 순차적 정보 손실(Permutation-invariant 성질) 문제를 유발하여 시계열 예측에서 효과적이지 않을 수 있음.
기존 연구(Zeng et al., 2023)에서 Self-Attention을 선형 레이어로 대체하면 성능이 유지되거나 향상됨이 관찰됨.

기존 Transformer (PatchTST) vs. 새로운 모델 (CATS)
- PatchTST: Self-Attention을 활용해 입력 시계열을 처리.
- CATS: Self-Attention 없이 Cross-Attention만 사용, 미래 시점의 예측을 위한 쿼리(Query)를 학습.
핵심 아이디어:
- 미래 시점(Future Time Steps)을 Query로 활용하고, 과거 데이터를 Key-Value로 사용.
- 기존 Transformer는 입력 데이터를 Query로 활용하지만, CATS는 예측하고자 하는 시점을 Query로 설정하여 학습.
주요 구조 변경점:
- Self-Attention을 완전히 제거.
- Parameter Sharing (매개변수 공유) 최적화: Horizon 별로 같은 파라미터를 공유하여 모델 크기를 줄임.
- Query-Adaptive Masking: 미래 시점에 대한 예측을 개선하기 위해 특정 시간 정보에 대한 가중치를 조정.
이점:
- 기존 Transformer보다 파라미터 수 감소.
- 메모리 및 연산량 절감.
- Self-Attention 기반 모델 대비 더 나은 성능과 해석 가능성 제공.

기존 PatchTST(Transformer 기반)와 Self-Attention을 제거한 변형 모델 성능 비교.
결과:
- Self-Attention을 제거해도 성능이 유지되거나 향상됨.
- 특히 예측 기간이 길어질수록 Self-Attention이 오히려 성능을 저하시키는 경향이 관찰됨.

CATS vs. 기존 Transformer 기반 모델(PatchTST, TimeMixer, Autoformer 등)
평가 지표: Mean Squared Error (MSE) & Mean Absolute Error (MAE)
결과:
- CATS가 대부분의 데이터셋에서 SOTA (State-of-the-Art) 성능 달성.
- 특히 멀티스텝 예측(Long-term Forecasting)에서 우수한 성능을 보임.

연산량(Computational Cost) 비교:
- CATS는 기존 Transformer 모델보다 연산량이 10배 이상 감소.
- PatchTST 대비 모델 크기와 메모리 사용량이 줄어든 상태에서도 더 좋은 성능을 보임.
추론 속도 (Inference Speed) 비교:
- CATS는 PatchTST보다 최대 3배 빠른 추론 속도를 보임.

연구 질문	결과
Self-Attention이 시계열 예측에 필수적인가?	❌ 필수적이지 않음. 제거해도 성능 유지 또는 향상됨.
Transformer의 구조가 최적화될 여지가 있는가?	✅ Self-Attention을 Cross-Attention으로 대체하면 효율성과 성능 모두 개선됨.
모델 효율성(파라미터 수, 연산량 등)은 개선되었는가?	✅ 기존 Transformer 대비 연산량 절감 및 추론 속도 향상.
CATS가 기존 모델보다 성능이 뛰어난가?	✅ SOTA 성능 달성, 특히 장기 예측(Long-term Forecasting)에서 강력함.