Paper
Abstract
- 최근 시계열 사전 학습은 라벨링 비용을 절감하고 다운스트림 작업에서 성능을 향상시킬 수 있는 잠재력으로 인해 큰 주목을 받고 있음 명시
- 시계열 사전 학습은 주로 비전이나 자연어처리에서 널리 사용되는 사전학습기법을 기반으로 사용
- 마스킹 모델링
- TST
- TI-MAE
- PatchTST
- SimMTM
- 대조 학습
- TS2Vec
- CoST
- LAST
- TF-C
- COMET
- 하지만 시계열 데이터를 무작위로 마스킹하거나 전체 시리즈 수준에서 유사도를 계산하는 방식은 시계열 데이터에서 내재하는 중요한 시간적 상관관계를 왜곡하거나 무시할 수 있다.
- 그렇기에 Siamese network를 기반으로 한 자기지도학습 사전 학습 프레임워크인 TimeSiam을 제안한다.
- TimeSiam은 무작위로 샘플링된 past subseries, current subseries 간의 내재적 시간적 상관관계를 포착하도록 Siamese Enc를 사전 학습하는 방법이다.
- 간단한 데이터 증강 기법을 활용하여 다영한 증강된 하위 시퀀스를 생성하고, 과거 시퀀스로부터 현재 시퀀스를 재구성하는 방식으로 시간 종속 표현 학습을 수행한다.
1. Introduction
배경지식
- 대규모로 수집된 시계열 데이터를 활용하려면, 라벨이 없는 데이터로부터 유용한 정보를 추출하여 다양한 다운스트림 작업의 성능을 향상시킬 수 있는 시계열 자기지도학습 기법이 필수적이다.
- 본 논문에서는 이러한 시계열 사전 학습의 가능성에 주목하고, 새로운 실용적 자기지도학습 사전 학습 방법을 제안
- 기존의 시계열 사전 학습 방법의 문제점
- 마스킹 모델링
- 모델이 가려진 부분을 복원하도록 최적화함으로써 표현 학습을 가능하게 한다.
- 하지만, 시계열 데이터를 무작위로 마스킹하면 핵심적인 시간적 상관관계를 심각하게 왜곡 시켜, 재구성 작업 자체가 너무 어려워지는 문제가 발생한다고 밝힘
- 대조 학습
- 개별 샘플(instance-level)에 대한 표현 하습에 강점을 가진다.
- 이 방법은 pos sample과 neg sample을 구별하도록 최적화하는 방식
- 그러나 이 방식은 유용한 불변성을 학습하기 위해 신중한 데이터 증강이 필요하다는 점에서 큰 단점
- 또한 대조 학습의 개별 샘플 기반 설계는 세밀한 시간적 병화를 포착하는 데 한계를 가지며, 이는 다양한 다운스트림 작업에서 실용성을 제한할 수 있다.
- 시계열 데이터의 본질적인 특성과 최적의 학습 방법
- 시계열 데이터는 이미지나 텍스트의 중요한 차이점이 있다.
- 각 타임 스텝에서는 유한한 개수의 스칼라 값만 포함될 수 있기 때문에, 시계열 데이터에서 가장 중요한 정보는 시간적 상관관계에 있다. → 즉, t라는 시점에서 데이터는 한정적이고, 유한하기에 소화할 수 있는 양이 정해져 있고, 이러한 것들을 정하는 것이 타임 스텝?
- 따라서, 시계열 사전 학습에서 가장 중요한 점은 인코더를 최적화하여 시간적 상관관계를 정확하게 포착하도록 하는 것이다.
Timesiam의 장점:
- 기존 방법들과 달리, Timesiam은 시계열의 “시간적 거리”를 활용하는 방식
- 대부분의 기존 방법들은 인접산 시퀀스를 활용하지만, Timesiam은 멀리 떨어진 두 시퀀스 사이의 관계까지 모델링할 수 있다.
- 이는 시계열 데이터를 보다 깊이 이해할 수 있도록 도움
- 기존의 사전 학습 방법 대비 단순하면서 일관된 성능 향상을 보인다.
- 다양한 다운스트림 작업(시계열 예측 및 분류 등)에서 최신 시계열 사전 학습 기법 대비 일관되게 우수한 성능을 보임
- 특히, 동일 도메인(in-domain) 뿐만 아니라, 서로 다른 도메인(cross-domain)에서도 강력한 성능을 입증하였다.
Contributions:
- 시간적 상관관계를 학습할 수 있도록 Siamese 네트워크를 활용한 간단하지만 효과적인 사전 학습 프레임워크 제안
- 동일한 시계열 내에서 서로 다른 타임스탬프에서 하위 시퀀스 쌍을 샘플링하는 방식을 사용한다. 이를 “Siamese Subseries”라고 한다.
- 이렇게 샘플링된 하위 시퀀스들을 Siamese 네트워크를 활용한 인코더로 학습된다. 이를 통해 시간적으로 떨어져 있는 두 하위 시퀀스 사이의 상관관계를 포착할 수 있다.
- 간단한 데이터 증강 기법(마스킹 등)을 추가하면, Siamese Subseries의 다양성과 구별성이 더욱 향상된다.
- 이를 통해, 자연스럽게 과거 → 현재 방향으로 복원하는 학습을 수행하게 되며, 이 과정에서 모델은 시간적으로 관련된 정보를 학습하고, 과거 시리즈와 현재 시리즈 간의 상관관계를 포착할 수 있다.
- Siamese 인코더를 활용하여 현재 마스킹된 시퀀스를 과거 시퀀스로부터 복원하는 구조를 설계하였으며, 계통 임베딩(Lineage Embeddings)을 통해 다양한 시간적 표현 학습이 가능하도록 하였다.
- 이를 통해 인코더는 다양한 시간 종속(time-dependent) 표현을 학습할 수 있는 능력을 갖게 된다.
- 마지막으로, cross-attention과 self-attention 메커니즘을 결합한 디코더를 적용하여, masking Siamese Subseries를 보다 정확하게 reconstruction할 수 있도록 한다.
- TimeSiam은 13개 벤치마크 데이터셋에서 기존 사전 학습 방법 대비 일관되게 뛰어난 성능을 달성하였으며, 시계열 분석 분야에서 강력한 도구임을 입증함
시계열 데이터의 자기지도 학습 사전 기법 및 Siamese 네트워크에 대한 연구들을 정리
2.1 시계열 자기지도 학습
- SSL은 라벨이 없는 대규모 데이터로부터 일반적인 표현을 학습하는 방법으로, NLP, CV에서 매우 성공적으로 적용되었다.
- 마스킹 모델링과 대조 학습이 주요하게 연구되고 있다.
- 마스킹 모델
- TST (Zerveas et al., 2021): 임의로 시계열 데이터의 일부 세그먼트(segment)와 포인트(point)를 마스킹한 후 이를 복원하는 방식 으로 모델을 사전 학습
- Ti-MAE (Li et al., 2023b): Transformer 기반의 시계열 마스킹 오토인코더(autoencoder) 구조 를 도입하여 사전 학습을 수행
- PatchTST (Nie et al., 2023): 시계열을 패치(patch) 단위로 분할한 후, 비연속적인 패치 단위 마스킹을 적용하는 방법 을 사용
- HiMTM (Zhao et al., 2024): 시계열의 다중 스케일(multi-scale) 특성을 반영한 계층적(hierarchical) 마스킹 모델을 제안
- SimMTM (Dong et al., 2023): 마스킹된 다중 시계열을 가중합(weighted aggregation)하여 원래의 시계열을 복원하는 방법 으로, 개별 포인트(point-wise) 및 시리즈(series-wise) 레벨의 학습이 가능
- 대조 학습
- CPC (Oord et al., 2018): 대조 예측 코딩(Contrastive Predictive Coding, CPC) 방법을 통해 미래 시퀀스를 예측하는 방식으로 학습
- TNC (Tonekaboni et al., 2021): 시간적으로 가까운(neighbor) 샘플과 멀리 떨어진 샘플을 구별하는 방식 으로 시계열 표현을 학습
- TS2Vec (Yue et al., 2022): 시계열을 패치 단위로 나눈 후, 각 패치 간의 대조 학습을 수행하여 표현을 학습
- Mixing-up (Wickstrom et al., 2022): 두 개의 서로 다른 시계열 데이터를 혼합(mixing)하여 새로운 샘플을 생성하고, 이를 대조 학습의 양의 샘플로 활용
- LaST (Wang et al., 2022): 시계열 데이터를 계절적(seasonal) 요소와 추세적(trend) 요소로 분리한 후, 이들을 개별적으로 대조 학습하는 방식
- CoST (Woo et al., 2022): 시간 도메인과 주파수 도메인에서 각각 대조 학습을 수행하여 더 나은 시계열 표현을 학습
- TF-C (Zhang et al., 2022): 시계열 데이터를 시간(time) 및 주파수(frequency) 기반으로 변환한 후, 두 표현을 일관되게 유지하는 방식으로 학습
2.2 Siamese Network
- 두 개의 입력 샘플을 비교하고, 이들 간의 관계를 학습하도록 설계된 신경망 구조(Bromley et al., 1993)
- 이러한 네트워크 구조는 대조 학습과 결합하여 두 샘플 간의 관계를 학습하는 데 널리 사용된다.
- 기존에는 주로 이미지 비교, 얼굴 인식, 유사한 문서 검색 등에서 사용되었으나, 최근 시계열 학습에도 활용되기 시작함
- 기존 연구들의 한계점
- 기존 시계열 연구에서는 Siamese Network가 주로 대조학습과 결합되어 활용되었지만, 본질적인 시계열 특성인 “시간적 상관관계”를 충분히 반영하지 못함
- Timesiam은 공유 가중치를 가지는 Siamese AutoEncoder를 활용하여 과거-현재 하위 시퀀스 간의 상관관계를 효과적으로 학습할 수 있도록 함
3. TimeSiam
Siamese Network 기반의 새로운 자기지도학습 시계열 사전 학습 프레임워크
- 이 섹션에선 TimeSiam이 어떻게 학습을 수행하는지, 기존 방법과 어떤 차별점이 있는지, 그리고 세부적인 구현 방식을 설명한다.
3.1 Pretraining
사전학습은 크게 두 개의 주요 모듈로 구성된다: Siamese Subseries Sampling, Siamese Modeling
(1) Siamese Subseries Modeling
- 기존의 시계열 사전 학습 기법들은 단일 시계열 자체를 학습하는 것에 집중했다.
- 하지만 이런 방식은 서로 다른 타임 스텝 간의 관계(e.g., 시간적 상관관계)를 제대로 반영하지 못하는 한계가 있다.
- 그렇기에 이 한계를 극복하기 위하여 하위 시퀀스 쌍을 샘플링하는 방식을 제안한다.
- TimeSiam의 샘플링 방식:
-
하나의 시계열에서 과거(past)와 현재(current) 하위 시퀀스를 무작위로 샘플링 한다.
-
즉, 하나의 시계열 데이터에서 특정 구간을 과거 시퀀스 (xpast)로, 이후 구간을 현재 시퀀스 (xcurr)로 설정하여 Siamese subseries 를 만든다.
-
각 하위 시퀀스는 길이 T 를 가지며, C 개의 변수(variables, multivariate data) 를 포함한다.
→ 이러한 샘플링 방식은 시계열 데이터의 시간적 관계를 학습할 수 있도록 한다. 즉, 모델이 멀리 떨어진 시점의 데이터 간 관계도 학습할 수 있도록 설계됨
(2) Siamese Modeling
3.2 Fine-Tuning
(1) Fixed-Input-Multiple-Lineages
- 전통적인 방법에서는 각 입력 데이터에 대해 하나의 표현만 생성
- 하지만 Timesiam에서는 다양한 계통을 학습했기 때문에, 여러 개의 서로 다른 표현을 생성
- 이렇게 생성된 표현들의 평균을 구하여 최종 출력으로 활용
(2) Extended-Input-Multiple-Lineages
- 기존 사전 학습된 모델은 고정된 길이의 시뭔스를 입력 받아 학습됨
- 그러나 Fine-tuning시 더 긴 데이터 입력을 처리해야 할 수 있음
- Timesiam은 각 부분(sequence segment)마다 서로 다른 계통 임베딩을 적용하여 시간적 일관성을 유지하면서 더 긴 입력 데이터를 활용할 수 있음
→ 그 결과, Timesiam을 이용한 파인튜닝은 기존 방법 대비 일관된 성능 향상을 보이며, in-domain 및 cross-domain 모두에서 효과적임을 입증함
4. Experiments
4.1 Experimental Setup
(1) 데이터셋
- TimeSiam의 성능을 평가하기 위해 13개의 표준 시계열 벤치마크 데이터셋을 사용함
- 이 데이터셋들은 예측 및 분류 두 가지 주요 시계열 분석 작업을 포함
- 사용된 데이터셋:
- 시계열 예측 데이터셋: ETTh1, ETTh2, ETTm1, ETTm2 → 전력 변압기 온도 및 부하 데이터
- Weather → 기상 관측 데이터
- Electricity → 전기 소비량 데이터
- Traffic → 교통량 데이터
- Exchange → 환율 데이터
- TSLD-500M & TSLD-1G → 디양한 도메인의 대규모 시계열 데이터
- 시계열 분류 데이터셋
- AD → 알츠하이머 EEG 데이터
- TDBrain → 신경계 장애 환자 EEG 데이터
- PTB → 심전도(ECG) 데이터
(2) 모델 구성 (BackBone)
- Siamese Enc
- PatchTST
- iTransformer
- TCN
- Baselines:
- 대조 학습(Contrastive Learning) 기반:
- CPC (2018), TNC (2021), TS2Vec (2022), CoST (2022), LaST (2022), TF-C (2022), COMET (2023)
- 마스킹 모델링(Masked Modeling) 기반:
- SimMTM (2023), Ti-MAE (2023), TST (2021), PatchTST (2023)
4.2 Main Results
- TimeSiam은 예측 및 분류 작업에서 기존의 모든 자기지도 학습 방법을 능가하는 성능을 보였다.
- 시계열 예측 결과:
- TimeSiam은 기존의 마스킹 모델링 및 대조 학습 기반 모델 대비 더 낮은 MSE (Mean Squared Error) 값을 기록 하여, 더 정확한 예측 성능을 보였다.
- 특히, 도메인 내(in-domain) 및 도메인 간(cross-domain) 전이 학습에서도 뛰어난 성능을 발휘 함
- 시계열 분류 결과:
- TimeSiam을 적용한 분류 모델은 F1-score, 정확도(accuracy) 등 모든 지표에서 기존 모델을 뛰어넘는 성능을 기록
- 특히 알츠하이머(AD) 및 심전도(ECG) 데이터셋에서 매우 높은 성능을 기록
4.3 시계열 예측 실험
- In-domain
- PatchTST 및 iTransformer를 활용하여 기존 모델보다 5~7% 향상된 MSE를 기록
- 마스킹 모델링이 대조 학습보다 예측 성능이 우수하지만, TimeSiam이 가장 좋은 성능을 보임
- Cross-domain
- TSLD-1G 데이터셋에서 사전 학습 후, ECL, Traffic 등 다른 도메인에서 파인 튜닝하여 평가
- 기존의 사전 학습 기법 대비 더 나은 성능을 보였으며, 일부 데이터셋에서는 도메인 내 학습보다도 성능이 우수함
- 이는 대규모 데이터에서 학습된 TimeSiam이 강력한 일반화 능력을 갖추고 있음으르 의미
4.4 시계열 분류 실험
- In-domain
- AD, TDBrain, PTB 데이터셋에서 평가한 결과, TimeSiam이 F1-score 및 정확도에서 11.5% 향상된 성능을 기록
- 특히, SimMTM, COMET 등 최신 모델보다도 더 높은 성능을 기록
- Cross-domain
- TSLD-1G에서 사전 학습 후, EEG 및 ECG 데이터에서 파인튜닝
- 도메인 간 실험에서도 가장 높은 정확도를 기록하며, 다양한 데이터 도메인에서의 확장성이 높음을 입증
4.5 Ablation Studies
- Siamese Sampling의 효과
- Lineage Embedding의 효과
- 마스킹 전략 비교
- continuous masking이 channel-wise masking보다 더 높은 성능을 보임
- 하지만 마스킹 비율이 너무 높으면 성능 저하
4.6 Analysis Experiments
- 데이터의 규모가 클수록 성능 향상
- 작은 데이터셋보다 대규모 데이터셋에서 사전 학습한 모델이 더 높은 성능을 기록
- 더 긴 입력 데이터를 사용하면 예측 성능이 향상됨
- Linear Probing 실험
- 사전 학습된 인코더를 고정하고 새로운 classifier를 학습한 경우에도 높은 성능을 유지
5. Conclusion
TimeSiam이라는 새로운 자기지도 학습 기반 시계열 사전 학습 프레임워크를 제안
- 기존의 마스킹 모델링과 대조 학습은 시계열 데이터의 본질적인 특징을 충분히 반영하지 못하는문제를 가지고 있음을 강조
- 이러한 한계를 극복하기 위해 시간적 상관관계 (temporal correlation) 를 강조하는 방식으로 설계되었다.
- TimeSiam의 핵심 특징
- siamese network를 활용하여 서로 다른 시간대의 하위 시퀀스 간 관계를 학습
- 간단한 마스킹 기법을 활용하여 다양한 하위 시퀀스를 생성하고 학습
- 과거 시퀀스로부터 현재 시퀀스를 복원하는 “과거-현재 재구성(past-to-current reconstruction)” 방식을 도임
- Learnable Lineage Embeddings를 추가하여 temporal distance를 명확히 구별할 수 있도록 설계
- TimeSiam의 실험적 성과
- 13개의 벤치마크 데이터셋에서 실험을 수행한 결과, 기존의 최첨단 시계열 사전 학습 방법들을 일관되게 능가하는 성능을 보였다.
- TimeSiam은 시계열 예측 및 분류 작업에서 뛰어난 성능을 발휘했으며, 특히 in-domain, cross-domain 학습에서도 강력한 일반화 성능을 입증
Appendix
출처 없음