Abstract
- 라벨이 없는 시계열 데이터에서 적절한 representation을 학습하는 것은 중요함.
- 비지도 시계열 표현학습 TS-TCC을 제안함.
- 서로 다르지만 상관성 있는 관점으로 보기 위해 → 원본 시계열에 weak/strong aug
- 강건한 temporal 표현을 학습하기 위해 → cross-view prediction task
- discriminative 표현을 학습하기 위해 → contextual contrasting
- 결과적으로 분류, few-labeled, transfer learning 시나리오에서 좋은 성능을 보임.
1. Introduction
- 라벨 부족 등의 이유로 Self-supervised learning 등장
- pretext tasks ex) solving puzzles
- pretext task는 일반성이 떨어진다는 한계점 있음
- 회전시킨 이미지를 분류하는 것은 색깔이나 물체의 위치 등의 특징을 해칠 수 있음.
- Contrastive Learning 등장
- augmented data로부터 invariant representation 학습
- 그러나, image-based constrastive learning은 시계열 데이터에 적합하지 않음.
- temporal dependencies를 다룰 수 없음.
- color distortion과 같은 augmentation tech는 시계열 데이터에 적합하지 않음.
- 본 논문에서는, 시계열 데이터에 적합한 대조학습을 사용해 robust한 representation을 추출하고자 함.
3. Methods
![](https://velog.velcdn.com/images/yetsyl0705/post/20325f7c-1c22-445b-9487-2f2204ca54b1/image.png)
3.1. Time-Series Data Augmentation
" 서로 다른 augmentations는 학습된 표현의 robustness를 향상시킬 것이다. "
1. weak augmentation → jitter-and-scale strategy
2. strong augmentation → permutation-and-jitter strategy
3.2. Temporal Contrasting
![](https://velog.velcdn.com/images/yetsyl0705/post/2dbaaf10-08b0-4f5c-95e6-a7343cffe31e/image.png)
- latent representation z가 주어졌을 때, autoregressive model은 z≤t를 context vector ct로 요약함.
- 이 context vector ct는 zt+1부터 zt+k까지의 timestep을 예측함.
- 단, 본 논문에서는 strong augmentation의 context vector를 weak augmentation에서 나온 z 예측을 위해 사용
- 즉 cross-prediction 전략 사용함.
![](https://velog.velcdn.com/images/yetsyl0705/post/20e46669-a6aa-43de-8414-e87594fd0ea7/image.png)
- 효율성과 속도를 위해 transformer의 encoder 사용함.
- Multi-Head Attention 사용 후, MLP block으로 사용함.
- MLP block은 two fully-connected layers with a non-linearity ReLU function and dropout으로 구성됨.
- stable gradient를 위해 pre-norm residual connection 사용함.
- BERT model에서 차용해, token c를 input에 더함
![](https://velog.velcdn.com/images/yetsyl0705/post/6237b954-bd13-485f-8df4-95cfbf476824/image.png)
3.3. Contextual Contrasting
- positive pair와 negative pair를 정의함.
- 같은 데이터에 strong aug 적용한 context, weak aug 적용한 context를 양의 쌍으로 정의함.
- 나머지 쌍을 음의 쌍으로 정의함.
- 양의 쌍끼리는 가깝게, 음의 쌍끼리는 멀게 학습하도록 손실함수 구성
![](https://velog.velcdn.com/images/yetsyl0705/post/389d7b36-8475-49f0-a162-a80d144747f5/image.png)
[최종 Loss]
![](https://velog.velcdn.com/images/yetsyl0705/post/30e4c830-7c01-4cc1-94c1-3f33a44023fb/image.png)
4. Experimental Setup
![](https://velog.velcdn.com/images/yetsyl0705/post/5081308f-8b1e-4023-aefe-015b7a9e6775/image.png)
- Human Activity Recognition (HAR)
- Sleep Stage Classification
- Epilepsy Seizure Prediction
- Fault Diagnosis (FD) -> trasnferability 평가
5. Results
5.1. Comparison with Baseline Approaches
![](https://velog.velcdn.com/images/yetsyl0705/post/247bbcd9-4389-4519-8af5-213ebc1536cf/image.png)
(1) Random Initialization: 랜덤 초기화된 encoder + linear classifier
(2) Supervised: supervised encoder + supervised classifier
(3) SSL-ECG: pretext-learning → 대조학습으로 invariant features를 잘 학습함.
(4)-(6): contrastive learning → temporal features 학습의 중요성
5.2. Semi-supervised Training
: pretraining with few labeled samples -> fine-tuning
![](https://velog.velcdn.com/images/yetsyl0705/post/c6c9b6b5-ee6d-49de-9605-1e33712809a9/image.png)
5.3. Transfer Learning Experiment
: train on source domain -> test on target domain
![](https://velog.velcdn.com/images/yetsyl0705/post/6add5fb3-0b08-48e2-b4da-9306b0f9a1dd/image.png)
5.4. Ablation Study
![](https://velog.velcdn.com/images/yetsyl0705/post/1711e27e-5d6e-48d4-915c-99093c56011f/image.png)
(1) TC: Temporal Contrasting module (cross-view prediction task X)
(2) TC + X-aug : TC module with cross-view prediction task
*Epilepsy 데이터는 augmentation 하나라도 좋은 성능을 보임.