downsampling: 0.447(MSE)
→ 입력 토큰 수가 줄어들었지만, MSE는 감소하였다.
: 이는 더 긴 과거 데이터가 중요한 정보를 더 많이 포함하고 있음을 나타낸다. (입력 토큰의 개수보다)
정리
- 길이가 L인 다변량 시계열 샘플이 주어졌을 때, 각 시간 단계 t에서의 벡터 는 차원 M을 가지며, T개의 미래 값를 예측하고자 한다.
- 제안된 모델의 구조는 다음과 같으며, 기본적으로 transformer의 encoder를 핵심 아키텍처로 사용한다.
Forward Process:
i번째 단일 변수 시계열의 길이:
입력은 M개의 단일 변수 시계열 로 분리되며, 각각의 시계열이 transformer backbone(Encoder)으로 독립적으로 전달됨
transformer backbone은 각 채널에 대해 형태로 예측 결과를 생성한다.
Patching:
Transformer Encoder:
관측된 신호를 latent representation으로 mapping
패치는 linear projection과 positional encoding을 통해 잠재 공간으로 mapping
이 과정을 통해 이 생성되며, 은 인코더로 전달
Multi-Head Attention:
transformer의 각 head는 다음과 같이 Q, K, V 반환
BatchNorm, feed-forword network, residual connections가 포함된다
이 작업을 통해 잠재 표현 z가 생성이 되며, 마지막으로 flatten, linear를 통해 를 얻을 수 있다.
loss function:
Instance Normalization:
정리
- 자기 지도 표현 학습은 레이블이 없는 데이터에서 고수준의 추상적 표현을 추출하기 위한 인기있는 접근 방식
- 이 섹션에서는 제안 모델을 적용하여 다변량 시계열의 유용한 표현을 얻는 방법을 설명
- 예측 task에 효과적으로 전이될 수 있음을 보여줌
Linear Probing: 네트워크의 나머지 부분을 고정하고, 헤드만 학습
End-to-End Fine-Tuning: 초기 10 epoch 동안 선형 프로빙을 수행한 뒤, 전체 네트워크를 추가로 20 epoch 동안 학습
→ 대규모 데이터 셋에서 사전 학습이 지도 학습보다 명확한 개선 효과를 보였으며, 단순히 모델 헤드만 학습(linear probing)했을 때도 성능이 비슷하거나 더 좋았음. end-to-end fine-tuning이 가장 좋은 성능을 보였으며, 모든 데이터셋에서 transformer 기반 모델을 크게 능가
GPT..?