[ArXiv 2024] Lag-Llama: Towards Foundation Models for Probabilistic Time Series Forecasting

진서연 ·2024년 2월 19일
0

Paper Reading

목록 보기
22/24

Foundation model for Time series forecasting with generalization of Zero-shot, few-shot learning.

어떤 문제를 푸는가?

  1. 시계열 예측 모델의 foundation model
  2. zero-shot, few-shot learning 의 일반화 성능이 다른 time-series forecasting 보다 우수하다는 것을 보여줌.
  3. Univariate probabilistic time series forecasting 문제를 품.
  4. 기존의 foundation model for time-series forecasting 들과의 비교가 필요할 것 같다.

Foundation model

→ 다양한 분포의 많은 데이터에 대해서 pre-trained된 모델

→ Foundation model의 few-shot learning의 우수성을 다양한 downstream task에서 입증.

→ 특정 데이터로만 학습한 모델보다도 우수한 성능을 보일때가 있을 정도.

Lag-Llama

→ 시계열 버전의 foundation model

→ open time series dataset으로 학습 시키고 unseen dataset 으로 평가함.

→ univariate probabilistic time series forecasting

→ 구조 : decoder-only transformer architecture

→ 다른 도메인에서 finetuning한 Lag-Llama의 성능이 sota임.

→ unseen dataset에 대해서 강력한 few-shot adaptation performance를 보여줌 (사용가능한 data history의 부분들에 걸쳐서?)

→ 시계열 데이터를 tokenizing함으로써, 각 데이터셋 고유의 frequency에 의존적이지 않음. 그렇기 때문에 unseen frequencies에 대해서 잘 일반화 할 수 있음.

기존 Foundation time series model 과의 차이점

  1. 기존 모델들은 validate 를 classification task에서만 한다.
    1. Time-LLM, LLM4TS, GPT2, UniTime, TEMPO 모델들은 LLM encoder backbone을 freeze하면서 동시에 (예측을 위한 인풋과 분포 앞부분에 fine-tuning한다. )
  2. 반면에 이 논문에서는 foundation model을 시계열 데이터에 적용하고 다양한 도메인에서 가능하도록 하는 것.

Lag-Llama Method

  1. Lag-Llama는 unknown joint distribution과 covariates를 modeling 하는 것.

pϕ(xt+1:t+Pix1:ti,c1:t+Pi)p_\phi(x^i_{t+1:t+P}|x^i_{1:t},\textbf{c}^i_{1:t+P})

다양한 time-series data에 대해서 학습을 하기 떄문에 각각의 dataset마다 다양한 진폭을 가진다. 그렇기 때문에, scaling을 해준다. 이 과정에서 각각의 데이터를 정규화를 처리해주기 위해서 평균과 분산을 구하는데, 이때의 평균과 분산을 이용해서 covariate c를 계산한다. (Section 4.4)

시계열 foundation model로서 가져야 하는 점

  1. 다양한 시계열의 대규모 자료에 대한 학습.
  2. 다양한 시계열의 다양한 frequency에 대해서 대응 가능해야함.
  3. downstream task에 적용할때, 모델이 unseen frequency와 seen frequency의 조합을 다룰 수 있어야함.
  4. 특정 dataset의 frequency에 의존하지 않고 dataset의 series를 토큰화하여 unseen frequency와 seen frequency의 조합을 test에서 적용할 수 있는 일반적인 방법 제시.

Lag-Llama : Lag Features
→ Lag-Llama의 토큰화 전략에는 지정된 시차 세트를 사용하여 계열의 시차 특성을 구성하는 것이 포함됩니다.
→ 지정된 시차 세트에는 Daily, weekly, monthly, 등이 있다.
→ 각 데이터에 적합한 lagged feature를 나타낸다. 예를 들어서, weekly=(t-7), monthly = (t-30) 이런식으로.
→ 각각의 토큰의 사이즈는 input+size L + data feature F임.

Architecture

  • decoder only transformer-based architecture인 LLaMA를 기본으로 하는 구조임.

  • input token은 lagged time steps과 static covariates가 있음.

  • Prjection layer에서는 feature를 decoder 속 attention의 hidden dimension으로 mapping해주는 역할이다.

  • Lag-Llama의 마지막 레이어는 모델의 특징을 확률 분포의 매개변수에 투영하는 distribution head.

distribution head는 Lag-Llama에서 중요한 역할을 한다.

distribution head는 확률 분포를 만들어내고, prediction intervals을 만드는 방법이기도 하다.

  • 이 구조의 마지막 layer에서 student's t-distribution을 사용하여 uncertainty interval을 측정한다.

  • 다른 distribution head들이 결합될텐데, 이 논문에서는 이런 부분들에 대해서는 실험이 진행되지 않고 future work로 둔 것 같다.

  • Lag-Llama를 효과적으로 pre-train하기 위해서

  1. pre-train corpus에서 random windows를 샘플링할때, corpus의 dataset에 총 series 수의 양을 가중하는 계층화된 샘플링 접근 방식을 사용하는 것이 유용함.
  2. Freq-mix, Freq-Mask의 시계열 확대 기술을 사용하면 과적합을 줄이는 데 유용함.

Experimental Setup

Energy, transportation, economics, nature, air quality and cloud operations의 다양한 분야로부터 구한 27개의 시계열 데이터를 사용 해서 학습함.

평가를 위해서 각 도메인에서 몇 가지 데이터셋을 제외시키고 학습시킴.

모델은 총 7,965개의 서로 다른 단변량 시계열이며, 총 3억 5200만 개의 데이터 window으로 구성된다.

profile
SheoYon.Jhin

0개의 댓글