
What are the fundamental differences between a language model that predicts the next token, and a time-series forecasting model that predicts the next values?
GOAL : LLM처럼 범용적이고 zero-shot 으로도 잘 작동하는 시계열 예측 모델

→ GPT4TS와 Time-LLM은 모두 in-domain training과 fine-tuning이 필요함. 즉, 각 데이터셋에서 fine-tuning이 적용됨. 하지만, Chronos 는 Scaling, Quantization을 통해서 tokenized된 time-series tokens에서 language model을 처음부터 훈련시킴!
Unseen dataset에서의 예측 성능을 보는 것
ForecastPFN : prior distribution으로 정의된 추세, 계절성에 따라서 생성된 synthetic dataset을 transformer모델로 학습시키며 이때 실제 시계열 데이터를 예측하는데 사용됨.
Chronos에서는 Gaussian Process를 통해서 Synthetic dataset을 생성하도록 하며, 실제 시계열 데이터를 함께 학습함으로써 zero-shot 성능을 향상시킴.
ForecastPFN은 point forecasting만 가능한데, Chronos는 probablisitic forecasting이 가능함.
이외에도 기존의 transformer 기반의 시계열 모델들을 pre-train해서 zero-shot forecasting을 수행함. 이러한 기존의 모델들은 시계열의 실제 수치값을 사용함. time-feature, patching, real-valued distribution head, lags등의 요소들이 포함됨.
Chronos : minimalist approach 를 채택함.
→ 즉, 실수 regression을 classification문제로 다룸
language model에 input으로 time-series 데이터를 넣기 위해서 scaled time-series를 quantization을 통해서 나눔.

복원할때도 해당 token에 대응되는 중심값 를 실수로 되돌림.
이 논문에서는 uniform binning 방법을 사용하는데, 분포가 치우치는 경우가 있을 수 있지만, train/test 간에 스케일이 달라도 적용이 가능함.
Chronos는 다양한 도메인에서 적용하기 위해서 uniform binning을 선택함.
하지만 이런식으로 데이터를 quantized하면 트렌드가 강한 시계열에서는 잘 안될 수 있음.

tokenized된 값(bin ID)를 맞추는 분류문제가 되었기 때문에 Cross-Entropy loss로 학습하는 것 하지만, 이 정수 token은 실제로는 실수 값을 대표하는 bin이기 때문에 연속적인 실수값을 예측하는 regression 문제를 분류문제로 풀었다고 할 수 있음..
한계점 : Cross-entropy는 distance-aware loss가 아니기 때문에 모델이 이런 정보를 경험적으로 학습하기를 기대하는 것.. 예를 들어서 bin 30이라고 모델이 예측했는데, 실제 정답이 bin 29인것과 bin 1인것은 큰 차이가 있지만 cross-entropy를 사용하면 이러한 구별이 사라짐.
softmax 결과로 나온 token 분포에서 샘플링하여 결과를 얻음.
예를 들어서 (sample paths)를 얻음. 그래서 다른 모델들과 비교를 위해서는 multiple sampled trajectories의 평균을 대표값으로 사용함.
TSMixup : 다른 시계열 데이터들을 섞어서 새로운 시계열데이터를 만들어냄.

Kernelsynth : Gaussian process를 기반으로 시계열 데이터 생성
