시간 시계열 예측(Time Series Forecasting, TSF)은 다양한 현실 세계의 동적 시스템에서 중요한 역할을 한다. 그러나, NLP나 컴퓨터 비전(CV)분야에서는 하나의 대형모델이 여러 작업을 수행할 수 잇는 반면, 시계열 예측 모델은 특정 작업과 응용 사례에 맞춰 개별적으로 설계되어야하는 한계가 있다.
해당 논문에서는 TIME-LLM이라는 LLM Reprogramming Framework를 제안.
LLM의 백본 모델을 변경하지 않고 시계열 예측에 활용하는 방법 제안 :
Source : TIME-LLM Github
시계열 예측(Time Seriese Forecasting, TSF)은 수요예측, 재고 최적화, 에너지 부하 예측, 기후 모델링 등 다양한 산업에서 필수적인 역할을한다.
그러나 각각의 TSF작업은 특정 도메인 전문지식과 맞춤형 모델 설계가 필요하여 일반화가 어렵다.
반면, GPT-3, GPT-4, LLaMA 같은 대형 언어 모델(LLM)은 다양한 NLP 작업을 Few-shot 또는 Zero-shot 방식으로 수행할 수 있음.
LLM이 시계열 예측을 발전시킬 수 있는 주요 요소 :
1. 일반화 가능성(Generalizability):
- LLM은 Few-shot 및 Zero-shot 학습이 가능 -> 새로운 도메인에 대해 재학습 없이 활용될 가능성.
- 기존 TSF 모델은 특정 도메인에 맞춰져 있어 범용성이 부족
2. 데이터 효율성 (Data Efficiency)
- LLM은 사전 학습된 지식(Pre-trained knowledge)을 활용하여 적은 데이터로도 학습 가능
- 반면, 기본 TSF모델은 대량의 도메인별 데이터를 필요로 함
3. 추론 능력(Reasoning Capability)
- LLM은 복잡한 패턴을 인식하고 논리적으로 추론가능
- TSF 모델은 통계적 접근이 주를 이루며, 고차원 개념을 학습하기 어려움.
4. 멀티모달 학습(Multimodal Knowledge)
- LLM은 텍스트 뿐 아니라 이미지, 음성 등 다양한 데이터 모달리티를 학습가능
- 이러한 특성을 활용하면, 시계열 데이터와 다른 데이터 유형을 함께 결합하여 더 정확한 예척이 가능할 수 있음
5. 최적화 용이성(Easy Optimization)
- LLM은 대규모 학습니 완료된 상태에서 특정작업에 바로 적용가능하고, 하이퍼 파라미터 튜닝을 수행해야함.
모달리티 정렬문제(Modality Alignment)
사전 학습 부족(Lack of Pre-trained Knowledge)
Time-LLM : LLM을 시계열 예측에 적용하는 새로운 재프로그램(Reprogramming) v프래임워크
핵심 개념
1. 입력 변환 (Reprogramming Input Time Series)
- 시계열 데이터를 LLM이 이해할 수 있도록 텍스트 프로토 타입(Text Prototype) 형태로 변환
2. Prompt-as-Prefix(PaP)기법
- 단순한 입력 변환을 넘어, LLM이 시계열 데이터를 잘 이해할 수 있도록 도메인 지식 및 작업 지침을 포함한 프롬프트 제공.
LLM을 변경하지 않고 Reprogramming 시계열 예측에 적용하는 새로운 개념을 제안하여, 시계열 예측을 언어 처리와 유사한 문제로 변환하여 해결 가능한 TIME-LLM 프레임워크 개발하였으며,
Few-shot 및 Zero-shot 시나리오에서도 기존 모델을 초월하는 성능을 보였다. 게다가, 동시에 모델 재사용성이 뛰어나고, 최적화비용이 낮다.
TSF모델의 발전과정과 LLM을 활용한 새로운 접근법, 그리고 기존 연구의 세가지 주요방향
그림 1. LLM을 활용한 시계열 예측 모델의 다양한 접근 방식을 비교
대부분의 전통적인 시계열 예측 모델은 특정작업(예 : 교통량 예측, 기후 모델링 등)과 특정 도메인에 맞춰 정용 모델로 설계.
이러한 모델들은 소규모 데이터셋에서 최적화되며, End-to-end 방식으로 훈련.(그림1의 (a)참고)
대표적인 전통적 시계열 예측 모델:
문제점 : 특정 도메인에 최적화되었기 때문에 범용성이 부족하며, 다양한 종류의 시계열 데이터를 처리하는 능력이 제한된다.
NLP 및 CV에서는 사전 학습된 대형 모델을 다양한 하위 작업에 미세조정(fine-tuning)하여 활용하는 방식이 널리 사용.
이러한 성공을 바탕으로 TSPTMs (TimeSeries Pretrained Models, 시계열 사전학습모델)이 연구되기 시작.
TSPTMs의 주요 전략 :
문제점 : TSPTMs는 NLP/CV 분야의 사전 학습 모델과 유사한 구조를 따르지만, 데이터부족 문제로 인해 여전히 작은 규모에서만 활용.
기존의 NLP 및 CV모델을 시계열 데이터로 전이(Transfer Learing)
하는 연구가 진행
대표적인 연구:
기존 연구들은 대부분 LLM을 시계열 예측에 적용하기 위해 미세조정(Fine-tuning)하거나 입력 데이터 자체를 변경하는 방식을 사용.
TIME-LLM은 이러한 방식과 달리:
모델의 구조는 크게 입력변환(Input Transformation), LLM 적용(Pre-trained LLM), 출력변환(Output Projection)으로 구성된다.
해당 그림은 Time-LLM(Time Series Forecasting using LLM Reprogramming)의 전체적인 모델 프레임워크를 시각적으로 설명. 기존 LLM을 수정하지않고, 시계열 데이터를 자연어 형태로 변환하여 예측하는 방법 제안.
흐름 및 주요 단계 :
Patching (패치변환)
Patch Embedding(임베딩 변환)
Patch Reprogram(패치 재프로그램)
Prompt-as-Prefix(PaP, 프롬프트 추가)
Output Projection(출력 투영)
🔥 (불꽃 아이콘) → 학습 과정에서 업데이트되는 가중치 (출력 투영 과정).
❄️ (눈꽃 아이콘) → LLM은 동결된 상태(Frozen) 로 유지되며 변경되지 않음.
파란색 박스 → LLM에서 처리하는 주요 과정 (임베딩, 본체, 출력 등).
노란색 박스 → 패치 변환과 재프로그램 과정 (Patch Reprogram).
TIME-LLM은 기존의 Fine-tuning 방식보다 더 범용적이고 효율적인 시계열 예측 방법을 제공한다.
해당 그림은 전체적인 구조 및 데이터 흐름을 한눈에 이해할 수 있도록 정리한 개념도이며, 핵심기법인 Patch Reprogramming과 Prompt-as-Prefix기법을 강조한다.
1. 시계열 데이터 정규화(Normalization)
- 각 입력 채널 𝑋(𝑖)를 개별적으로 평균 0, 표준편차 1로 정규화하여 시계열 분포 변화를 완화.
- Reversible Instance Normalization(RevIN)을 사용하여 시계열 데이터의 변화에도 적응하도록 함.
2. 패치변환(Patching)
- 시계열 데이터를 고정 길이의 패치 (Patch)단위로 분할
- 연속적인 패치를 구성하여 모델이 로컬 시계열 패턴을 효과적으로 학습하도록 유도
- 패치 수는 다음과 같이 계산된다.
- Lp : 패치 길이
- 𝑆 : 슬라이딩 윈도우 크기
3. 패치 임베딩 (Patch Embedding)
- 분할된 패치를 선형 레이어를 통해 임베딩 벡터로 변환.
- 임베딩 된 패치 데이터를 LLM이 처리할 수 있는 형식으로 변환.
결과적으로, 시계열 데이터는 Text Prototypes를 통해 LLM의 자연어 처리 능력과 정렬됨.
Figure3-2. Patch-as-Prefix VS. Prompt-as-Prefix 두가지 방법비교.
LLM의 예측 성능을 향상시키기 위해 Prompt-as-Prefix(PaP)기법 도입.
시계열 데이터를 패치 단위로 변환 후, 이를 LLM에 직접 입력하여 다음 값을 예측하도록 학습.
예측값은 숫자(0.6)과 같은 형태로 직접 생성.
LLM이 시계열 데이터를 더 효과적으로 학습할 수 있도록 프롬프트 추가
패치 변환 후, 추가적인 프롬프트를 입력하여 LLM이 시계열 데이터를 더 효과적으로 학습할 수 있도록 유도
출력은 자연어 기반으로 생성된 후, 최종적으로 Projection Layer(출력변환 레이어)를 통해 시계열 예측값으로 변환됨.
프롬프트 구성요소
Dataset Context : 데이터의 의미와 특성 제공
Task Instruction : LLM이 수행해야할 예측 작업 정의 - 예측할 타임 스템과 예측 방식 설명
Input Statistics : 입력 데이터의 통계 정보 제공
장 점
LLM의 논리적 추론 능력 활용 가능
- 숫자 자체를 예측하는 대신 데이터 패턴을 자연어로 이해하고 분석 가능.
출력의 일관성 향상
- LLM이 수치를 직접 생성하는 것이 아니라, 최적의 변환과정을 거쳐 일관된 예측값을 생성
Few-shot, Zero-shot 학습에서 강력한 성능
- LLM이 이미 학습한 다양한 도메인 정보를 활용할 수 있으므로, 데이터가 부족한 환경에서도 성능이 뛰어남.
Figure 4. 프롬프트의 구조
1. [BEGIN DATA]
- 프롬프트가 포함하는 정보의 시작을 알리는 태그.
- 이후 시계열데이터와 관련된 설명 및 통계정보가 포함.
2. 프롬프트 주요 내용
- [Domain]
도메인 설명
- 해당 데이터가 의미하는 바를 설명하여 LLM이 데이터를 이해할 수 있도록 도움.
- 해당 예제에서는 전력 소비량(Electricity consumption)이 정오(Noon) 시간대에 최고치(Peak)에 도달한다는 정보 제공.
- 도메인 지식이 포함됨으로써 LLM이 시계열 데이터의 패턴을 추론하는데 도움이 됨.
- [Instruction]
작업지시
- LLM이 수행해야할 예측 작업을 설명
- 해당그림 :
```py
"이전 <T> 스탭(시간)의 데이터를 보고, 다음 <H> 스텝을 에측하라"
- 여기서 `<H>`와 `<T>`는 특정한 숫자로 대체될 변수(Task-specific configurations).
```
- `[Statistics]` 입력 데이터 통계
- 시계열 데이터의 수치적 특징을 제공하여 모델이 패턴을 쉽게 인식할 수 있도록 함.
- 제공되는 주요 통계 정보 :
1. `<min_val>` 최소값
2. `<max_val>` 최대값
3. `<median_val>` 중앙값
4. `<upward> or<downward>`전체적인 추세
5. `<lag_val>` 가장 중요한 상위 5개의 지연값
[END DATA]
종료 테그PaP 기법을 활용하면, LLM이 더 효과적으로 시계열 패턴을 분석하고 예측 가능
TIME-LLM은 다양한 벤치마크와 실험 설정에서 최신 SOTA 시계열 예측 모델을 뛰어 넘는 성능을 기록했다. 특히 Few-shot 및 Zero-shot 학습 시나리오에서도 우수한 성능을 보였다.
('periodic', 'seasonal', ...)
-> 주기적, 계절적 패턴 표현('quantile', 'average', ...)
→ 통계적 요약값을 표현.('outspoken', 'galilee', ...)
→ 추가적인 의미적 연관성을 가지는 프로토타입.Time LLM은 Text Prototypes를 활용하여 시계열 데이터의 패턴을 학습하며, 이를 통해 기존 모델보다 더 강력한 일반화 성능을 갖게 된다.
TIME-LLMdms 기존의 LLM을 수정하지 않고도 시계열 예측에 적용할 수 잇는 강력한 프레임워크임을 입증
향후 연구방향
: TIME-LLM은 Fine-tuning 없이도 LLM을 시계열 예측에 적용할 수 있는 강력한 방법론을 제시하며, 향후 더욱 정교한 재프로그램 방식과 멀티모달 확장을 통해 더 넓은 분석 능력을 갖춘 모델로 발전할 가능성이 크다.