다변수 시계열 예측(MTSF)의 성능을 높이기 위해, 시계열과 텍스트를 결합한 LLM 기반 프레임워크인 TimeCMA를 제안함.
전통적 딥러닝 모델: 학습 파라미터 수의 한계로 인해 데이터가 부족한 상황(Low-data regime)에서 성능이 급격히 저하됨.
기존 LLM 기반 모델: 시계열을 자연어로 변환해 LLM에 입력하나, 시계열 고유의 정보와 텍스트 정보가 복잡하게 얽히는 Data Entanglement 발생.
노이즈 문제: 시계열 임베딩과 텍스트를 단순 결합(Concat)할 경우, 텍스트가 시계열 신호의 노이즈로 작용하여 예측 정확도를 떨어뜨림.
보통 LLM 기반 시계열 예측 모델은 시계열을 자연어로 만든 다음 그대로 LLM에 넣는 방식 사용 → 어디서 어떤 정보가 나왔는지 알 수가 없음. 의미(정보)가 섞여있음
반면, TimeCMA의 경우 entangled 하지만 풍부한 자연어 데이터 + disentangle 하지만 상대적으로 약한 시계열 임베딩 모두를 사용해서 성능 향상
시계열 브랜치 (TS Branch): 정제(Disentangled)된 형태이나 상대적으로 표현력이 약한 시계열 임베딩 생성.
LLM 브랜치 (Text Branch): 시계열을 자연어 프롬프트화하여 Robust하고 풍부하지만, 정보가 얽힌(Entangled) 임베딩 생성.
선택적 정보 추출: 두 임베딩 간의 유사도를 기반으로 LLM 임베딩 중 시계열 특징과 일치하는 핵심 정보만 필터링함.
노이즈 제거: 단순 결합 시 발생하는 텍스트 노이즈 문제를 해결하고 정보의 순도를 높임.
LLM의 고질적인 문제인 연산 비용과 속도를 해결하기 위해 두 가지 최적화 기법을 도입함.
Last-Token 집중 설계:
- 텍스트 프롬프트의 마지막 토큰에 모든 핵심 시퀀스 정보가 응축되도록 유도함.
- 추론 시 LLM의 전체 토큰이 아닌 마지막 토큰 임베딩만 사용하여 연산량 급감.
Inference 속도 개선:
- 마지막 토큰 임베딩을 저장(Caching)하여 재사용하는 구조를 통해 실시간 예측 환경에서도 빠른 대응이 가능함.
- 결과적으로 LLM의 강력한 추론 능력을 유지하면서도 계산 비용을 대폭 낮춤.
Related Work는 생략하도록 한다.

Time Series Encoding Branch
(1) 입력 데이터 정의
X_T ∈ ℝ^(T × N)
T: 시계열의 길이 (time steps)N: 변수 개수 (예: 온도, 습도, 인구수 등)즉, 각 열이 하나의 변수이고 각 행이 시간에 따른 값을 의미
(2) Inverted Embedding

X_T: 원래 시계열 데이터 (T × N)W_e: 학습 가능한 가중치 (C × T)b_e: bias (C × N)H_T: 최종 시계열 임베딩 (C × N) — 각 변수마다 하나의 벡터즉, 각 변수에 대해 하나의 벡터 표현(embedding)을 만들어냄.
"변수가 곧 토큰이다"
변수 단위 토큰화: 하나의 변수(Channel)가 가진 전체 시계열 데이터를 단일 '토큰'으로 정의함.
통념의 전환: 시점(Time-step)마다 벡터를 만드는 기존 방식과 달리, 변수별로 하나의 임베딩 벡터를 생성함.
기존 방식과 비교

(3) 시계열 정규화 (Reversible Instance Normalization)
X_T를 평균 0, 표준편차 1로 정규화(4) TSEncoder: Pre-LN Transformer 사용
→ 학습 안정성 및 수렴 속도 향상됨
H_T^i: i번째 layer의 입력He_T^i: i번째 layer의 normalized outputμ, σ: 평균과 표준편차γ, β: 학습 가능한 scaling/shift 파라미터→ 이 과정을 거치며 변수 간 표현을 학습하게 됨.
(1) Pre-trained LLM: GPT-2
(2) Tokenizer 처리
PS ∈ ℝ^(S × N) → PG ∈ ℝ^(G × N)
PS: 입력 프롬프트 텍스트 (ex. “The temp readings were 23.4, 24.1, 25.0”)PG: 토크나이저로 바꾼 GPT-2의 token ID각 시계열 변수마다 1개의 프롬프트 문장을 만듭니다 (즉, N개의 프롬프트 → 각각 G개의 token)
(3) GPT-2 인코딩 구조**
Transformer 디코더 구조를 따릅니다. 수식 정리해보면:


(4) Last Token Embedding 저장
왜 GPT-2에서 나온 전체 토큰이 아니라 "마지막 토큰"만 쓰는가?
→ 효율성 ↑, 성능 유지
LN = {l₁, ..., l_N} ∈ ℝ^(N × E)
LN: N개의 변수 각각에 대한 마지막 토큰 임베딩 (각 크기 E)이걸 저장해놓고 계속 재활용함 (GPT2 파라미터 업데이트 안하니까) → 학습 속도와 추론 속도 개선
(5) PromptEncoder 정의**
(1) Linear 변환 (공통 공간으로 투영)
먼저 시계열 임베딩 H_T와 LLM 임베딩 L_N을 동일한 임베딩 공간으로 바꾸기 위해,
3개의 선형 레이어를 사용
ψ_q(H_T) → Query
ψ_k(L_N) → Key
ψ_v(L_N) → Value
이건 Self-Attention의 구조를 그대로 따름
(2) Channel-wise 유사도 계산

⊗: 행렬 곱M_T: 유사도 매트릭스 (C × E)→ 각 시계열 채널이 어떤 LLM 표현 차원을 참고할지 선택
(3) 임베딩 정제 및 결합

ψ_v(L_N) ⊗ M_T: LLM 표현에서 주목할 부분만 추출 (attention-based aggregation)ω_c: 또 다른 선형 레이어로 변환⊕ H_T: 시계열 원본과 합쳐서 residual connection → 원래 시계열 구조를 유지하면서 LLM 정보 덧입힘(1) 입력: Cross-Modality 임베딩
(2) Layer Norm: 정규화
(3) Masked Multi-Head Self Attention (MMSA)
(4) 두번째 LayerNorm + Cross Attention

(5) Projetion Layer → 예측 값 생성

W_p: 선형 weight matrixb_p: biasȞ_C ∈ ℝ^(C × N) → 출력 X̂_M ∈ ℝ^(M × N)각 변수에 대해 미래 M타임스텝 예측값 생성됨
(6) Denormalization
(7) Loss 계산 식

예측 손실 (Prediction Loss: MSE)

→ 람다로 두 loss의 비중 조절
(1) 성능 비교 실험
→ LLM base 모델이 딥러닝이나 linear한 전통적인 모델보다 성능이 나음
→ Inverted embedding is essential for capturing multivariate dependencies

(2) Ablation Studies of Model Design

(3) Ablation Studies of Model Design

MSE 기준 숫자가 마지막 토큰으로 끝나는 프롬프트가 성능이 좋음
(4) Last Token Attention Analysis (GPT-2 마지막 토큰집중 분석)
결과 (Fig. 5 참조):
GPT-2의 마지막 토큰은 텍스트보다 시계열 값에 더 집중함
→ 이는 "프롬프트 안에 포함된 수치 정보"가 실제로 LLM 임베딩 품질에 영향을 주는 걸 의미
