논문 출처 Adaptive Information Routing for Multi Modal Time Series Forecasting
일반적으로 시계열 데이터는 텍스트 데이터에 비해 Local하고, 구체적이며, 구조화된 정보를 담음
텍스트 데이터는 시계열 데이터에 비해 Global하고, 모호하며, 구조화되지 않은 정보가 가득.
따라서 두 데이터의 서로 다른 특성을 고려하지 않고 시계열, 텍스트 데이터를 단순히 모델 입력 목적으로 함께 사용하는 방법은 데이터의 활용 능력에서 근본적인 한계를 가짐
기존 방식이 텍스트를 보조 입력으로만 쓰는 반면, AIR는 텍스트를 이용해 시계열 정보의 결합 방식과 정도를 조절함.
실험 결과, AIR는 예측 정확도를 크게 향상시켰으며, 특히 주가 예측 등 실제 데이터에서도 효과가 뛰어남
기존 시계열 예측 모델은 시계열 데이터만 활용하지만, 사람은 다양한 정보(예: 텍스트)를 함께 참고
최근에는 LLM의 성공에 힘입어, 텍스트와 시계열 데이터를 결합하려는 연구들이 활발히 진행중
이전 연구들은 LLM에 시계열 데이터를 입력하거나, LLM에서 추출한 텍스트 임베딩을 시계열과 합치는 방식 등을 사용 BUT 대부분의 방법은 텍스트를 단순한 보조 정보로만 처리
이에 반해, 본 논문에서는 텍스트 정보를 예측 모델의 작동 방식을 조정하는 ‘조정자(controller)’로 사용→ 즉, 텍스트에 따라 시계열 정보가 결합되는 방식과 정도를 동적으로 제어하는 새로운 프레임워크인 AIR (Adaptive Information Routing).
→ 이로써 예측 전 과정에서 텍스트의 영향을 효과적으로 반영 가능
💡AIR 핵심 내용
텍스트 정보를 바탕으로 시계열 예측 모델 내부의 정보 흐름(정보 경로)을 동적으로 조절하는 프레임워크
완전 연결 계층(FC layer)을 두 개의 FC 계층으로 분해하고, 그 사이에 잠재 노드(latent representation)를 두는 것
이 구조에서 각 잠재 노드는 입력과 출력 사이의 특정 연결을 나타내며, 텍스트 임베딩을 통해 이 잠재 노드들에 가중치를 부여
→ 즉, 텍스트 정보에 따라 입력과 출력 사이의 연결 강도를 조절하게 되며, 이를 통해 시계열 모델의 동작 방식을 제어 가능
위와 같은 구조를 바탕으로 Information Routing 모듈을 이용!

텍스트 임베딩 모델 (Embedding Model)
임베딩 통합기 (Embedding Integrator)
여러 텍스트 임베딩을 하나로 통합
구조: Attention Layer + 통합 토큰(integration token)
(통합토큰이란? :
여러 개의 텍스트 임베딩이 입력될 때, 가장 중요한 정보를 추출하여 하나의 대표적인 벡터를 생성)
가중치 생성기 (Weight Generator)
1. 사전 학습된 임베딩 모델을 통해 텍스트 → 고정벡터로 임베딩
2. Attetion Layer와 학습 가능한 Integration 토큰을 사용해 텍스트 데이터 → 단일 벡터로 통합
3. 다층 퍼셉트론 형태의 가중치 생성기로 가중치 생성
> 💡 TsMixer 핵심 내용
TSMixer는 Mixer Block이라는 단위 구조를 반복하여 시계열 데이터를 처리
각 Mixer Block은 다음과 같은 두 개의 FC Layer로 구성
즉, TSMixer는 시간적인 관계와 특성 간 관계를 각각 학습하는 방식

AIR는 기존 TSMixer의 FC Layer를 더 세밀하게 조정할 수 있도록 변형
변경점:
즉, AIR는 기존의 단순한 FC Layer 구조를 더 유연하게 변형하여, 텍스트 정보를 활용
AIR의 Information Routing 모델은 단순히 하나의 가중치를 적용하는 것이 아니라,
각 Mixer Block과 각 FC Layer마다 서로 다른 가중치를 생성하여 적용
즉, 텍스트 정보에 따라 블록별로 다르게 정보 흐름을 조절하는 것이 핵심!!
1. Synthetic 데이터 실험
데이터 생성 과정:
실험 목적:

TSMixer + AIR (위쪽)
TSMixer (아래쪽)
주가 데이터 실험 (AIR가 실제 주가 예측에 효과적인지 검증)
데이터 구성:
실험 목적:

