[논문리뷰] LETS-C : Leveraging Text Embedding for Time Series Classification

hyo._.op·2026년 2월 28일

논문리뷰

목록 보기
2/2
post-thumbnail

Overview

논문명: LETS-C : Leveraging Text Embedding for Time Series Classification
학회(출판연도): ACL(2025)
연구분야: 딥러닝 기반 시계열 표현 학습


Abstract

  • 최근 사전학습된 LLM을 시계열 분류 과제에 맞게 파인튜닝하는 방식이 SOTA 달성
  • 하지만, LLM기반 모델들의 학습 파라미터가 수백만 개에 달하는 대규모 모델이라는 단점 존재
    ⇒ LLM을 파인튜닝하기 보단,
    ① 텍스트 임베딩 모델을 통해서 시계열 데이터를 임베딩 한 후
    ② CNN과 다층 퍼셉트론(MLP)로 구성된 간단한 분류 헤드와 결합하자!

[결과]

  • 기존 SOTA 모델 능가
  • 평균적으로 SOTA대비 14.5%정도 학습 가능한 파라미터 사용

1. Introduction

  • 시계열 분류
    • 금융, 헬스케어, 활동 인식 등 다양한 분야에서 폭넓게 활용
      → 효율적이면서도 정확한 분류 방법에 대한 필요성이 높아지고 있음
  • TSC의 NLP와 LLM의 적용
    • 프롬프팅 기법
    • 사전 학습 LLM에 파인튜닝 하는 방식
    (P) [한계]
    • LLM은 수십억개의 파라미터를 가진 거대한 모델 → 계산 비용이 높아 제한된 환경에서는 실용적X
    • 부분적으로 동결된 사전 학습 LLM을 파인튜닝하더라도 수백만개의 학습가능한 파라미터 필요
  • (S) LETS-C
    • 기성 텍스트 임베딩 모델을 활용하자!
    • 텍스트 임베딩 + CNN과 MLP로 구성된 분류헤드 결합
      • 텍스트 임베딩 모델: 시간적 데이터에 내재된 복잡한 패턴과 의존성 포착
      • 분류헤드: 서로 다른 클래스간 구분

[기여]

1. 최고 수준 성능

  • 다양한 시계열 도메인 데이터셋에서 SOTA 달성
  • 27개의 베이스라인모델 능가

2. 계산 효율성

  • 기존 SOTA대비 14.5%의 파라미터만을 사용

3. 시계열 임베딩 내재적 판별력

  • 텍스트 임베딩이 분류 정확도 향상에 기여

4. 다양한 텍스트 임베딩 모델에 대한 일반화 성능 - 서로 다른 텍스트 임베딩 모델에서도 굿

5. 정확도 손실을 최소화한 모델 크기 최적화

  • 모델 크기를 줄여도 높은 정확도 유지

Time Series Classification

[초기연구]

  • 지도학습
    • DTW, SVM 같은 거리 기반 접근법
    • 특징추출기법 + XGBoost 분류기 결합 방식
    • CNN, MLP, LSTM같은 순환 신경망(RNN)을 포함한 딥러닝 기반 접근법
    • 최근 Transformer기반 self-attention을 활용하여 장기 의존성 포착
  • 비지도학습
    • 마스킹된 시계열 복원 과제로 사전학습
    • 분류와 같은 다운스트림 과제에 파인튜닝하는 방식

⇒ 높은 계산 비용으로 인해 학습 과정에서 부담有

Language Models for Time Series

[최근 연구]

  • 시계열 - 텍스트 모델링, 시계열에 대한 자연어 설명, 다양한 응용을 포함하여 시계열과 언어의 결합 탐구
    • 프롬프팅 → 시계열 예측에 활용 (일부 설명 가능한 금융 예측 생성 가능성 탐구됨)
    • Time-LLM
      • 시계열 데이터를 언어 임베딩 공간으로 매핑하여 LLM기반 예측
    • GPT와 같은 LLM을 파인튜닝 → SOTA 달성

[LETS-C]

  • LLM을 직접 사용하기보단 텍스트 임베딩 활용

Text Embeddings

  • NLP의 핵심적 표현 기법

    • 단어 또는 문장을 밀집 벡터 공간으로 매핑하여 의미적, 구문적 정보 포착
    • 단어 수준의 임베딩: Word2Vec, GloVe
    • 문맥기반 임베딩: BERT, RoBERTa

    ✓ Word2Vec

    • 단어 하나마다 항상 같은 벡터를 부여하는 방식
    • 각 점 = 단어 하나
    • 비슷한 단어들이 공간에서 가까이 모여 있음

    ✓ GloVe

    • 단어들이 전체 말뭉치에서 얼마나 같이 등장하는지 보는 방식
    • 같이 등장한 빈도 기반으로 벡터 공간 형성
    • 고정된 단어 벡터
  • 시계열

    • NLP에 비해 대규모 데이터셋 부족
    • 임베딩을 처음부터 학습하는 것에 대한 어려움

⇒ 시계열을 잘 표현하려면, 시퀀스 전체 문맥을 요약할 수 있는 임베딩이 필요한데, NLP에서는 BERT계열이 가장 잘해왔다.

LETS-C는 그걸 학습하지 않고, 그냥 가져다 쓰는(lightweight) 전략을 사용하자는 것!
즉, LLM을 학습하기 보단, 이미 학습된 표현공간을 활용하자는 아이디어


3. Methodology

  • 시계열 분류 데이터셋

    • 다변량 시계열 샘플 x_i를 클래스 레이블 y_i에 대응
  • 목표: 각 시계열에 대해 클래스 레이블(햇y)을 정확히 예측하는 분류기 학습

  • 과정

    • 시계열 데이터 정규화 (전처리)
    • 정규화된 데이터로 임베딩 생성
    • 임베딩과 원본 시계열 데이터 결합
    • 결합 데이터를 CNN과 MLP로 구성된 분류 헤드에 입력

    ✓ 단순한 분류 헤드를 선택한 이유

    • 텍스트 임베딩만으로도 효과적인 분류를 하기에 충분하다

Preprocessing

  • x_i의 각 특징 차원 [0,1]범위로 min-max 정규화
    • 일관된 스케일 보장 목적

Text Embedding of Time Series

✓ 임베딩이란?

  • 컴퓨터의 입장에서는 "고양이가 귀엽다"에서 고양이? 귀엽다? 의미를 모름 (숫자만 계산 가능)
    → 때문에 단어에 숫자를 붙이기 시작했음!
  • one-hot encoding
    • 이렇게 되면 서로가 모두 다른 값이고 고양이와 강아지가 비슷하다와 같은 정보를 얻을 수 없음
    • 또한 단어 수가 늘면 벡터가 엄청나게 커지는 문제 발생
      ⇒ 비슷한 의미의 단어는 숫자 벡터에서도 비슷하게 만들자!
  • 임베딩
    • 복잡한 대상(단어, 문장, 이미지 등)을 의미를 담은 숫자 벡터로 바꾸는 것
    • 벡터간 거리 = 의미 유사도

✓ 텍스트 임베딩이란?

  • 문장(텍스트)의 "의미"를 숫자 벡터 하나로 압축해서 표현하는 것
  • 핵심: 비슷한 의미의 문장은 숫자벡터에서도 가깝게 만들자!
    • 어떤 단어들이, 어떤 순서로, 어떤 문맥에서 함께 나오는지를 배움
  • 수치 문자열의 토크나이제이션 방식이 임베딩 결과에 큰 영향을 미칠 수 있으므로 텍스트 임베딩 적용 전 전처리된 시계열을 문자열 형태로 신중하게 변환하는 것이 중요!

    • (P) 일반적으로 사용되는 서브워드 토크나이저 → 숫자를 임의로 분할
    • (S) digit-space 토크나이제이션
      • 각 자릿수를 공백으로 분리
      • 시간 단계 구분을 위해 쉼표 추가
      • 고정 소수점 정밀도 가정 → 소수점 제거
  • text-embedding-3-large model 사용

    • 변환된 시계열 문자열을 임베딩 공간으로 매핑하기 위함
      즉, NLP모델을 쓰기 위함

즉, 정리하자면

  • 시계열은 길고 무겁기 때문에 각 채널별로 텍스트 임베딩을 만든 후
  • 각 채널 임베딩을 쌓아 행렬로 만든다
  • 이 결과는 항상 같은 크기이기 때문에 한 번 계산하면 계속해서 사용 가능하다

Fusing Embedding and Time Series

  • 제로 패딩 적용
    • 차원 일관성 유지 목적
      • 요소별 덧셈을 하기 위해서는 두 벡터(또는 행렬)의 크기가 완전히 같아야 함
      • 보통 임베딩 벡터 길이 < 시계열 길이 이므로 남는 길이는 0으로 채움
        ⇒ 즉, 정보는 왜곡하지 않으면서 형태만 맞춘다
  • 요소별 덧셈(element-wise addition) 사용
    • 같은 위치의 값을 더한다
      임베딩과 전처리된 시계열 데이터 결합

    ✓ 임베딩과 전처리된 시계열 데이터의 결합

    • 시계열 임베딩(Global)
      - 텍스트 임베딩으로 얻은 벡터로, 전체 시계열의 전반적인 패턴 요약
    • 전처리된 시계열(local)
      - 정규화 및 패딩만 거친 시계열로 시간 별 세부 변화, 로컬 패턴
      (P)이 둘의 형태가 다르기 때문에 (S)제로패딩!
    • 요소별 덧셈은 ResNet의 Shortcut과 일맥상통하는 아이디어!
      • ResNet에서 깊은층이 입력을 뭉그러뜨릴 수 있는 것처럼 LETS-C에서는 임베딩이 원본시계열을 뭉그러뜨릴 수 있음
      • 때문에, 임베딩 정보를 쓰되, 원본 시계열 기준으로 보정만 하자!
        ⇒ fused = raw time seires + embedding

    ✓ ResNet의 Shortcut?

    • 이전 딥러닝에서는 층을 많이 쌓으면 더 똑똑하겠지?라는 믿음으로 CNN을 점점 더 깊게 만듦
    • 그런데 20층 모델보다 50층의 모델이 더 성능이 나쁜것임!
      과적합도 아니고 데이터 부족도 아니었음
      성능열화문제(degradation problem)

    예를 들어, 입력이 고양이 → 출력도 고양이가 나와야함
    (P) 층을 거치면서 변형이 너무 많아지면 "고양이였다"는 정보 자체가 사라질 수 있음
    (S) 어떤 층은 아무 일도 안하는게 최선이라면?
    출력 = 원래 + 바뀐 것 (즉, 차이(residual)을 배우게 하자!)

    • x: 원본입력
      ⭐ 절대로 잃으면 안되는 정보!
    • F(x): 여러 층을 거쳐 계산한 결과
      ex. 귀 강조, 털 질감 등
      - 원본을 보완하기 위해 학습된 변화로, 만일 어떤층이 쓸모가 없다면 F(x)=0 즉, y=x로 학습하도록 함
      층을 쌓더라도 최소한 손해를 보지 않음!
      ⇒ ResNet의 핵심은 학습된 표현이 원본 입력을 대체하지 못하게 하고 원본 입력을 항상 기준으로!
  • 서로 다른 모달리티 임베딩 결합
    • 시계열, 텍스트 임베딩은 서로 다른 종류의 정보
    • 멀모에서 흔한 결합 방식으로는 concat, attention, element-wise addition이 있는데 그중 덧셈이 가장 단순하고 파라미터 증가가 없는 안정적인 방법이었음

Lightweight Classification Head

  • 위에서 결합한 시계열 표현이 1차원 CNNMLP로 구성된 분류 헤드와 결합
    • CNN 출력 → 평탄화MLP(softmax) → 시계열 클래스 확률 벡터 출력
    ⇒ 단순 분류 헤드를 사용함으로써 transformer 기반 기존의 SOTA보다 훨씬 적은 학습 파라미터 사용

주의: CNN은 특징추출기이고, CNN 뒤의 MLP와 softmax가 분류기!

텍스트 임베딩을 통해 이미 특징을 다 뽑아 온거 아닌가? 왜 CNN이 필요한가?

  • 텍스트 임베딩 모델은
    • 입력을 고정된 벡터로 매핑, 비슷한 패턴을 가깝게 배치까지는 해줌
    • 하지만 어떤 방향이 클래스 경계인지, 어떤 조합이 최적의 분리인지는 알려주지 않음
      ⇒ 즉 임베딩 = feature space, CNN = dicision boundary learner
  • CNN은 지역적 패턴을 다시 추출해서 데이터셋의 specific한 특징을 강조하고 노이즈를 걸러내는 역할
    • 특징을 또 뽑는다기보단, 특징을 재구성한다는 표현이 더 맞음
      - local 패턴 강조
      - embedding이 준 global 정보와 raw가 준 local 정보를 조합하여 어떤 조합이 클래스 구분에 중요한가를 학습!
  • 단순 MLP만 사용할 경우 완전 연결이므로 시간 구조를 직접적으로 활용하지 못함

✓ 시계열 CNN

✓ 최종 흐름


4. Experimental Protocol and Details

Datasets and Evaluation Metrics

  • 벤치마크 기준으로 평가
  • 데이터셋
    • Ethanol Concentration, Face Detection, Handwriting, Heartbeat, Japanese Vowels, PEMS-SF, SelfRegulationSCP1, SelfRegulationSCP2, Spoken Arabic Digits, UWaveGestureLibrary
  • 변수 차원: 3~963
  • 시계열 길이: 최대 1751
  • 클래스 수: 최대 26개
  • 평가지표: AvgWins
    • 우수한 성능 평균 횟수(동률포함), 학습가능파라미터 수 기준으로 계산 효율성

Baselines

  • 27개의 베이스 라인 모델
    • 전통적
      • Dynamic Time Warping(DTW), eXtreme Gradient Boosting(XGBoost), RandOm Convolutional KErnel Transform(ROCKET)
    • MLP기반
      • DLinear
    • RNN기반
      • LSTM, LSTNet, 그리고 Linear State Space Layer(LSSL)
    • CNN기반
      • Temporal Convolutional Network(TCN), TimesNet

        +) 비지도 T-Loss, Temporal Neighborhood Coding(TNC), TS2Vec

    • Transformer기반
      • Transformer, Reformer, Informer, Pyraformer, Autoformer, Non-stationary Transformer, FEDformer, ETSformer, Flowformer, PatchTST

        +) 비지도 TS-TCC, Time Series Transformer(TST), MOMENT

    • LLM기반
      • OneFitsAll

5. Results and Analysis

5.1 Performance and Efficiency

Comparison to State of the art

  • 27개의 베이스 라인 모델과 비교했을 때 LETS-C 모든 데이터셋에서 강건한 성능
  • 기존 SOTA 대비 경쟁력 있다~

Computational Efficiency

  • 자원이 제한된 환경에서 성능과 계산 효율성 간의 균형 평가
  • OneFitsAII대비 평균적으로 14.48%정도의 학습가능파라미터만으로도 좋은 성능
    • OneFitsAII은 TimesNet이나 FEDformer와 같은 주요 모델 대비 파라미터 수가 적다는 장점이 있는 모델임
  • LETS-C는 텍스트 임베딩 계산이 딱 1번 수행된다는 점이 중요!
    • OneFitsAII같은 모델은 부분 동결 LLM을 파인튜닝하는 과정에서 지속적으로 계산 발생

5.2 Effectiveness of LETS-C

  • 텍스트 임베딩이 시계열 분류에 적절한지 검증
    • 동일 클래스 내의 시계열 쌍과 서로 다른 클래스 간의 시계열 쌍에 대해 평균 코사인 유사도 계산
  • 히트맵: 빨간색 - 유사도 높고, 파란색 - 유사도 낮음
    • 클래스 내부 유사도가 클래스 간 유사도보다 일관되게 높게 나타남

Generalization Across Various Text Embedding Models

  • text-embedding-3-large이외의 다양한 텍스트 임베딩 모델에 대한 일반화 성능 평가
    • e5-mistral-7b-instruct, gte-large-en-v1.5, nomic-embed-text-v 모델 추가 적용
    • 다양한 텍스트 임베딩 모델 전반에서도 우수한 성능

Optimizing Model Size with Minimal Accuracy Loss

  • 모델 정확도와 모델 크기 간의 trade-off 분석
    • 분류 헤드의 선형 계층 및 합성곱 계층 수를 1개~5개까지 조절
  • trade-off가 데이터셋에 따라 다소 차이가 있으나 전반적으로 파라미터수를 줄여도 정확도 크게 안변함

5.3 Additional Analysis

Ablation Study

  • 텍스트 임베딩 + 시계열 데이터 결합이 단일 모달리티보다 어떤 이점을 갖는지 검증

Alternative Methods for Fusing Time Series with Embeddings

  • 단순 덧셈 외, 시계열과 임베딩을 결합하기 위한 2가지 추가적인 방법 검증
    • 임베딩 → 합성곱 계층, 시계열 데이터 → 완전연결계층으로 처리한 뒤
      두 분기의 특징을 하나의 최종 밀집 네트워크에서 결합
    • 시계열과 임베딩 concat한 후, 경량 분류 헤드를 통해 처리
    • 교차 어텐션은 계산복잡도가 커서 안했음
  • 본 연구의 목표는 경량모델개발이므로 보다 단순한 파라미터 구조의 덧셈 방식 최종 채택

6. Conclusion

  • 기성 텍스트 임베딩을 시계열 분석, 특히 분류 과제에 적용한 최초의 연구
  • 시계열 데이터를 텍스트 임베딩 모델을 통해 투영하고 단순하지만 효과적인 분류 헤드를 사용함으로써 SOTA달성

0개의 댓글