이 논문은 "SIGLLM"이라는 새로운 프레임워크를 통해 대규모 언어 모델(LLM)을 시계열 데이터의 이상 징후를 별도의 학습 없이(zero-shot) detection 하는 연구를 제시합니다. 연구진은 시계열 데이터를 텍스트로 변환하여 LLM이 처리할 수 있도록 하는 모듈을 개발했으며, 이를 통해 두 가지 주요 탐지 방법을 제안하고 평가했습니다.
두 가지 핵심 접근법은 다음과 같습니다:
PROMPTER: LLM에게 직접적으로 시계열 데이터 내의 이상 징후를 찾아달라고 요청하는 프롬프트 기반 방식입니다.
DETECTOR: LLM의 시계열 예측 능력을 활용하는 방식입니다. 모델이 예측한 값과 실제 값의 차이(오차)를 분석하여 그 차이가 큰 부분을 이상 징후로 판단합니다.
11개의 다양한 데이터셋을 대상으로 GPT-3.5와 MISTRAL 모델을 사용하여 실험한 결과, 예측 기반의 DETECTOR 방식이 직접 질문하는 PROMPTER 방식보다 F1 점수 기준으로 135% 더 뛰어난 성능을 보였습니다. 이는 PROMPTER 방식이 잘못된 탐지(false positives)가 많은 경향이 있기 때문입니다.
DETECTOR 방식은 비록 데이터의 전체적인 추세는 완벽히 예측하지 못하더라도, 결과적으로 실제 이상 징후를 매우 정확하게 찾아냅니다. 이에 반대로 PROMPTER 방식은 일부 이상 징후를 찾기는 하지만, 실수가 너무 많아(오탐지가 높음) 신뢰하기 어렵다는 것을 보여줍니다.
주요 연구 결과는 다음과 같습니다:
장점: 별도의 학습 불필요 (Zero-shot)
단점: 긴 응답 대기 시간 (Latency)
LLM은 기본적으로 텍스트 데이터를 처리하도록 설계되었기 때문에, 숫자 데이터인 시계열을 직접 입력할 수 없습니다. SIGLLM은 다음과 같은 네 단계의 변환 과정을 거쳐 시계열 데이터를 LLM에 입력 가능한 텍스트로 만듭니다:
스케일링 (Scaling): 시계열 데이터의 모든 값을 양수로 만들기 위해 최솟값을 빼주는 방식을 사용합니다. 이를 통해 음수 부호('-')를 처리할 필요가 없어 토큰 사용을 줄이고 계산 효율성을 높입니다.
양자화 (Quantization): 무한한 실수 값을 LLM이 처리할 수 있는 유한한 정수 값으로 변환합니다. 소수점 이하 값을 반올림하여 정수로 만들어 토큰 낭비를 막습니다.
롤링 윈도우 (Rolling windows): LLM이 한 번에 처리할 수 있는 입력 길이(context length)에는 제한이 있으므로, 긴 시계열 데이터를 일정한 크기의 여러 조각(window)으로 나눕니다.
토큰화 (Tokenization): 숫자들을 개별 숫자로 인식하도록 처리합니다. 예를 들어 GPT 모델의 경우, '2345'를 하나의 덩어리로 인식하는 경향이 있는데, 이를 '2 3 4 5'와 같이 숫자 사이에 공백을 삽입하여 각 숫자를 별개의 토큰으로 인식하게 만듭니다.
이 연구에서 제안하는 모델로, 사전 학습된 LLM을 별도의 추가 학습(fine-tuning) 없이 이상 탐지에 바로 활용하는 것이 특징입니다. SIGLLM 프레임워크를 통해 시계열 데이터를 텍스트로 변환한 뒤, 'PROMPTER'나 'DETECTOR' 방식으로 이상 징후를 탐지합니다. 이 모델의 가장 큰 장점은 Zero-shot 학습, 즉 특정 데이터에 대한 사전 학습 없이도 문제를 해결할 수 있다는 점입니다.
이는 고전적인 통계 기반 방법 중 하나입니다. 특정 기간 동안의 데이터 값들의 평균을 계산하고, 이 평균에서 크게 벗어나는 값을 이상 징후로 판단하는 간단한 방식입니다. 연구에서는 이 모델을 성능 비교를 위한 기본 기준선(Baseline)으로 사용했습니다.
트랜스포머 아키텍처를 시계열 이상 탐지에 직접 적용한 모델입니다. 트랜스포머의 핵심인 어텐션 메커니즘(attention mechanism)을 활용하여 시계열 데이터 내의 시간적 연관성을 학습합니다. Anomaly Transformer는 특정 시점과 이전 시점들 간의 연관성 점수를 계산하고, 이 점수가 낮은(즉, 연관성이 적은) 부분을 이상 징후로 판단하는 방식으로 작동합니다.
현재 가장 성능이 우수하다고 알려진 딥러닝 모델들을 의미합니다. 이 논문에서는 여러 딥러닝 모델을 비교 대상으로 사용했으며, 주로 예측 기반(forecasting-based) 또는 재구성 기반(reconstruction-based) 모델로 나뉩니다.
LSTM DT (Long Short-Term Memory with Dynamic Thresholding): LSTM 모델을 사용하여 시계열을 예측하고, 예측 오차에 동적 임계값을 적용하여 이상 징후를 탐지하는 예측 기반 모델입니다.
AER (Auto-encoder with Regression): 오토인코더를 이용한 재구성과 회귀를 통한 예측을 결합한 하이브리드 모델입니다. 이 연구에서 비교된 딥러닝 모델 중 가장 우수한 성능을 보였습니다.
VAE (Variational AutoEncoders), TadGAN (Time series anomaly detection using GANs): 각각 변이형 오토인코더와 생성적 적대 신경망(GAN)을 사용하여 정상 데이터를 학습하고, 입력된 데이터가 정상 데이터의 패턴과 얼마나 다른지를 측정(재구성 오차)하여 이상 징후를 탐지하는 재구성 기반 모델들입니다.
LLM은 방대한 양의 텍스트 데이터를 통해 복잡하고 다양한 패턴을 사전 학습한 상태입니다. 이 능력 덕분에 시계열 데이터를 텍스트로 변환했을 때, 데이터 내의 미묘한 문맥적 이상 징후를 더 잘 포착할 수 있습니다. 반면, Anomaly Transformer와 같은 특정 목적의 트랜스포머 모델은 해당 데이터셋에만 국한된 학습을 하므로, LLM처럼 광범위한 패턴 이해 능력을 갖추기 어렵습니다. 논문에서도 LLM 기반의 DETECTOR 방식이 Anomaly Transformer보다 7개 데이터셋에서 더 나은 성능을 보였다고 언급합니다.
논문에서는 LLM 기반 모델의 성능을 딥러닝 수준으로 끌어올리기 위한 몇 가지 개선 방향을 제시하고 있습니다.
후처리(Post-processing) 전략 강화:
컨텍스트 처리 능력 향상:
다변량 시계열 데이터로의 확장: