Large language models can be zero-shot anomaly detectors for time series?

김현우·2025년 7월 24일

thesis

목록 보기

7/9

이 논문은 "SIGLLM"이라는 새로운 프레임워크를 통해 대규모 언어 모델(LLM)을 시계열 데이터의 이상 징후를 별도의 학습 없이(zero-shot) detection 하는 연구를 제시합니다. 연구진은 시계열 데이터를 텍스트로 변환하여 LLM이 처리할 수 있도록 하는 모듈을 개발했으며, 이를 통해 두 가지 주요 탐지 방법을 제안하고 평가했습니다.

두 가지 핵심 접근법은 다음과 같습니다:

PROMPTER: LLM에게 직접적으로 시계열 데이터 내의 이상 징후를 찾아달라고 요청하는 프롬프트 기반 방식입니다.
DETECTOR: LLM의 시계열 예측 능력을 활용하는 방식입니다. 모델이 예측한 값과 실제 값의 차이(오차)를 분석하여 그 차이가 큰 부분을 이상 징후로 판단합니다.

11개의 다양한 데이터셋을 대상으로 GPT-3.5와 MISTRAL 모델을 사용하여 실험한 결과, 예측 기반의 DETECTOR 방식이 직접 질문하는 PROMPTER 방식보다 F1 점수 기준으로 135% 더 뛰어난 성능을 보였습니다. 이는 PROMPTER 방식이 잘못된 탐지(false positives)가 많은 경향이 있기 때문입니다.
DETECTOR 방식은 비록 데이터의 전체적인 추세는 완벽히 예측하지 못하더라도, 결과적으로 실제 이상 징후를 매우 정확하게 찾아냅니다. 이에 반대로 PROMPTER 방식은 일부 이상 징후를 찾기는 하지만, 실수가 너무 많아(오탐지가 높음) 신뢰하기 어렵다는 것을 보여줍니다.

주요 연구 결과는 다음과 같습니다:

LLM 기반의 이상 탐지 모델은 기존의 단순 이동 평균(Moving Average) 기준 모델보다 향상된 성능을 보였으며, 트랜스포머 기반의 이상 탐지 모델(Anomaly Transformer)보다도 우수한 결과를 나타냈습니다.
하지만, 현재 가장 발전된 딥러닝 기반 이상 탐지 모델(State-of-the-art deep learning models)과 비교했을 때는 LLM의 성능이 약 30% 뒤처지는 것으로 나타나 여전히 성능 차이가 존재합니다.
실용성 측면에서, LLM을 활용하는 방식은 별도의 학습이 필요 없다는 장점이 있지만, 응답을 받기까지의 대기 시간(latency)이 길다는 단점이 있습니다.

LLM 활용의 실용성: 장점과 단점

장점: 별도의 학습 불필요 (Zero-shot)
단점: 긴 응답 대기 시간 (Latency)

실행 시간: 논문의 실험 결과에 따르면, DETECTOR(Mistral 모델 사용) 방식은 신호 하나를 처리하는 데 평균 약 2.1시간이 걸렸고, PROMPTER(GPT-3.5 모델 사용) 방식은 평균 약 1.1시간이 소요되었습니다. 이는 1시간 이내에 학습을 마치는 일반적인 딥러닝 모델보다도 훨씬 긴 시간입니다.

시계열-텍스트 변환 (Time-series-to-text conversion)

LLM은 기본적으로 텍스트 데이터를 처리하도록 설계되었기 때문에, 숫자 데이터인 시계열을 직접 입력할 수 없습니다. SIGLLM은 다음과 같은 네 단계의 변환 과정을 거쳐 시계열 데이터를 LLM에 입력 가능한 텍스트로 만듭니다:

스케일링 (Scaling): 시계열 데이터의 모든 값을 양수로 만들기 위해 최솟값을 빼주는 방식을 사용합니다. 이를 통해 음수 부호('-')를 처리할 필요가 없어 토큰 사용을 줄이고 계산 효율성을 높입니다.
양자화 (Quantization): 무한한 실수 값을 LLM이 처리할 수 있는 유한한 정수 값으로 변환합니다. 소수점 이하 값을 반올림하여 정수로 만들어 토큰 낭비를 막습니다.
롤링 윈도우 (Rolling windows): LLM이 한 번에 처리할 수 있는 입력 길이(context length)에는 제한이 있으므로, 긴 시계열 데이터를 일정한 크기의 여러 조각(window)으로 나눕니다.
토큰화 (Tokenization): 숫자들을 개별 숫자로 인식하도록 처리합니다. 예를 들어 GPT 모델의 경우, '2345'를 하나의 덩어리로 인식하는 경향이 있는데, 이를 '2 3 4 5'와 같이 숫자 사이에 공백을 삽입하여 각 숫자를 별개의 토큰으로 인식하게 만듭니다.

1. LLM 기반 이상 탐지 모델

이 연구에서 제안하는 모델로, 사전 학습된 LLM을 별도의 추가 학습(fine-tuning) 없이 이상 탐지에 바로 활용하는 것이 특징입니다. SIGLLM 프레임워크를 통해 시계열 데이터를 텍스트로 변환한 뒤, 'PROMPTER'나 'DETECTOR' 방식으로 이상 징후를 탐지합니다. 이 모델의 가장 큰 장점은 Zero-shot 학습, 즉 특정 데이터에 대한 사전 학습 없이도 문제를 해결할 수 있다는 점입니다.

2. 단순 이동 평균 (Moving Average) 기준 모델

이는 고전적인 통계 기반 방법 중 하나입니다. 특정 기간 동안의 데이터 값들의 평균을 계산하고, 이 평균에서 크게 벗어나는 값을 이상 징후로 판단하는 간단한 방식입니다. 연구에서는 이 모델을 성능 비교를 위한 기본 기준선(Baseline)으로 사용했습니다.

3. 트랜스포머 기반 이상 탐지 모델 (Anomaly Transformer, AT)

트랜스포머 아키텍처를 시계열 이상 탐지에 직접 적용한 모델입니다. 트랜스포머의 핵심인 어텐션 메커니즘(attention mechanism)을 활용하여 시계열 데이터 내의 시간적 연관성을 학습합니다. Anomaly Transformer는 특정 시점과 이전 시점들 간의 연관성 점수를 계산하고, 이 점수가 낮은(즉, 연관성이 적은) 부분을 이상 징후로 판단하는 방식으로 작동합니다.

4. 딥러닝 기반 이상 탐지 모델 (State-of-the-art deep learning models)

현재 가장 성능이 우수하다고 알려진 딥러닝 모델들을 의미합니다. 이 논문에서는 여러 딥러닝 모델을 비교 대상으로 사용했으며, 주로 예측 기반(forecasting-based) 또는 재구성 기반(reconstruction-based) 모델로 나뉩니다.

LSTM DT (Long Short-Term Memory with Dynamic Thresholding): LSTM 모델을 사용하여 시계열을 예측하고, 예측 오차에 동적 임계값을 적용하여 이상 징후를 탐지하는 예측 기반 모델입니다.
AER (Auto-encoder with Regression): 오토인코더를 이용한 재구성과 회귀를 통한 예측을 결합한 하이브리드 모델입니다. 이 연구에서 비교된 딥러닝 모델 중 가장 우수한 성능을 보였습니다.
VAE (Variational AutoEncoders), TadGAN (Time series anomaly detection using GANs): 각각 변이형 오토인코더와 생성적 적대 신경망(GAN)을 사용하여 정상 데이터를 학습하고, 입력된 데이터가 정상 데이터의 패턴과 얼마나 다른지를 측정(재구성 오차)하여 이상 징후를 탐지하는 재구성 기반 모델들입니다.

트랜스포머 기반 모델보다 성능이 좋은 이유:

LLM은 방대한 양의 텍스트 데이터를 통해 복잡하고 다양한 패턴을 사전 학습한 상태입니다. 이 능력 덕분에 시계열 데이터를 텍스트로 변환했을 때, 데이터 내의 미묘한 문맥적 이상 징후를 더 잘 포착할 수 있습니다. 반면, Anomaly Transformer와 같은 특정 목적의 트랜스포머 모델은 해당 데이터셋에만 국한된 학습을 하므로, LLM처럼 광범위한 패턴 이해 능력을 갖추기 어렵습니다. 논문에서도 LLM 기반의 DETECTOR 방식이 Anomaly Transformer보다 7개 데이터셋에서 더 나은 성능을 보였다고 언급합니다.

딥러닝 모델보다 성능이 낮은 이유:

제한된 컨텍스트 길이 (Limited Context Length): LLM은 한 번에 처리할 수 있는 데이터의 길이가 제한적입니다. 이 때문에 긴 시계열 데이터를 여러 개의 작은 조각(rolling windows)으로 나누어 처리해야 합니다. 이 과정에서 시계열 전체의 장기적인 패턴이나 추세(trend)를 놓치기 쉽습니다. 예를 들어, 논문의 한 예시에서는 LLM 예측이 데이터의 전반적인 상승 추세를 제대로 포착하지 못했습니다.
데이터 처리의 비효율성: 시계열 데이터를 텍스트로 변환하고, 다시 여러 조각으로 나누는 과정 자체가 비효율적이고 비용이 많이 듭니다. 이로 인해 전체적인 데이터의 특성을 온전히 학습하기 어렵습니다. 반면, AER이나 LSTM DT와 같은 딥러닝 모델들은 시계열 데이터 처리에 최적화되어 있어 데이터의 전체적인 특성을 더 효과적으로 학습할 수 있습니다.
부정확한 탐지: PROMPTER 방식의 경우, 이상 징후가 아닌데도 이상 징후로 판단하는 오탐지(false alarm)가 많아 전체적인 정밀도를 떨어뜨립니다.

딥러닝 모델보다 성능을 높이기 위한 개선 방안

논문에서는 LLM 기반 모델의 성능을 딥러닝 수준으로 끌어올리기 위한 몇 가지 개선 방향을 제시하고 있습니다.

후처리(Post-processing) 전략 강화:
- 오탐지 필터링 개선: PROMPTER 방식의 가장 큰 문제인 오탐지를 줄이기 위한 정교한 필터링 전략이 필요합니다. 예를 들어, 단순히 빈도수에 기반한 필터링 대신, LLM이 특정 값을 생성할 때의 로그 확률(log probabilities)을 신뢰도 점수로 활용하여 확신이 낮은 예측을 걸러내는 방법을 탐색할 수 있습니다.
- 정교한 오차 함수(Error Function) 탐색: DETECTOR 방식에서는 예측값과 실제값의 차이를 계산하는 오차 함수가 핵심입니다. 현재는 단순한 절대 오차나 제곱 오차를 사용했지만 , 데이터의 특성에 맞는 더 복잡하고 정교한 오차 함수를 개발하여 이상 징후를 더 명확하게 드러내는 연구가 필요합니다.
컨텍스트 처리 능력 향상:
- LLM 기술이 발전함에 따라 더 긴 컨텍스트를 처리할 수 있는 모델들이 계속 등장하고 있습니다. 이러한 차세대 LLM을 활용하면 시계열 데이터를 자르지 않고 전체를 한 번에 처리하여 장기적인 패턴을 학습할 수 있게 되어 성능이 크게 향상될 수 있습니다.
다변량 시계열 데이터로의 확장:
- 현재 프레임워크는 하나의 변수만 처리하는 단변량(univariate) 시계열에 맞춰져 있습니다. 여러 변수 간의 상호작용에서 이상 징후가 발생하는 다변량(multivariate) 시계열 데이터를 처리할 수 있도록 프레임워크를 확장하는 연구가 필요합니다. 이를 통해 더 복잡하고 실제적인 문제에 적용할 수 있을 것입니다.