[Paper Review] Deep Learning for Time Series Anomaly Detection - A Survey

sunbun·2024년 9월 18일

Anomaly Detection Time Series WIL deep daiv.딥다이브 시계열 이상치 탐지

Deep Learning

목록 보기

6/6

해당 논문도 다소 발췌독 한 감이 없지 않아서.. 0번부터 2번까지만 상세하게 적혀있고, 3번부터는 다 다룰 수 없어 전반적으로 논문에서 뭘 이야기 하고 있는지만 적었습니다!
Citation: Zamanzadeh Darban, Z., Webb, G. I., Pan, S., Aggarwal, C., & Salehi, M. (2022). Deep learning for time series anomaly detection: A survey. ACM Computing Surveys.

0. Abstract

시계열 데이터의 규모가 크고 패턴이 복잡하기 때문에 연구자들은 이상 패턴을 탐지하기 위한 특수 딥러닝 모델을 개발
시계열 이상 징후 탐지를 위한 딥러닝의 최신 기술에 대한 체계적이고 포괄적인 개요를 제공
이상 징후 탐지 전략과 딥 러닝 모델을 기반으로 한 분류법을 제공
각 카테고리의 기본적인 이상 징후 탐지 기법에 대한 설명과 함께 각 기법의 장점과 한계에 대해서도 논의
또한 최근 몇 년간 다양한 애플리케이션 영역에서 시계열 심층 이상 징후 탐지 사례를 소개
시계열 데이터에 심층 이상 징후 탐지 모델을 도입하는 과정에서 직면한 연구 과제와 미해결 과제를 요약

1. Introduction

시계열 심층 이상 징후 탐지 모델에 대한 새로운 분류법을 소개
- 일반적으로 심층 시계열 이상 징후 탐지 모델은 예측 기반, 재구성 기반, 하이브리드 방식의 세 가지 범주로 분류
- 각 카테고리는 다시 모델에 사용되는 심층 신경망 아키텍처에 따라 정의되는 하위 카테고리로 나뉨
- 모델은 탐지 기능에 기여하는 다양한 구조적 특징

2. Background

시계열(Time series): 시간에 따라 순차적으로 색인된(indexed) 일련의 데이터 포인트
- 가장 일반적인 형태의 시계열은 시간에 따라 기록된 일련의 관측 자료
- 단변량(Univariate)
- 다변량(Multivariate)
시계열의 분해 가능한 구성 요소(decomposable components)에 대해 설명
그 다음에는 시계열의 구성 요소와 특성을 기반으로 이상 징후 유형의 분류를 제공

2.1. Univariate Time Series

단변량 시계열(UTS): 수식과 같이 시간에 따라 변화하는 단일 변수를 기반으로 하는 일련의 데이터
$X=(x_1,x_2,...,x_t)$
- e.g., 하루 중 매시간 습도 수준을 기록하는 것
- 타임스탬프가 𝑡인 𝑋는 다음과 같은 방식으로 데이터 포인트의 정렬된 시퀀스로 나타낼 수 있음
- 여기서 $x_i$ 는 timestamp인 $i\in T$ 와 $T=\{1,2,3,..,t\}$

2.2. Multivariate Time Series

다변량 시계열(MTS): 시간에 의존하는 여러 변수를 나타내며, 각 변수는 상관관계에 따라 과거 값('시간적' 의존성(temporal dependency)이라고 함)과 다른 변수(차원)의 영향을 모두 받음
서로 다른 변수 간의 상관관계는 문헌(lit)에서 공간적 종속성(spatial dependency) 또는 메트릭 간 종속성(intermetric dependency)이라고 하며 서로 바꿔서 사용함
- e.g., 습도 수준 외에 기압과 온도도 매시간 기록됨
MTS의 예시
- $d$ 차원을 갖는 벡터 $X_t$ 로 표현되는 다변량 시계열 고려 $X_t=(x_t^1,x_t^2,...,x_t^d)$
- $x_t$ 의 $j$ 번째 행: $j$ 번째 차원에 대한 타임스탬프 $t$ 의 데이터를 나타내는 것
- $j=\{1,2,..,d\}$ , $d$ 는 차원의 수

2.3. Time series decomposition

시계열(Time series) X를 각각 움직임의 특정 측면(a specific aspect of its movement)을 표현하는 4가지 요소로 분해할 수 있음
- Secular trend(세속적 추세)
  - 장기적인 상승 또는 하락 움직임이 있을 때 발생
  - 시간에 따른 데이터의 일반적인 패턴을 나타냄, 선형적일 필요는 없음
  - e.g., 수년에 걸친 특정 지역의 인구변화는 다양한 동적 요인에 따라 비선형적으로 증가하거나 감소함
- Seasonal variations(시즌적 변화)
  - 월, 요일 또는 기간에 따라 시계열은 시즌적 패턴을 나타낼 수 있음
  - 시즌성(Seasonality)은 항상 고정된 빈도로 발생함
    - e.g., 가스/전기 소비에 대한 연구에 따르면 소비 곡선이 일 년 내내 비슷한 패턴을 따르지 않고, 계절과 지역에 따라 패턴이 달라짐
- Cyclical fluctuations(주기적 변동)
  - 주기는 고정된 빈도 없이 데이터의 상승 또는 하락으로 정의됨
  - 또한 시계열의 형태라고도 함
  - e.g., 일별 기온 변화와 같은 자연 현상으로 인해 시계열에서 주기적인 변동이 발생할 수 있음
- Irregular variations(불규칙한 변동)
  - 무작위적이고 불규칙한 이벤트
  - 다른 모든 구성 요소를 제거한 후 남은 것
  - 지진이나 홍수와 같은 재해로 인해 불규칙한 변화가 발생할 수 있음
시계열은 네 가지 구성 요소를 개별적으로 추정하여 수학적으로 설명하며, 각 구성 요소는 정상적인 동작에서 벗어날 수 있음

2.4. Anomaly in Time Series

이상치: 데이터의 일반적인 분포에서 크게 벗어나는 단일 관측치(점) 또는 일련의 관측치(연속)와 같이 데이터의 일반적인 분포에서 벗어나는 것
데이터 집합의 아주 작은 비율에 이상값이 있다는 것은 데이터 집합이 정상적으로 분포되어 있음을 의미
실제 데이터에는 상당한 양의 노이즈가 포함될 수 있으며, 이러한 노이즈는 연구자와 무관할 수 있음
가장 의미 있는 편차: 일반적으로 표준과 크게 다른 편차
노이즈가 존재하는 상황에서는 데이터의 주요 특성은 동일
- 시계열과 같은 데이터에서 추세 분석과 이상 징후 탐지는 밀접한 관련이 있지만 동등하지는 않음
- 시계열 데이터 집합에서는 시간에 따라 값과 추세가 점진적으로 또는 갑작스럽게 변할 때 발생하는 개념 드리프트(concept drift)로 인해 변화를 볼 수 있음

2.4.1. Types of Anomalies

UTS(단변량) 및 MTS(다변량)의 이상 징후: 시간적, 계량 간 또는 시간적-계량 간 이상 징후로 분류
시계열에서 시간적 이상(temporal anomalies)은 이웃 시계열(로컬; neighbours - local) 또는 전체 시계열(글로벌; whole time - gloabl)과 비교할 수 있고, 그 행동에 따라 다양한 형태로 나타남
단변량 시계열에서 일반적으로 발생하는 시간적 이상 징후에는 여러 가지 유형이 있고, 그림 1에 모두 나와 있음.

그림 1. NeurIPS-TS 데이터 세트에서 다양한 시간적 이상 징후를 플롯한 개요.
전역(Global) 및 상황별(Contextual) 이상 징후는 한 지점(파란색)에서 발생하며,
시즌(Seasonal), 추세(Trend) 및 셰이프렛(Shapelet)을 포함한 다른 유형은 그 이후(빨간색)에서 발생할 수 있음

시간적 이상(temporal anomalies)은 MTS에서도 발생할 수 있으며, 여러 차원 또는 모든 차원에 영향을 미칠 수 있음
시간이 지남에 따라 비정상적인 행동 패턴이 나타날 때 후속 이상 징후(subsequent anomaly)가 나타날 수 있지만, 각 관측치 자체만으로는 이상 징후로 간주되지 않을 수 있음
시점 이상(point anomaly)은 한 시점에 예기치 않은 이벤트가 발생하는 것으로, 짧은 시퀀스로 가정함
시간 이상 현상(temporal anomaly)의 다양한 유형:
- Global:
  - Series의 스파이크이며, 나머지 계열에 비해 극단적인 값을 가진 지점
    - e.g., 고객이 평상시와 다른 날에 비정상적으로 큰 금액을 결제하는 것
  - 임계값을 고려하면 다음 수식으로 설명
    $|x_t-\hat{x_t}|>threshold$
    - \hat{x_t}: 모델의 output
    - 출력과 실제 포인트 값의 차이가 임계값보다 크면 anomaly로 인식
    - 그림 1의 왼쪽에는 -6이 시계열에서 가장 큰 편차를 보이는 global anomaly로 나옴
- Contextual:
  - 특정 컨텍스트로부터의 편차 - 인접한 시점으로부터의 편차로 정의
    - 여기서는 특정 근접 범위 내에 있는 것으로 정의함
  - 순차적 데이터의 작은 결함으로, 인접한 데이터와 편차가 있는 값
  - 어떤 컨텍스트에서는 한 지점이 정상일 수 있지만 다른 컨텍스트에서는 이상값일 수 있음
    - e.g., Boxing Day와 같이 대규모 상호작용은 정상으로 간주되지만, 다른 날에는 그렇지 않을 수 있음.
  - 공식은 글로벌 이상 징후와 동일하지만 이상 징후를 발견하기 위한 임계값은 다름
    - 임계값은 이웃의 컨텍스트를 고려하여 결정됨: $threshold\approx\lambda*var(X_{t-w:t+w})$
- Seasonal:
  - 시계열의 모양과 추세는 비슷하지만 전체 시즌성에 비하면 여기 시즌성은 특이함
    - e.g., 한 주 동안 레스토랑의 고객 수를 살펴볼 수 있습니다.
    - 이러한 시리즈에는 명확한 주간 시즌성이 있으므로 이 계절성에서 편차를 찾아 비정상적인 기간을 개별적으로 처리하는 것이 합리적!
      $diss_s(S,\hat{S})>threshold$
    - $diss_s$ : 두 subsequence 간의 차이를 측정하는 함수
    - $\hat{S}$ : 예상되는 subsequence의 시즌성
  - 특정 세그먼트에서 데이터의 상승 및 하락 빈도를 변화시킴
    빨간색 하이라이트를 보면, 해당 세그먼트만 상승과 하락의 빈도가 변화됨
- Trend:
  - 데이터를 평균으로 영구적으로 이동(permanent)시키고 시계열의 추세에 변화를 일으키는 이벤트
  - 이상 현상은 정상 주기와 시즌성을 유지하지만 기울기를 크게 변화시킴
  - 때때로 방향이 바뀔 수 있으며, 이는 증가에서 감소로 또는 그 반대로 바뀔 수 있음을 의미
    - e.g., 신곡이 나오면 한동안 인기를 끌다가 그림 1의 구간처럼 추세가 바뀌어 차트에서 사라지는 경우가 있는데, 이를 Trend Anomaly로 간주합니다. 향후 추세가 다시 시작될 가능성이 높음
    $diss_t(T,\hat{T})>threshold$
  - $\hat{T}$ 는 normal trend
- Shapelt:
  - 시퀀스의 shapelet 또는 주기가 시퀀스의 일반 shapelet 구성 요소와 다른 시퀀스가 있음
  - 생산성이나 상품 및 서비스의 총 수요 및 공급과 같은 경제 상황의 변화가 이러한 변동의 원인인 경우가 많음
    - 단기적으로 이러한 변화는 경기 확장기와 경기 침체기로 이어짐
    $diss_c(C,\hat{C})>threshold$
  - $\hat{C}$ : 예상되는 후속 시퀀스의 주기 또는 모양 지정
    - e.g., 그림 1의 마지막 하이라이트가 약간의 변동으로 인해 세그먼트 모양이 변화됨
이런 맥락에서, 두 시계열의 최적 정렬(Optimal Alignment)은 두 시계열 간의 불일치를 판단하기 위해 동적 시간 워핑(DTW, Dynamic Time Warping)에 사용되며, 따라서 DTW는 이상 징후 탐지에 적용됨
또한 MTS는 복잡한 개체의 다양한 측면을 각각 설명하는 여러 차원(a.k.a 메트릭)으로 구성됨
- 엔터티 내의 메트릭 간의 공간적 종속성(spatial dependency, 상관관계)은 메트릭 간 종속성이라고도 하며 선형 또는 비선형일 수 있음
- 이러한 상관관계가 끊어지면 MTS는 다양한 비정상적인 동작을 보일 수 있음
- 그림 2의 왼쪽에서 전력 소비(메트릭 1)와 CPU 사용량(메트릭 2) 사용량 간의 상관관계는 양수이지만 시작 후 약 100분의 1초 후에 끊어지는 것을 예로 들 수 있음.
  그림 2. 다변량 시계열(Multivariate time series)의 메트릭 간(Intermetric) 및 시간(temporal-intermetirc) 간 이상 징후. 이 그림에서 메트릭 1(위)은 전력 소비량이고 메트릭 2(아래)는 CPU 사용량임
  - 메트릭 간-시간적 이상 징후(temporal-intermetirc)는 그림 2의 오른쪽에 표시된 것처럼 메트릭 간 종속성과 시간적 종속성을 모두 위반하기 때문에 시간적 또는 메트릭 관점에서 탐지하기가 더 쉬움
- 이 연구에서는 이러한 변칙을 지표 간 변칙(intermetric anomaly)라고 명명함
  $diss_{corr}(corr(X^j,X^k), corr(X^j_{t:t+w},X^k_{t:t+w}))>threshold$
  - $X^j$ 와 $X^k$ 는 상관관계가 있는 두 가지 MTS 지표
  - $corr$ 은 두 지표 간 상관관계 측정
  - 상관관계가 $t:t+w$ 구간에서 약화되면 계수가 정상 계수보다 임계값 이상 벗어난다는 의미

3. Deep Anomaly Detection Methods

Figure 3. Deep Learning architecture used in time series anomaly detection; 시계열 이상 징후 탐지를 위한 딥러닝 아키텍처의 분류

복잡한 구조를 가진 데이터에서 심층 신경망은 종속성을 모델링하는 강력한 방법
다양한 딥러닝 아키텍처를 사용하여 이상 징후 탐지에 딥러닝을 적용하는 방법을 연구해옴

3.1. Time Series Anomaly Detection

Figure 4. General components of deep anomaly detection models in time series; 시계열에서 심층 이상 징후 탐색 모델의 개요

시계열 이상 징후 탐지를 위한 심층 모델을 주요 접근 방식과 아키텍처에 따라 분류
시계열 이상 징후 탐지 문헌에는 예측 기반(Forecasting-based)과 재구성 기반(Restruction-based)이라는 두 가지 주요 접근 방식(그림 4의 학습 구성 요소)이 있음
- 예측 기반(Forecasting-based): 다음 타임스탬프를 예측하도록 학습시킬 수 있음
- 재구성 기반(Restruction-based): 시계열 데이터의 임베딩을 포착하도록 배포할 수 있음
시계열 이상 징후 탐지 모델은 각각 단변량 및 다변량 시계열이라는 입력 차원을 기준으로 표 1과 표 2에 요약되어 있음
이 표는 각 모델의 다음 측면에 대한 개요를 제공
- 1) 시간/공간, 2) 학습 체계, 3) 입력, 4) 해석 가능성, 5) 포인트/서브 시퀀스 이상, 6) 확률성 및 7) 증분

3.1.1. Temporal/Spatial

Temporal(시간적) 특성: 시계열 데이터에서 시간에 따른 패턴을 학습하는 능력
- e.g., RNN, LSTM, GRU와 같은 모델은 데이터의 시간적 종속성(이전 시간 단계의 영향)을 처리하고, 다음 값이나 시퀀스를 예측할 수 있도록 설계되어 있음
Spatial(공간적) 특성: 다변량 시계열(MTS)의 경우, 여러 변수 간의 상관관계나 의존성을 학습함
- e.g., 그래프 신경망(GNN) 기반 모델은 시계열 데이터의 여러 차원을 그래프로 표현하여, 각 차원 간의 관계(노드 간의 상호작용)를 학습함

3.1.2. Learning Scheme

학습 데이터의 레이블 유무에 따라 학습 방식의 구분:
- Unsupervised (비지도 학습): 이상 데이터에 대한 레이블 없이 정상 패턴만을 학습하고, 정상적인 데이터로부터 벗어나는 패턴을 이상으로 탐지함.
- Supervised (지도 학습): 이상 데이터와 정상 데이터가 모두 레이블되어 있을 때 사용하는 방식으로, 레이블된 데이터를 통해 명확한 경계를 학습하여 이상을 탐지함.
- Semi-supervised (반지도 학습): 주로 정상 데이터에만 레이블이 있을 때 사용하며, 정상적인 패턴을 학습한 후 그와 다른 데이터를 이상으로 간주함.
- Self-supervised (자기 지도 학습): 명시적인 레이블 없이 데이터 자체로부터 학습 신호를 생성해 이상 탐지를 수행함.

3.1.3. Input

입력 데이터: 시계열에서 단일 시점(Point) 또는 슬라이딩 윈도우(Window)로 나뉨
- Point: 단일 시점의 데이터를 처리하여 이상 여부를 판단하는 방식
- Window: 과거의 일정 구간(윈도우) 데이터를 기반으로 패턴을 학습하고, 윈도우 내의 시퀀스에서 이상을 탐지함
- Sliding Window: 윈도우를 시계열 데이터의 전체 구간에서 일정 간격으로 이동하면서 분석하는 방식

3.1.4. Interpretability

해석 가능성은 모델이 예측한 이상 패턴을 인간이 얼마나 쉽게 이해할 수 있는지를 의미
- 특히 다변량 시계열(MTS) 데이터에서는 여러 차원에서 이상을 감지하기 때문에 해석이 어려울 수 있음
  - 이를 해결하기 위해, 특정 차원에서 높은 이상 점수를 얻은 데이터에 대해 설명을 제공하는 방법이 연구됨

3.1.5. Point/Subsequence anomaly

Point Anomaly (점 이상): 시계열에서 단일 시점의 데이터가 비정상적으로 보일 때 탐지되는 이상
Subsequence Anomaly (부분 시퀀스 이상): 연속된 여러 시점에서 나타나는 비정상적인 패턴을 탐지하는 방식
- 이 경우, 단일 시점만으로는 이상이 아닐 수 있지만, 여러 시점의 협력적인 행동을 통해 이상으로 간주됨

3.1.6. Stochasticity

Deterministic Models (결정론적 모델): 일정한 입력에 대해 항상 동일한 출력을 내는 모델
- 이 모델들은 입력이 고정되어 있으면 결과도 고정되며, 불확실성이 없는 데이터를 다룰 때 사용
Stochastic Models (확률적 모델): 데이터의 불확실성을 처리할 수 있는 모델로, 일부 랜덤 요소를 사용하여 여러 가능한 출력을 생성할 수 있음
- 이는 이상 탐지에서 예측의 불확실성을 처리하는 데 유리

3.1.7. Incremental

Incremental Learning (점진적 학습): 새로운 데이터가 들어올 때마다 모델이 지속적으로 학습하고, 기존의 지식을 유지하며 새로운 패턴을 학습하는 방식
- 특히 실시간 데이터 스트리밍 환경에서 유용하게 사용

3.1.8 End-to-End Models vs. Step-by-Step Models (종단 간 학습 vs. 단계별 학습)

Step-by-Step Models (단계별 모델): 먼저 데이터를 학습하고, 그 다음 단계에서 이상 점수를 계산하는 방식
- 각 단계를 별도로 수행하므로 해석이 비교적 용이함
End-to-End Models (종단 간 모델): 데이터 입력부터 이상 탐지 결과까지 한 번에 처리하는 모델로, 전체 과정을 통합하여 학습하며 성능이 뛰어나지만 해석이 어려울 수 있음

3.2. Forecasting-based models

학습된 모델을 사용하여 특정 지점 또는 최근 기간을 기준으로 지점 또는 후속 지점을 예측
들어오는 값이 얼마나 비정상적인지 판단하기 위해 예측된 값을 실제 값과 비교함
실제 값과의 편차를 이상 값으로 간주함
대부분의 예측 방법은 슬라이딩 창을 사용하여 한 번에 한 지점씩 예측함
비정상적인 행동을 식별하기 위해 정상 행동을 모델링하는 예측 변수를 사용함

$x_t^’$ 을 예측하는데, 이건 시계열에서 $x_t$ 이전 $w$ 샘플의 시간적 정보를 캡처함
오차는 $|x_t-x_t^’|$ 로 점수 계산

3.2.1 Recurrent Neural Networks (RNN) 기반 모델

RNN은 시계열 데이터의 시간적 의존성을 처리하는 데 매우 유용함
- 과거 시점의 데이터를 기억하여 이후 시점의 데이터에 반영할 수 있음
주요 모델:
- LSTM (Long Short-Term Memory): LSTM은 RNN의 일종으로, 긴 시계열 데이터를 학습할 때 발생하는 장기 의존성 문제를 해결하기 위해 설계됨
  - LSTM-AD와 같은 모델은 예측 기반 시계열 이상 탐지에서 자주 사용되며, 정상적인 데이터로부터 예측 오류를 계산하여 이상을 탐지함
- GRU (Gated Recurrent Unit): GRU는 LSTM과 유사하지만 더 단순한 구조로, 계산 비용이 적음
  - AD-LTI와 같은 모델은 GRU를 사용해 시간적 의존성을 학습하며, 과거 데이터를 기반으로 미래 시점을 예측하고 이상을 탐지함

3.2.2 Convolutional Neural Networks (CNN) 기반 모델

CNN은 원래 이미지 데이터 처리에 사용되었지만, 시계열 데이터에도 성공적으로 적용되고 있음
입력 데이터의 윈도우를 기반으로 입력 시계열의 다음 값을 예측하는 컨볼루션 신경망(CNN)의 구조.
시계열은 본질적으로 시간에 따라 달라지기 때문에 어떤 시간 단계 $t$ 에 대한 출력 $x_t^’$ 을 예측할 때 이전에 관찰한 입력만 사용할 수 있습니다.
- 주로 짧은 구간 내의 패턴을 탐지하는 데 유용하며, 데이터의 시간적 의존성을 처리할 수 있도록 설계됨
주요 모델:
- DeepAnt: CNN을 활용하여 시계열 데이터를 분석하는 모델로, 예측 기반 이상 탐지에 사용됨. 예측 값과 실제 값의 차이를 기반으로 이상을 탐지함.
- TCN (Temporal Convolutional Network): TCN은 dilated convolution을 사용하여 더 넓은 시간 범위의 시계열 데이터를 처리할 수 있는 모델. 시계열 데이터의 미래 값을 예측하고, 예측 오류를 기반으로 이상을 탐지함.
- SR-CNN: Spectral Residual 모델과 CNN을 결합하여 시계열 데이터에서 작은 이상을 빠르게 탐지할 수 있는 모델임. 대규모 데이터셋에서도 높은 성능을 발휘함.

3.2.3 Graph Neural Networks (GNN) 기반 모델

GNN은 다변량 시계열(MTS)에서 변수가 많고 각 변수 간의 상관관계가 복잡할 때 유용한 모델

메트릭 간의 관계(상관관계)를 학습하고 시계열의 예상 동작을 예측할 수 있는 다변량 시계열 이상 징후 탐지를 위한 그래프 신경망(GNN)의 기본 구조
- 시계열 데이터의 각 변수를 그래프의 노드로 표현하고, 변수 간의 상호 의존성을 학습함.
주요 모델:
- GDN (Graph-based Detection Network): 시계열 데이터에서 각 변수를 노드로 설정하고, 노드 간의 상호작용을 학습하여 이상을 탐지하는 모델
  - 특히 여러 센서 데이터를 기반으로 이상을 탐지하는 데 효과적
- GANF (Graph-Augmented Normalizing Flow): 그래프 구조 학습을 통해 시계열 데이터의 변수 간 종속성을 학습하며, 비정상적인 패턴을 감지하는 모델

3.2.4 Hierarchical Temporal Memory (HTM) 기반 모델

HTM은 뇌의 신경 구조를 모방하여 시계열 데이터를 처리하는 모델로, 특히 이상 탐지에 적합
- Sparse Distributed Representation(SDR)을 사용하여 데이터를 인코딩하고, 이를 바탕으로 시간적 패턴을 학습함.
주요 모델:
- Numenta HTM: HTM 기반의 대표적인 모델로, 실시간으로 시계열 데이터를 처리하며, 노이즈가 많은 환경에서도 효과적으로 이상을 탐지함.
- Multi-HTM: HTM을 다변량 시계열 데이터에 적용한 모델로, 여러 센서 데이터를 실시간으로 분석하여 이상을 탐지함.

3.2.5 Transformer 기반 모델

Transformer는 Self-Attention 메커니즘을 사용하여 시간적 종속성을 처리하며, 긴 시계열 데이터를 처리하는 데 강점이 있음!

각 인코더 블록은 멀티 헤드 셀프 어텐션 모듈과 위치 기반 피드포워드 네트워크로 구성됨, 디코딩하는 동안 멀티 헤드 셀프 어텐션 모듈과 위치별 피드포워드 네트워크 사이에 교차 어텐션 모델이 삽입됨.
트랜스포머는 순환 신경망과 달리 순환이나 컨볼루션을 포함하지 않음. 시퀀스 정보를 직접 모델링하는 대신 입력의 임베딩에 추가된 위치 인코딩을 사용함!

주요 모델:
- SAnD (Self-Attention Network for Detection): Self-Attention 메커니즘을 사용해 시계열 데이터의 시간적 종속성을 학습하고 이상을 탐지하는 모델임.
- Anomaly Transformer: Transformer 구조를 사용해 시계열 데이터의 이상을 탐지하는 모델로, 시간적, 공간적 패턴을 모두 고려하여 이상을 감지할 수 있음.

3.3. 재구성 기반 모델 (Reconstruction-based Models)

시계열은 특정 순간에 알 수 없거나 수동 제어를 위한 센서 판독값을 보여주는 (b)와 같이 급격하게 변할 수 있음. 이러한 시계열은 미리 예측할 수 없으므로 예측 기반 이상 징후 탐지가 효과적이지 않음.

재구성 기반 모델은 입력된 시계열 데이터를 저차원으로 압축한 후, 이를 다시 복원하는 방식으로 학습함. 정상적인 데이터는 잘 재구성되지만, 이상 데이터는 잘 재구성되지 않아 재구성 오류가 커지며, 이를 바탕으로 이상을 탐지함.

3.3.1 Autoencoder (AE) 기반 모델

Autoencoder는 입력 데이터를 저차원 표현으로 압축한 후, 다시 복원하는 방식으로 동작함. 이때 재구성 오류가 발생할 수 있으며, 이 오류를 기반으로 이상을 탐지함.
주요 모델:
- EncDec-AD: Autoencoder의 인코더와 디코더 구조를 사용하여 시계열 데이터를 재구성하고, 재구성 오류가 클 경우 이를 이상으로 탐지함. 이 모델은 긴 시계열 데이터를 다루는 데 효과적!
- MSCRED: 다변량 시계열 데이터에서 각 변수 간의 상관관계를 기반으로 재구성하는 CNN 기반 Autoencoder
  - 상관행렬을 사용해 시계열을 분석하고, 재구성 오류를 통해 이상을 탐지함.
- USAD: Autoencoder 기반의 비지도 학습 모델로, 재구성 과정을 통해 이상을 탐지함.
  - 이 모델은 GAN(Generative Adversarial Network)의 요소를 포함하여 재구성 오류를 증폭시킴으로써 이상 탐지를 개선함.

3.3.2 Variational Autoencoder (VAE) 기반 모델

VAE는 Autoencoder의 확장 모델로, 데이터를 잠재 분포로 인코딩하고 이를 복원함.
- VAE는 잠재 공간에서 확률 분포를 학습하며, 데이터의 비정상성을 탐지하는 데 유리함.
주요 모델:
- OmniAnomaly: Variational Autoencoder를 활용하여 시계열 데이터를 재구성하고, 그 과정에서 발생하는 재구성 오류를 기반으로 이상을 탐지하는 모델
  - 다변량 시계열에서 비정상적인 패턴을 감지할 수 있음
- Donut: VAE를 기반으로 한 모델로, 시간적 순서가 있는 시계열 데이터에서 재구성 오류를 기반으로 이상을 탐지함
  - KPI(Key Performance Indicators) 데이터에서 자주 사용됨
- InterFusion: Hierarchical Variational Autoencoder(HVAE)를 사용하는 모델
  - 시간적 및 상호 의존성을 학습하여 시계열 데이터의 이상을 탐지함
  - 다차원 시계열에서 높은 성능을 보여줌

3.3.3 Generative Adversarial Networks (GAN) 기반 모델

GAN은 생성자(Generator)와 판별자(Discriminator) 간의 경쟁적 학습을 통해 데이터를 생성하는 방식

생성기는 판별기 입력에 직접 연결되는 시계열의 가짜 입력 창을 구성함. 판별기는 생성된 인스턴스를 부정 훈련 예시로 사용하여 진짜 시계열과 가짜 시계열을 구별하는 방법을 학습함. 훈련된 판별기와 생성기를 모두 결합하여 결합 이상 징후 점수를 계산할 수 있음.

- GAN 기반 모델은 재구성 오류를 통해 이상을 탐지하거나, 정상 데이터의 분포를 학습하여 이상을 감지함
주요 모델:
- MAD-GAN: 다변량 시계열 데이터를 학습하고, 생성자와 판별자의 상호작용을 통해 재구성 오류를 기반으로 이상을 탐지하는 모델
  - GAN의 특성을 활용해 정상 데이터를 학습하고 비정상적인 패턴을 감지할 수 있음
- BeatGAN: 시계열 데이터에서 이상을 탐지하기 위해 GAN을 사용한 모델로, 특히 재구성 기반 접근 방식을 통해 이상을 감지함
  - 특히 ECG와 같은 바이오메디컬 시계열 데이터에 적합하다고 함.

3.4 하이브리드 모델 (Hybrid Models)

하이브리드 모델은 여러 딥러닝 아키텍처와 접근 방식을 결합하여 이상 탐지 성능을 극대화함.
이 모델들은 예측 기반, 재구성 기반, 표현 기반 모델의 장점을 동시에 활용하여 보다 정교한 이상 탐지를 가능하게 함.

3.4.1 Autoencoder (AE) 기반 하이브리드 모델

Autoencoder 기반의 하이브리드 모델은 일반적인 AE의 인코딩-디코딩 구조를 다른 아키텍처와 결합하여 성능을 향상시킴
- 예를 들어, RNN 또는 CNN과 AE를 결합하여 시계열 데이터의 시간적 및 공간적 패턴을 동시에 학습할 수 있음!
주요 모델:
- CAE-M: Convolutional Autoencoder와 LSTM을 결합하여 시계열 데이터를 분석하는 모델로, CNN을 통해 데이터의 공간적 패턴을 처리하고, LSTM을 통해 시간적 종속성을 학습함.
- NSIBF: CNN과 RNN 기반 하이브리드 모델로, 시계열 데이터를 CNN으로 처리하여 주요 특징을 추출한 뒤, RNN으로 시간적 패턴을 분석하여 이상을 탐지함.

3.4.2 RNN 기반 하이브리드 모델

RNN 기반 하이브리드 모델은 LSTM, GRU와 같은 시간적 패턴 처리 모델을 다른 딥러닝 아키텍처와 결합하여 보다 정교한 시간적 및 공간적 이상 탐지를 수행함.
주요 모델:
- TAnoGAN: RNN과 Generative Adversarial Network (GAN)을 결합한 모델로, 시계열 데이터를 예측하고 예측 오류를 기반으로 이상을 탐지하며, GAN의 생성자와 판별자를 통해 정상적인 데이터 분포를 학습하여 이상을 감지함.
- NSIBF: 이 모델은 RNN과 CNN을 결합하여 시계열 데이터의 시간적 및 공간적 패턴을 동시에 처리하며, 특히 다변량 시계열 데이터에서 효과적임!

3.4.3 Graph Neural Networks (GNN) 기반 하이브리드 모델

GNN 기반 하이브리드 모델은 시계열 데이터의 각 변수를 그래프의 노드로 표현하고, 그 간의 상관관계를 학습하여 이상을 탐지하는 방식임. GNN은 다변량 시계열에서 각 변수의 상호작용을 효과적으로 학습할 수 있음.
주요 모델:
- MTAD-GAT: Graph Attention Network (GAT)와 Temporal Convolutional Network (TCN)을 결합한 하이브리드 모델로, 다변량 시계열 데이터에서 시간적 패턴과 변수 간 상호작용을 동시에 학습하여 이상을 탐지함.
  - 이 모델은 특히 센서 데이터를 분석하는 데 효과적!
- FuSAGNet: GNN과 CNN을 결합한 하이브리드 모델로, 그래프 기반 네트워크를 사용하여 데이터의 공간적 상호작용을 학습하고, CNN을 통해 시간적 패턴을 분석함.

sunbun

나는 데단한 데싸인 ☠️

이전 포스트