[DA] ContexTDA paper review

onseo·2025년 8월 27일

논문

목록 보기
8/14

Context-aware Domain Adaptation for Time Series Anomaly Detection
Kwei-Herng Lai, Lan Wang, Huiyuan Chen, Kaixiong Zhou, Fei Wang, Hao Yang, Xia Hu
Proceedings of the 2023 SIAM International Conference on Data Mining (SDM), 2023

Abstract

문제점:

  • 시계열 이상 탐지는 실제 응용 분야가 넓지만, label 부족 때문에 어려운 문제임
  • deep anomaly detector 훈련은 종종 비지도 학습에 의존함
  • 최근에는 유사한 도메인의 지식을 활용하기 위한 time series domain adaptation 연구가 활발함.
  • 'negative knowledge transfer' 문제:
    • source domain에서 학습한 지식이 target domain의 성능을 오히려 악화시키는 경우
      • 이상치의 다양성과 희소성
      • 맥락(context)의 중요성

본 연구의 동기 및 목표:

  • 두 도메인 간의 'context alignment'에 대한 실증 연구에서 영감을 받음.
    • context alignment: 두 개의 서로 다른 시계열 도메인에서 특정 사건(특히 이상치)을 이해하는 데 필요한 context window의 크기가 서로 다르다면, 이 context window의 크기를 각 도메인에 맞게 조절하여 유사하게 만드는 과정
  • 두 도메인에 대한 context information를 adaptively sampling하여 지식을 전이하는 것을 목표로 함
    • sampling: 시계열 데이터에서 분석에 필요한 일정 길이의 subsequence(context window)를 잘라내는 행위
    • 이 context window의 크기를 adaptive하게
  • 복잡한 도메인 내 시간 의존성과 cross-domain correlation을 동시에 모델링해야 함.
  • source domain의 레이블 정보를 효과적으로 활용해야 함.

제안 방법론:

  • 'context sampling'과 'anomaly detection'를 결합한 '공동 학습(joint learning) 프레임워크'를 제안
  • context sampling 문제를 'Markov decision process(MDP)'으로 공식화함.
  • deep reinforcement learning을 활용하여 context sampling을 통한 Time Series Domain Adaptation 프로세스를 최적화함
  • 이상 탐지를 위한 두 도메인의 더 나은 정렬을 위해 'domain-invariant features'을 생성하는 맞춤형 보상 함수를 설계함

1. Introduction

Time Series Anomaly Detection

  • Label Sparsity: 이상에 대한 label 매우 제한적
  • Complex Temporal Dependencies: 개별 시점 간의 복잡한 연관성 때문에 이상을 탐지하기 어려움

Time Series Domain Adaptation

기존 방법 1) Domain Discrepancy Minimization : 도메인 불일치 최소화

  • 두 도메인의 subsequence를 shared subspace으로 매핑한 후, metric distance를 강제로 최소화
  • 두 도메인의 데이터 분포가 다를 경우 비최적화된 subspace 초래하여 negative knowledge transfer

기존 방법 2) Domain Discrimination : 도메인 판별

  • 적대적 학습을 통해 domain invariant 특징을 추출
  • 두 도메인의 subsequence 길이가 잘 정렬되지 않으면 학습 어려움

Context Alignment

서로 다른 도메인 간의 지식 전이를 촉진하려면 시점의 "context" (서브시퀀스의 길이)를 정렬하는 것이 매우 중요

  • 컨텍스트 정렬 없이 지식 전이를 시도할 경우 부정적인 전이가 발생할 수 있음
  • target domain의 윈도우 크기를 조절할 때 이상 탐지 성능이 향상됨. 특정 이상치는 특정 윈도우 크기에서 더 잘 탐지됨

ContextTDA

  • Context Sampling 문제 정의: 문맥 샘플링 문제를 Markov Decision Process(MDP)로 정형화
  • Deep Reinforcement Learning 활용: Deep Q-learning(DQN)과 같은 DRL 알고리즘을 사용하여 문맥 샘플링 과정을 최적화
  • Tailored Reward Function 설계: 도메인 불변 특징을 생성하고 두 도메인을 이상 탐지에 더 잘 정렬하기 위한 보상 함수를 설계

2. Preliminary

2.1 Problem Statement

  • 이상치 점수 함수 (FF): 입력 데이터 x^t\hat{x}_t를 바탕으로 각 시점 tt의 이상치 정도를 평가하는 함수 F:x^tRF: \hat{x}_t \to R.
    → 점수가 높을수록 이상치일 가능성이 높음.
  • Context Window: 이상치 점수 함수 FF의 입력 데이터인 x^t\hat{x}_tX^\hat{X}에서 Context Window 크기 mm을 이용해 샘플링된 서브시퀀스 x^t=(v^tm,v^tm+1,,v^t)\hat{x}_t = (\hat{v}_{t-m}, \hat{v}_{t-m+1}, \dots, \hat{v}_t)
  • 최종 목표: 컨텍스트 샘플링 정책을 사용하여 소스 도메인 정보(XX와 레이블 YY)를 타겟 도메인의 이상치 탐지기 FF로 전달하여 FF의 성능을 최적화하는 것임.

Context Sampling Problem

  • 목표: 이상 탐지기와 함께 샘플링 정책 π~\tilde{\pi}를 공동으로 학습하는 것
  • 샘플링 정책(π~\tilde{\pi}): xtx_tx^t\hat{x}_t를 두 개의 컨텍스트 윈도우 크기 mmnn으로 매핑
  • 도메인 적응: 이 mmnn을 사용하여 소스 도메인의 서브시퀀스 xt=(vtm,,vt)x_t = (v_{t-m}, \dots, v_t)와 타겟 도메인의 서브시퀀스 x^t=(v^tn,,v^t)\hat{x}_t = (\hat{v}_{t-n}, \dots, \hat{v}_t)를 샘플링
  • 최적화: 이를 통해 타겟 도메인 X^\hat{X}에서의 이상 탐지 성능을 최적화하는 것을 목표로 함.

2.2 Deep Time Series Anomaly Detection

Deep Learning 기반의 시계열 이상 탐지 방법들은 정상 데이터가 고차원 공간에서 밀집된 형태를 보인다는 가정에 기반
→ 이를 위해 오토인코더를 사용하여 데이터의 주된 패턴을 모델링하고, 정상과 이상 데이터의 경계를 식별

  • Sliding Window: 시계열 데이터를 고정된 크기의 슬라이딩 윈도우로 분할하여 지역적 패턴을 반영하는 서브시퀀스를 생성함.
  • Autoencoder: 인코더와 디코더로 구성된 오토인코더를 사용해 주된 패턴을 모델링. 입력 서브시퀀스와 디코더를 통해 재구성된 서브시퀀스 간의 불일치를 최소화하는 방식으로 학습.
    • Loss Function: minD,EXD(E(X))22min_{D,E} ||X - D(E(X))||^2_2
    • XX= 분할된 시계열 데이터 텐서, EE= 인코더, DD=디코더
  • 이상치 탐지: 학습된 오토인코더는 잠재적 이상치 서브시퀀스의 손실 값(재구성 오류)을 정상 서브시퀀스보다 훨씬 크게 만듦.

모델 확장:

  • LSTM: MLP 대신 LSTM을 사용하여 개별 서브시퀀스 간의 시간적 상관관계를 추가로 포착할 수 있음.
    → 본 논문에서 이를 핵심 이상 탐지기로 채택. 다른 RNN 기반 이상 탐지기들도 이 프레임워크에 적용 가능

2.3 Time Series Domain Adaptation

1. Domain Discrepancy Minimization

두 도메인의 데이터를 공통 공간으로 매핑해 특징 벡터 간 거리를 최소화한다.
→ 기존 연구는 서브시퀀스 크기를 정렬하는 데 사용되었지만, 이상 탐지에는 적용하기 어렵다.

minMM(X)M(X^)22\min_{\mathcal{M}} \|\mathcal{M}(X) - \mathcal{M}(\hat{X})\|_2^2
  • 공통 subspace에 매핑하는 mapping function M{\mathcal{M}}

2. Domain Discrimination

GAN과 유사한 적대적 학습을 통해 도메인을 구별할 수 없는 특징을 만든다.
→ 이 방법들 역시 주로 분류나 예측에 맞춰져 있어, 소수 분포인 이상치 탐지 문제에 직접 적용하면 negative transfer를 유발할 수 있다.

minHmaxGExXX[H(x)]+EzZ[log(1H(G(z)))]\min_{\mathcal{H}} \max_{\mathcal{G}} \mathbb{E}_{x \sim X \cup X^*} [\mathcal{H}(x)] + \mathbb{E}_{z \sim Z} [\log(1 - \mathcal{H}(\mathcal{G}(z)))]
  • minHmaxG\min_H \max_G: 생성자(G)는 판별자(H)를 속여서 목적 함수를 최대화하려 하고, 판별자(H)는 도메인을 정확히 구분해 목적 함수를 최소화하

  • ExXX^[logH(x)]\mathbb{E}_{x \sim X \cup \hat{X}} [\log H(x)]
    판별자가 실제 데이터(xx)를 '진짜'로 판단하는 확률을 높임.

  • EzZ[log(1H(G(z)))]\mathbb{E}_{z \sim Z} [\log(1 - H(G(z)))]
    판별자가 생성자(G)가 만든 '가짜' 데이터(G(z)G(z))를 '가짜'로 정확히 판단하는 확률을 높임.

ContexTDA의 해결책

기존 방법들의 한계를 극복하기 위해 컨텍스트 샘플링 정책을 도입
→ 각 시점에 대한 맞춤형 컨텍스트 정보를 샘플링하여, 시계열 데이터의 시간적 의존성을 고려한 지식 전달을 가능하게 함

2.4 Solving Markov Decision Process via Deep Reinforcement Learning

1. Markov Decision Process(MDP)의 정의

  • 순차적 의사결정을 모델링하는 수학적 틀
  • 상태(SS), 행동(AA), 전이 확률(PTP_T), 보상(RR), 할인율(γ\gamma)로 이루어져 있음.
  • 누적 보상을 최대화하는 최적의 정책(π\pi)을 찾는 것이 목표

2. 심층 Q-러닝(DQN)을 통한 해결

  • 딥러닝 신경망으로 Q 함수(Q(s,a)Q(s, a))를 근사해 최적의 행동 가치를 학습하는 방식임.
  • Q(s,a)=Es[R(s)+γmaxa(Q(s,a))],Q(s, a) = \mathbb{E}_{s'} [\mathcal{R}(s') + \gamma \max_{a'}(Q(s', a'))],
    Q함수는 현재 상태(ss)와 행동(aa)의 가치가 다음 상태(ss')에서 받을 보상과 다음 상태에서 취할 수 있는 최적 행동(aa')의 최대 Q값의 합과 같다는 것을 나타냄.
  • 학습의 안정성을 위해 재생 버퍼타겟 네트워크를 사용함.
  • 본 논문에서 MDP를 해결하기 위해 DQN을 사용함.

3. Methodology

1) Context Sampler

각 시점에 대한 최적의 contextual information을 샘플링하는 정책을 학습 > 샘플링된 context information은 anomaly detector의 입력값으로

2) Anomaly Detector

두 도메인의 데이터를 모델링하고, feature vector로 변환하여 knowledge transfer, anomaly detection 수행

  • Context sampler에 의해 결정된 새로운 context window size(ata_t)에 따라, anomaly detector에 입력될 다음 데이터(xt+1,x^t+1x_{t+1}, \hat{x}_{t+1})가 해당 윈도우 크기만큼 샘플링
  • context sampler의 행동(ata_t)이 anomaly detector의 다음 입력 데이터에 직접적인 영향을 미치며, anomaly detector는 이 샘플링된 데이터를 바탕으로 다시 새로운 피처 벡터(sts_t)를 생성하여 MDP 루프를 이어감

Loss

1) Source Domain Classification Loss
: Source 도메인의 레이블 정보를 효과적으로 활용하여 anomaly detection 성능을 높임
2) Unsupervised Reconstruction Loss
: Anomaly detection task에서 majority modeling을 반영하기 위해 source 및 target 도메인의 일반적인 데이터 분포를 정확하게 모델링하도록 장려
3) Domain Adaptation Losses
: Source 도메인에서 target 도메인으로의 knowledge transfer를 촉진

3.1 Context Sampling as Markov Decision Process

State(sts_t)

  • 시간 tt에서의 시스템 상태를 나타내는 2n차원의 벡터를 의미
  • 현재의 소스 데이터 xtx_t타겟 데이터 x^t\hat{x}_t에 기반한 이상 탐지기인코더 EE에서 나온 두 개의 n차원 특징 벡터, E(xt)E(x_t)E(x^t)E(\hat{x}_t)를 결합하여 구성
  • 이상 탐지기가 현재 source와target 데이터를 어떻게 인지하는지를 요약해 보여주는 값임

Action(ata_t)

  • 시간 tt에서의 행동을 나타내는 2차원 벡터
    • 첫 번째 차원: source 도메인의 윈도우 크기
    • 두 번째 차원: target 도메인의 윈도우 크기
  • 각 도메인의 윈도우 크기는 1부터 주어진 최대 윈도우 크기까지의 범위를 가집니다.

Reward(rtr_t)

  • 시간 tt에서의 보상을 나타내는 복합적인 신호
  • 여러 loss들을 조합하여 계산
    • source domain classification loss: source 데이터의 분류 정확도와 관련된 손실
    • source and target domain reconstruction loss: 원본 데이터를 얼마나 잘 복원하는지와 관련된 손실
    • domain alignment and discrimination loss: source 도메인과 target 도메인이 얼마나 잘 정렬되었는지(유사한 특징을 가지는지)와 관련된 손실
  • reward의 목표는 context sampler가 레이블 정보 활용domain adaptation 성능을 향상시키는 데 도움이 되는 양질의 데이터 배치를 샘플링하도록 유도하는 것

강화 학습 기반 도메인 적응 프로세스

  1. state(sts_t) 생성: 시간 tt에 끝나는 source 및 target 윈도우를 기반으로 상태(sts_t)를 만듦
  2. action(ata_t) 생성: sts_t로부터 엡실론-그리디 정책(ϵπ(st)\epsilon\pi(s_t))에 따라 다음 소스 및 타겟 도메인의 컨텍스트 윈도우 크기를 정하는 행동(ata_t)을 생성합니다.
  3. 다음 state(st+1s_{t+1}) 생성: ata_t를 바탕으로 이상 탐지기와 소스 분류기 학습에 필요한 다음 입력 데이터를 샘플링하고, 이를 통해 다음 상태(st+1s_{t+1})를 만듭니다.

문제 해결 방식

  • 위에서 설명한 마르코프 결정 과정(MDP)을 풀기 위해 deep reinforcement learning을 활용
  • 이를 통해 state와 action 사이의 역학 관계를 모델링하고, domain adaptation을 위한 context sampling 정책을 학습
  • 두 도메인의 윈도우 크기는 유한한 정수이므로 행동 공간은 이산적(discrete) >> 심층 Q-러닝(deep Q-learning)을 도입
  • 보상 함수: 학습 과정을 이끄는 가장 중요한 요소. 여러 손실 값들의 조합의 역수로 설계됨
  • Q-함수 및 정책: Q-함수는 multi-layer perceptron으로 근사화하며, 샘플링 정책 ϵπ\epsilon\pi엡실론-그리디 알고리즘을 통해 만들어짐

3.2 Contextual Domain Adaptation

R(st,at)=1αLcls+βLrecon+γLalignλLdisc\mathcal{R}(s_t, a_t) = \frac{1}{\alpha \cdot L_{\text{cls}} + \beta \cdot L_{\text{recon}} + \gamma \cdot L_{\text{align}} - \lambda \cdot L_{\text{disc}}}
  • 현재 상태 sts_t에서 특정 행동 ata_t를 취했을 때 얻게 되는 보상
  • Deep Q-learning(DQN) 에이전트는 이 보상을 최대화하는 방향으로 학습하여 최적의 Context Window Size를 선택하는 정책을 학습
  • 보상 함수가 역수 형태로 되어 있으므로, 분모에 있는 손실 값들의 합이 작아질수록 보상은 커짐
  • 손실 함수들을 최소화하는 방향으로 학습을 유도하는 것과 같음

1) LclsL_{\text{cls}} : Classification Loss

Lcls=xtXwt[ytlog(C(E(xt)))+(1yt)log(1C(E(xt)))]L_{\text{cls}} = -\sum_{x_t \in \mathcal{X}} w_t \left[ y_t \cdot \log(C(E(x_t))) + (1 - y_t) \cdot \log(1 - C(E(x_t))) \right]
  • Source Domain의 레이블 정보를 활용하여 이상 및 정상 데이터에 대한 분류 정확도를 높이는 것을 목표로 하는 손실
  • xtx_t: source domain 에서 샘플링된 시계열 subsequence
  • yty_t: xtx_t의 실제 이진 label(정상 또는 이상).
  • C()C(\cdot): 인코더 EE가 생성한 feature vector를 입력으로 받아 분류 예측을 수행하는 MLP 분류기
  • E()E(\cdot): 입력 시계열 subsequence를 feature vector로 변환하는 인코더
  • wtw_t: 이상과 정상 데이터에 대한 가중치로, 이상 데이터에 더 높은 중요도를 부여
  • log()\log(\cdot): Binary Cross-Entropy 손실 계산에 사용되는 로그 함수

2) LreconL_{\text{recon}} : Reconstruction Loss

Lrecon=xtX+,x^tX^xtD(E(xt))22+x^tD(E(x^t))22\mathcal{L}_{\text{recon}} = \sum_{x_t \in \mathcal{X}^+, \hat{x}_t \in \hat{\mathcal{X}}} \left|\left|x_t - \mathcal{D}(\mathcal{E}(x_t))\right|\right|_2^2 + \left|\left|\hat{x}_t - \mathcal{D}(\mathcal{E}(\hat{x}_t))\right|\right|_2^2
  • Anomaly Detector가 소스 및 타겟 도메인의 일반적인 데이터 패턴(정상 데이터)을 정확하게 학습하도록 유도하는 역할
  • xtX+x_t \in X^+: 소스 도메인에서 정상이라고 레이블이 지정된 subsequence. 모델은 이 데이터를 사용하여 정상 패턴을 학습
  • x^tX^\hat{x}_t \in \hat{X}: 레이블이 없는 타겟 도메인의 subsequence
  • D()D(\cdot): 인코더 EE가 만든 압축된 특징 벡터를 원래의 subsequence로 복원하는 디코더
  • 22||\cdot||_2^2: L2 Norm의 제곱으로, 원본 데이터와 모델이 재구성한 데이터 간의 오차를 측정하는 데 사용. 이 오차가 작을수록 재구성이 잘 되었다는 의미

3) LalignL_{\text{align}} : Domain Alignment Loss

Lalign=xtX,x^tX^E(xt)E(x^t)22.\mathcal{L}_{\text{align}} = \sum_{x_t \in X, \hat{x}_t \in \hat{X}} \left\Vert \mathcal{E}(x_t) - \mathcal{E}(\hat{x}_t) \right\Vert_2^2.
  • 소스와 타겟 도메인 간의 특징 분포 차이를 최소화하는 역할.
  • 이를 통해 모델은 두 도메인 모두에 적용될 수 있는 도메인 불변(domain-invariant) 특징을 학습하게 됨
  • E(xt)E(x_t)E(x^t)E(\hat{x}_t): 각각 소스 도메인과 타겟 도메인에서 인코더 EE에 의해 생성된 특징 벡터
  • 22||\cdot||_2^2: L2 Norm의 제곱으로, 소스와 타겟 특징 벡터 사이의 거리를 측정. 이 값이 작을수록 두 도메인의 특징 분포가 유사하다는 것을 의미.

LalignL_{\text{align}}의 주요 역할은 인코더가 도메인에 관계없이 유사한 특징 표현을 생성하도록 유도함으로써, 소스 도메인에서 학습한 지식이 레이블이 없는 타겟 도메인으로 효과적으로 전달되도록 돕는 것.

4) LdiscL_{disc} : Domain Discrimination Loss

Ldisc=xtXX^[y~tlog(K(E(xt)))+(1y~t)log(1K(E(xt)))]\mathcal{L}_{\text{disc}} = - \sum_{x_t \in X \cup \hat{X}} \left[ \tilde{y}_t \cdot \log(\mathcal{K}(\mathcal{E}(x_t))) + (1 - \tilde{y}_t) \cdot \log(1 - \mathcal{K}(\mathcal{E}(x_t))) \right]

  • GAN(생성적 적대 신경망)과 유사한 방식으로 작동
  • 목표는 인코더가 도메인(소스 또는 타겟)을 구별할 수 없는 도메인 불변(domain-invariant) 특징을 생성하도록 학습시키는 것
  • E(xt)E(x_t): 인코더 EE에 의해 생성된 특징 벡터
  • K()K(\cdot): 입력 특징 벡터가 소스 도메인에서 왔는지 타겟 도메인에서 왔는지 판별하는 도메인 분류기(Discriminator)
  • y~t\tilde{y}_t: 입력 데이터의 실제 도메인 레이블(예: 소스는 0, 타겟은 1)

LdiscL_{disc}의 역할은 보상 함수(R\mathcal{R})의 분모에서 음수 항으로 사용된다는 점이 중요

  • DQN이 보상 R\mathcal{R}을 최대화> 분모에 LdiscL_{disc} 항이 음수로 들어가므로, 보상을 최대화하려면 LdiscL_{disc} 값이 커져야
  • 이러한 설계는 Context Sampler가 도메인 분류기 KK가 소스와 타겟 도메인을 더 잘 구별할 수 있는 데이터 배치(context window size)를 선택하도록 유도함
  • 즉, 샘플러는 도메인 구별이 더 쉬운 '경계'에 가까운 데이터를 선택하도록 학습되며, 이는 궁극적으로 인코더 EE가 도메인 불변 특징을 생성하는 적대적 학습 과정의 균형을 맞추는 데 기여
  • 논문에서는 이러한 행동을 "도메인 식별 손실을 최대화"하여 "도메인 고유 표현을 생성"하는 것으로 설명

3.3 Anomaly Inference

이상치 탐지 방법

학습된 샘플링 정책 π~\tilde{\pi}와 훈련된 anomaly detector를 결합하여 target domain의 이상을 탐지

  1. context window 크기 샘플링: 학습된 정책 π~\tilde{\pi}를 사용하여 각 시점의 context window 크기를 결정
  2. 이상 탐지 수행: 샘플링된 context window를 anomaly detector에 입력하여 이상을 탐지

훈련 과정

훈련 과정에서는 액션 카운터(action counter) NN을 도입하여 source domain에서 가장 자주 선택된 context window 크기를 식별

  • source domain: source domain의 모든 시점에 대해, 가장 자주 선택된 윈도우 크기(=고정된 크기)를 사용하여 데이터 xtx_t를 샘플링하고 E(xt)E(x_t)를 생성
    context sampler가 target domain 데이터의 context sampling에 더 집중하도록
  • target domain: 정책 π~\tilde{\pi}로 샘플링된 context window를 기반으로 인코더 EE를 통해 E(x^t)E(\hat{x}_t)를 생성
  • 상태(sts_t) 생성: 두 벡터(E(xt)E(x_t)E(x^t)E(\hat{x}_t))를 결합하여 상태 sts_t를 얻음

매 반복마다 target domain의 특징 벡터 E(x^t)E(\hat{x}_t)는 소스 분류기 CC에 입력되어 이상일 확률(confidence score)을 얻음

이상치 점수 계산

A(x^t)=C(E(x^t))x^tD(E(x^t))22A(\hat{x}_t) = \mathcal{C}(\mathcal{E}(\hat{x}_t)) \cdot \|\hat{x}_t - \mathcal{D}(\mathcal{E}(\hat{x}_t))\|_2^2
  1. A(x^t)A(\hat{x}_t):
  • 타겟 도메인 x^t\hat{x}_t 시점의 데이터 포인트에 대한 최종 이상치 점수
  • 이 점수가 높을수록 이상치일 가능성이 큼
  1. C(E(x^t))C(E(\hat{x}_t)):
  • Source Classifier CC가 판단한 이상치일 확률
  • Source domain 의 label 데이터를 학습하여, target domain 데이터 x^t\hat{x}_t가 Source domain의 이상치 패턴과 얼마나 유사한지를 평가
  1. x^tD(E(x^t))22||\hat{x}_t - D(E(\hat{x}_t))||^2_2:
  • 재구성 오류(Reconstruction Error)
  • 이는 오토인코더가 정상 패턴을 학습한 후, 실제 데이터 x^t\hat{x}_t와 모델이 재구성한 데이터 D(E(x^t))D(E(\hat{x}_t)) 간의 차이를 측정한 것
  • 일반적으로 정상 데이터는 오류가 작고, 이상치는 오류가 크게 나타남

4. Experiment

1) Homogeneous Transfer

: Source 와 Target이 동일 feature space 공유하는 경우

  • 평균 Macro-F1 점수: ContexTDA는 다른 baseline model보다 평균적으로 6.7%에서 6.3% 더 우수한 성능을 보임
  • 평균 AUC 점수: ContexTDA는 다른 baseline 모델들보다 더 높은 평균 AUC 점수를 달성
  • SMD : 7개 설정 중 6개에서 다른 모델들보다 뛰어난 성능
  • Boiler: 6개 설정 중 4개에서 다른 모델들보다 뛰어난 성능

1. 통합된 컨텍스트 윈도우 크기의 한계

  • source/target 도메인에 동일한 context window 크기를 적용하는 방식은 이상 탐지에 한계가 있음
  • 이중 도메인 모델(RDC, RDC-VRADA, SASA)은 단일 도메인 모델(AE-LSTM)보다 AUC 점수는 높았지만, Macro-F1 점수는 비슷하거나 더 낮음
    → 통합된 컨텍스트가 전반적인 분류 능력은 향상시키지만, 실제 중요한 이상 데이터 탐지에는 효과가 제한적임

2. 국지적 컨텍스트 정렬의 이점

  • ContexTDA는 각 도메인에 맞는 국지적 컨텍스트 크기를 적용하여 기존 이중 도메인 모델보다 AUC 점수를 소폭 향상시키고, Macro-F1 점수에서는 모든 기준 모델을 능가
  • 개별 시점에 맞춘 context 정렬이 정상 및 이상 데이터 모두의 지식 전이에 효과적임을 증명

3. MMD와 도메인 판별 결합 시 컨텍스트 정렬의 중요성

  • MMD와 도메인 판별을 결합할 때는 컨텍스트 정렬이 매우 중요
  • RDC-VRADA는 RDC에 도메인 판별을 추가했음에도 성능이 하락했는데, 이는 적절한 컨텍스트 정렬 없이 두 기법을 결합하면 부정적 전이(negative transfer)가 발생할 수 있음을 보여준줌
  • ContexTDA는 개별 시점에 최적화된 컨텍스트를 제공하여 훨씬 나은 성능을 달성했다.

4. 컨텍스트 샘플링 정책 학습의 효과

  • 제안된 컨텍스트 샘플링 정책은 DQN(심층 Q-러닝)을 통해 성공적으로 학습
  • 무작위 샘플링 방식인 RandContexTDA와 비교했을 때, ContexTDA의 성능이 모든 데이터셋에서 크게 향상되었다.
  • 이는 설계된 보상 함수가 도메인 적응을 위한 정책 학습 과정을 효과적으로 안내하며, DQN이 최적의 컨텍스트 샘플링 정책을 성공적으로 학습했음을 시사

5. 예외적 상황

  • SASA가 ContexTDA보다 뛰어난 경우: 두 도메인 간의 이상 행동 패턴이 매우 유사할 때 지도 학습이 더 유리
  • 이는 이상 데이터 분포가 명확히 클러스터를 형성하여, 컨텍스트 샘플링 없이도 지도 학습 기반의 이진 분류가 효과적일 수 있음을 나타냄

2) Heterogeneous Transfer

: 데이터 특성이 완전히 다른 이종 도메인 환경

  • SASA 적용 불가: SASA는 소스와 타겟 도메인이 동일한 특징 공간을 공유해야 한다는 전제 조건 때문에, SMAP과 MSL 같은 이종 도메인에는 적용할 수 없음
  • dual domain baseline: 이종 도메인 특성을 반영하여, 소스와 타겟 도메인에 각각 개별적인 encoder-decoder 네트워크 구현. 두 네트워크의 특징 표현을 활용해 도메인 정렬 및 식별을 수행
  • Macro-F1: 차선(second-best) 베이스라인 대비 9.9% 향상.
  • AUC: 1.6% 향상.

도메인 차별(Domain Discrimination)의 중요성

  • RDC(Domain Discrepancy Minimization)와 같은 기법으로 완전히 다른 두 도메인을 강제로 정렬하는 것은 상당한 Negative Transfer를 일으킴
  • RDC + 도메인 차별 기법 = RDC-VRADA를 비교해 보면, domain-invariant 특징을 추출하기 위한 도메인 차별이 Negative Transfer를 완화하는 데 도움이 됨

Local Context 정보 샘플링의 효과

  • ContexTDA는 모든 도메인 적응 프레임워크 중 유일하게 Negative Transfer 없이 AE-LSTM 대비 Macro-F1 점수를 향상시킴
    • 개별 시점에 대해 로컬로 샘플링된 컨텍스트 정보가 모델이 유익한 정보에 집중하도록 돕기 때문인 것으로 분석됨.
  • 윈도우 크기 분산: 이종 도메인 설정에서는 동질적 설정에 비해 선택된 윈도우 크기의 분산이 더 높게 나타남.
    → context sampler가 지식 전이를 방해하는 정보를 줄이고, 도움이 되는 정보를 증폭시켜 더 나은 성능을 달성했음

3) Ablation Study , Hyperparameter Tuning

Ablation Study

1. 도메인 적응 목표(LalignL_{\text{align}},LdiscL_{\text{disc}}) 제거 시:

  • 모델 성능에 큰 변화가 없음
  • 두 도메인(machine 1, machine 4)의 데이터 대부분이 매우 유사한 분포를 가지고 있기 때문.
  • 실제로 이 두 머신은 값이 0인 속성을 공통적으로 가지고 있음

2. 소스 레이블(LclsL_{\text{cls}}) 정보의 중요성

  • 재구성 목표인 LreconL_{\text{recon}}에 비해 소스 레이블 정보인 LclsL_{\text{cls}}가 이상치 탐지에 더 중요한 역할을 수행
  • 두 도메인의 이상치 행동이 서로 유사하다는 것을 의미
  • 두 도메인 모두에서 발생하는 급증과 같은 이상치 패턴이 높은 일관성을 보임 → 소스 도메인에서 학습한 레이블 정보가 타겟 도메인의 이상치 탐지에 효과적으로 활용

Hyperparameter Tuning

1. α\alpha (소스 도메인 분류 손실 LclsL_{cls} 가중치)

  • 두 도메인의 이상치 행동이 유사할 때 더 크게 설정
  • 이상치 패턴이 유사하면 소스 도메인의 레이블 정보가 타겟 도메인의 이상치 탐지에 매우 효과적으로 작용하기 때문.

2. β\beta (재구성 손실 LreconL_{recon} 가중치)

  • 레이블이 지정된 이상치 데이터가 부족할 때 더 큰 값을 사용
  • 레이블 정보가 부족한 경우, β\beta를 높여 모델이 각 도메인의 일반적인 패턴(정상 데이터)을 더 잘 모델링하도록 유도하여 이상 탐지 기반을 강화

3. γ\gamma (도메인 정렬 손실 LalignL_{align} 가중치)

  • 두 도메인의 일반적인 데이터 패턴이 유사할 때 성능 향상을 위해 사용. 특히 동종(homogeneous) 도메인 간의 지식 전이에 유용
  • γ\gamma를 크게 하면 두 도메인 간 특징 공간이 더 잘 정렬, 소스에서 학습한 지식이 타겟으로 원활하게 전이

4. δ\delta (도메인 판별 손실 LdiscL_{disc} 가중치)

  • 이종(heterogeneous) 도메인 환경에서 도메인 불변 특징 추출을 촉진하기 위해 더 큰 값을 설정
  • 보상 함수에서 LdiscL_{disc}는 음수 항으로 포함되므로, δ\delta를 크게 하면 DQN이 보상을 최대화하는 과정에서 LdiscL_{disc}를 최대화하게 됨. 이는 Min-Max Optimization 과정을 통해 도메인에 구애받지 않는 특징 벡터를 생성하게 만듦

5. Related Work

1. Domain Adaptation

: 레이블이 있는 소스 도메인의 지식을 레이블이 부족한 타겟 도메인으로 전달하는 기술

  • 주요 전략:
    • MMD (Maximum Mean Discrepancy): 두 도메인의 데이터 분포 차이를 최소화하여 특징 공간을 정렬
    • 도메인 판별 (Domain Discrimination): 적대적 학습을 통해 도메인 불변 특징을 생성
  • ContexTDA는 위 두 가지 전략을 통합하여 사용

2. Time Series Domain Adaptation

  • 기존 방법: RNN-LSTM, self-attention 등을 특징 추출기로 사용하며, 주로 시계열 회귀 및 분류 문제에 중점을 둠. 이는 대부분의 데이터 분포(정상 데이터)를 정렬하는 데 초점을 맞춤.
  • 문제점: 소수 분포인 이상치에 대한 지식 전달에는 negative transfer를 유발할 수 있음

3. Partial Domain Adaptation

: 모든 도메인이 동일한 레이블 공간을 공유한다는 가정을 완화하기 위해 인스턴스 단위의 선택적 전이 전략을 개발

  • 접근 방식:
    • 가중치 재조정 (Re-weighting): 도메인 판별기에서 얻은 확률에 따라 소스 샘플의 가중치를 조절
    • 반복적 인스턴스 선택 (Iterative instance selection): 강화 학습을 통해 인스턴스 선택 문제를 해결
  • 문제점: 이러한 방법들은 시계열 데이터의 시간적 의존성을 고려하지 않아, 임의의 인스턴스 선택이 제대로 작동하지 않을 수 있음

ContexTDA의 해결책

  • ContexTDA 프레임워크: 기존 방법들의 한계를 극복하기 위해, 시계열 데이터의 개별 인스턴스에 대한 context sampling에 초점을 맞추어 시간적 의존성을 고려한 지식 전이를 가능하게 함

6. Conclusion

본 논문은 시계열 이상 감지를 위한 ContexTDA(Context-aware Domain Adaptation) 프레임워크를 제안

  • 주요 방법론:

    • 강화 학습: 컨텍스트 샘플링 문제를 마르코프 결정 과정(MDP)으로 공식화
    • 맞춤형 보상 함수: 시계열 이상 감지를 위한 지식 전달을 최적화하기 위해 특별히 설계된 보상 함수를 사용
    • 심층 강화 학습: 이 알고리즘을 사용하여 최적의 컨텍스트 샘플링 정책을 학습
  • 실험적 증명:

    • 동질적(homogeneous) 지식 전달: 두 개의 공개 데이터셋을 사용한 실험에서 ContexTDA의 우수한 성능이 입증
    • 이종(heterogeneous) 지식 전달: 완전히 다른 두 시계열 데이터셋에 대한 파일럿 연구를 통해, 두 도메인의 컨텍스트 윈도우 크기를 정렬하는 것이 이종 지식 전달의 핵심 요소가 될 수 있음을 보여줌

0개의 댓글