Large Language Model Guided Knowledge Distillation for Time Series Anomaly Detection

Yuri·2024년 6월 5일
0

논문 리뷰

목록 보기
4/7

Introduction

  • 라벨링된 이상탐지 데이터는 그 수가 적고 확보가 어렵기 때문에 비지도 학습 기반 이상탐지가 주목받고 있으나, 이 또한 많은 데이터를 필요로 함
  • 이에 이미 대규모 데이터셋에서 사전 학습된 LLM을 교사 네트워크로 사용하여 학생 네트워크가 교사 네트워크의 출력을 모방하도록 하는 지식 증류 기법을 적용하여 문제를 해결하고자 함

Methodology

framework of AnomalyLLM Pre-trained LLM를 이용한 교사 네트워크와 Transformer Encoder를 이용한 학생 네트워크를 구성하고 이들이 각각 생성한 표현이 정상 샘플일 경우 가깝고 이상 샘플일 경우 멀도록 하여 이상 스코어를 도출

Data

  • 비지도 학습에서 데이터셋에는 라벨이 없는 점을 감안하여 모든 샘플은 정상으로 간주하고 데이터 증강 기법을 통해 이상 데이터를 생성
  • 데이터 증강은 샘플 전체 길이에서 무작위로 세그먼트를 선택하고 지터링, 스케이링, 워핑 등의 방법을 적용하여 합성 데이터 생성
  • 원본 데이터와 합성 데이터는 교사 네트워크와 학생 네트워크 모두에 각각 전달됨

Training Common

  1. Pre-trained LLM를 이용한 교사 네트워크와 Transformer Encoder를 이용한 학생 네트워크가 각각 생성한 표현이 정상 샘플일 경우 가깝고 이상 샘플일 경우 멀도록 함
  2. Hypersphere Classifier Loss를 이용해 교사 네트워크와 학생 네트워크 간 표현 차이 계산
  3. 전체 Time-series에서 특징적인 세그먼트를 추출하여 프로토타입 풀 조성
    a. 학생 네트워크가 교사 네트워크처럼 지나치게 일반화된 표현을 학습하는 것을 방지하도록 동작
    b. 각 프로토타입은 학습 가능한 파라미터로 구성됨
  4. 입력 타임윈도우와 가장 유사한 프로토타입을 코사인 유사도를 통해 선택하고 입력 타임윈도우와 프로토타입에 대해 각각 RevIN과 Patching 진행

Prototype-based Student Network

  1. 학생 네트워크에서 선형 레이어와 위칭 임베딩으로 구성되는 입력 임베딩 진행
    a. 선형 임베딩: 프로토타입과 입력 타임윈도우의 특징을 학습
    b. 위치 임베딩: 위치 정보를 학습
  2. 임베딩된 입력 타임윈도우를 query로, 입력 타임윈도우와 프로토타입의 Concat을 key, value로 하여 Transformer Encoder에서 Multi-head Cross Attension 진행
    a. 프로토타입의 특성을 입력 타임윈도우에 통합
  3. Flatten 및 선형 레이어를 통해 학생 네트워크와 교사 네트워크를 동일한 표현 공간에 투영

LLM-based Teacher Network

  1. 입력 임베딩을 통해 입력 타임윈도우를 LLM의 Hidden Dimension으로 투영
  2. Pre-trained LLM 미세 조정
  3. Flatten 및 선형 레이어를 통해 학생 네트워크와 교사 네트워크를 동일한 표현 공간에 투영

전체 학습 손실은 다음과 같음:
Ltotal=Lkd+Lce\mathcal{L}_{total}=\mathcal{L}_{kd}+\mathcal{L}_{ce}
여기서 Lkd는 원본(정상) 샘플을 가까이 하고 합성 샘플(이상) 샘플은 멀리하는 KL-divergence로 정의됨
Lkd=1Ni=1Nzici22log(1exp(ziacia22))\mathcal{L}_{kd}=\frac{1}{N}\sum\limits_{i=1}^N\vert\vert z_i-c_i \vert\vert^2_2-\log(1-\exp(-\vert\vert z^a_i-c^a_i\vert\vert^2_2))
Lce는 교사 네트워크가 보다 일반적인 특성을 학습하는데 집중할 수 있도록 원본 샘플과 합성 샘플 간의 거리를 줄이는 대조 손실로 정의됨
Lce=1Ni=1Ncici2ciacia2\mathcal{L}_{ce}=\frac{1}{N}\sum\limits_{i=1}^N-\frac{c_i}{\vert\vert c_i \vert\vert_2} \cdot \frac{c^a_i}{\vert\vert c^a_i \vert\vert_2}
즉, Prototype-based Student Network은 입력 타임윈도우의 세부적인 특징을 잘 표현하고 LLM-based Teacher Network는 일반적인 특징을 잘 표현할 것으로 기대함

0개의 댓글