End-To-End Self-tuning Self-supervised Time Series Anomaly Detection (2024)

Becky's Study Lab·2024년 7월 2일
1

arxiv에 올라온 논문이고, 현재 하고 있는 task 관점에서 읽어보면 도움이될거 같아서 정리하게 되었다.

0. Abstract

TSAD의 두 가지 과제는 레이블이 지정된 데이터 없이도 다양한 유형 의 시계열 이상(스파이크, 불연속성, 추세 변화 등)을 탐지할 수 있는 다재다능(vesatile)하고 비지도(unsupervised) 모델입니다

  • Self-supervised 모델은 다양한 증강(augmentation)을 통해 입력 데이터를 변환하여 훈련을 위한 가상 이상 현상(pseudo anomalies)을 생성하여 비지도 TSAD를 해결합니다. -> 그러나 그 성능은 증강의 선택에 민감하여 실제로 선택하기 어렵고, 레이블이 없는 TSAD에 대한 데이터 증강 튜닝에 대한 연구는 문헌에 없습니다.

TSAP for TSA “on autoPilot”, which can (self-)tune augmentation hyperparameters end-to-end 를 제안
-> differentiable augmentation architecture와 unsupervised validation loss을 기반으로 증강 유형과 이상 유형 간의 정렬을 효과적으로 평가합니다
-> TSAP 가 (discrete) augmentation type과 associated (continuous) hyperparameters를 효과적으로 선택하는 능력을 보여줍니다.
-> 다양한 TSAD 작업에서 SOTA 자체 지도 모델을 포함한 기존 baseline 을 능가합니다.


1. Introduction

✅ 최근 자기 지도 학습(SSL)에 대한 진전은 AD 분야를 변화시켜 기존의 비지도(또는 단일 클래스) 학습 접근 방식에 비해 상당한 개선을 제공했습니다.
✅ SSL 기반 AD의 핵심은 데이터 증강 기능입니다. 이러한 기능은 입력이 증강되는지 여부를 예측하는 것과 같이 이상 탐지기의 (자체) 감독 학습을 위한 가상 레이블을 만드는 데 사용됩니다.
=> ❗이러한 모든 접근 방식에서 SSL 기반 AD의 성공은 증강된 데이터가 실제 이상 현상을 얼마나 모방하는지에 따라 크게 달라집니다

✅ 레이블 없이 데이터 증강 함수를 조정하는 방법은 거의 없지만 한계가 있습니다.
1) 일부는 미분 불가능한 검증 손실에 의존합니다.
2) 엔드투엔드 학습 프레임워크에 적합하지 않습니다.
예를 들어, 이미지 도메인에서 CutOut augmentation은 (연속적인) 하이퍼 매개변수를 어떻게 조정하더라도 의미적 클래스 이상치(예: 고양이 대 자동차)을 모방할 수 없습니다. 주로 이산 선택(즉, 증강 유형)의 불일치 때문입니다.
✅ 이러한 노력 중 어느 것도 우리 작업의 초점인 시계열 데이터에 대한 이상 탐지를 다루지 않습니다.

🤔 CutOut augmentation

  • cutout은 오직 CNN의 입력층 유닛만 생략한다. 반면 원래의 dropout방식은 중간 특성층에서도 유닛을 확률적으로 생략한다.
  • cutout에서 생략되는 영역은 개별 픽셀 단위가 아니라, 연속된 영역이다. 연속된 영역의 생략은 이어지는 특성맵으로 전파되고, 컨텍스트에 의해 생략정보가 복구되지 못하게 한다.
  • cutout 방식은 일부의 특정 표현특성에만 의지하지 않고, 이미지 전체의 컨텍스트를 네트워크가 사용하게 한다. 한편, cutout 방식은 입력층에서 드롭아웃에 공간적인 사전확률을 적용하는 것으로 해설될 수 있다.
  • cutout 방식을 제안하는 가장 큰 이유는 컴퓨터 비전 작업에서 자주 맞닥뜨리게 되는 object occlusion 문제 해결을 위해서다. ( 두 개 이상의 객체가 맞물려서 한 객체의 일부가 가려지는 문제) occlusion을 시뮬레이션하는 새로운 이미지를 생성함으로써, 실제 이미지에서 나타나는 상황을 모델이 더 잘 준비할 수 있다. 그 뿐 아니라 모델이 판단을 내릴 때, 더 많은 이미지 컨텍스트를 고려하도록 학습시킬 수 있다.
  • cutout 영역의 크기는 영역의 모양보다 더 중요한 하이퍼 파라미터다. cutout 영역의 모양은 단순함을 위해 정사각형 모양의 패치로 수행되었다. 입력 이미지에서 임의로 선택된 한 픽셀을 중심점으로 놓고, 이 점 주위로 cutmask를 위치시켰다. 이렇게 되면 마스크 영역이 항상 입력 이미지 안에 위치하는 것은 아니다.
  1. 문제
    우리의 연구는 학습 시점에 레이블을 지정하지 않고 SSL 기반 TSAD에서 데이터 증가의 이산적 및 연속적 하이퍼파라미터를 조정하려는 최초의 시도입니다.

  2. 새로운 TSAD 방법
    다양한 시계열 이상 유형 목록을 수용 하고 증강된 데이터와 레이블이 지정되지 않은 테스트 데이터의 정렬 을 정량화하는 미분 가능한 검증 손실을 통해 관련 하이퍼파라미터(크기, 지속 시간 등)의 자동 조정을 가능하게 하는 TSAP을 제안합니다.

  3. 효과성
    증강 유형과 (연속적인) 하이퍼 매개변수를 신중하게 선택함으로써 당사의 자체 조정 TSAP는 SOTA NeuTraL-AD를 포함한 기존의 비지도 및 자체 지도 접근 방식보다 성능이 뛰어납니다. 다양한 TSAD 작업에서 학습 가능한 증강을 채택합니다.


2. Preliminaries

  • 2.1 Time Series Anomaly Detection

  • 2.2 Self-supervised Anomaly Detectors
    (데이터 증강 함수를 사용하여 정상 데이터로부터 의사 이상 데이터를 생성하고, 이를 식별하기 위해 탐지기를 학습시키는 것)

  • 2.3 Data Augmentation on Time Series

  • 2.4 Wasserstein Distance

profile
배우고 공부하고 기록하는 것을 멈추지 않는다.

0개의 댓글