[Paper Review] Deep Autoencoding Gaussian Mixture Model for Unsupervised Anomaly Detection

Jinsoo Shin·2022년 3월 6일
1

AnomalyDetection

목록 보기
2/2
✅ 논문 링크 : [DAGMM] (https://bzong.github.io/doc/iclr18-dagmm.pdf)

논문을 소개하고자 하는 이유

  • 라인게임즈 다니는 분으로 부터 소개 받은 논문인데, 정리해보면서 Toy Data에 적용해보고자 함
  • Anomaly Point를 Annotation하는데 Overhead가 너무 크므로, Unsupervised하게 접근하는 방식을 배워보고자함
  • 그런데, 논문을 읽다가 잘 이해가 안되는 느낌도 있고, 추상적인 부분이 있어서 구현체를 봐야 알 수 있을 것 같음

Abstract

  • 기존의 밀도 추정을 기반으로 하는 차원 축소 방법은 다음과 같은 문제가 존재함

    • (1) 분리된 모델 학습에서의 일관적이지 않은 최적화 목표 (Optimisation Goal)
      • Decoupled Optimisation 예시 : EM Algorithm, ADMM
    • (2) 저차원 공간에서의 중요한 정보를 제대로 보존 하지 못함
  • Unsupervised Anomaly Detection에 적용할 수 있는 DAGMM을 소개 (2가지 네트워크로 구성)
    (DAGMM Acronym : Deep Autoencoding Gaussian Mixture Model)

    • (1) Compression Network : 저차원 공간으로의 차원 축소 & Reconstruction Error 생성
      • 사용한 방법 : Deep Autoencoder (Non-linearity)
    • (2) Estimation Network : Compressed Data의 확률분포 추정
      • 사용한 방법 : Gaussian Mixture Model (Anomaly 데이터가 들어오면, 낮은 확률로 추정)
      • Autoencoder와 Mixture Model을 동시에 같이 학습할 수 있는 End-to-End 방식을 제안
        → EM 알고리즘 대신 (Decoupled two-stage Algorithm), Joint Optimisation 활용

Introduction

  • 사람의 Supervision 없이, 고차원의 데이터를 Anomaly Detection 하는 것은 어려운 과제
  • 특히, Input Data의 차원이 커지면 커질수록, 원래 공간에 Density Estimation을 하기 어려워짐
    • Input Data Point가 낮은 확률로 관찰되는 Rare event 이라면, 더더욱 어려워질 수도 있음
  • 이상탐지 연구에서는 Curse of Dimensionality를 해결하기 위해, 2-step 접근이 많이 사용됨
    • (1) 차원 축소 (Dimensionality Reduction)
    • (2) 밀도 추정 (Density Estimation)
    • 2-step 접근이다 보니, 밀도 추정에 Input으로 사용될, 저차원의 Representation이 이상탐지에 필요한 정보가 제거될 수 있음
  • 해당 논문의 Contribution :
    • (1) 이상탐지에 필요한 정보를 보존하며 저차원 Representation과 Reconstruction Error 생성
    • (2) 학습된 저차원 공간의 정보를 GMM을 통해, 밀도 추정
      • (1) : Reconstruction Error 최소화 & (2) : GMM Parameter 추정을 동시에 진행
    • (3) End-to-End Training

Architecture

  • DAGMM 구조는 크게 2가지로 구성됨
    • (1) Compression Network :
      • Deep Autoencoder를 통한 차원축소
      • 저차원 Representation (Reduced Space & Reconstruction Error Features)을 Estimation Network에 Feeding
    • (2) Estimation Network :
      • Compression Network를 통해 얻은 저차원 표현을 통해, GMM 프레임워크를 바탕으로 likelihood를 계산함

1) Compression Network

  • Low-Dimensional Representation은 2가지 Features를 합쳐진 형태
    • (1) Autoencoder를 통해 얻어진 Latent Representation
    • (2) Reconstruction Error로 부터 얻어진 Feature

2) Estimation Network

  • 주어진 Low-Dimensional Representation 가지고, Density Estimation 하는 단계 (GMM)

  • Estimation Network 과정

    • (1) Membership Prediction :
      • Compression Network를 통해 얻어진 Input (저차원 Representation)을 가지고, 각 데이터 포인트가 Membership(분포/군집)에 속할 확률값을 추정
    • (2) GMM Parameter Estimation
      • 주어진 Batch Samples & Membership Prediction을 가지고 GMM 파라미터 추정
    • (3) Energy (likelihood) Inference
      • Testing 과정에서는 학습된 GMM Parameters를 가지고, 미리 설정된 Threshold보다 Energy Function Output이 크다면 Anomaly Point로 간주

3) Objectvie Function

  • DAGMM의 Objective Function은 크게 3가지 파트로 구성
    • (1) Reconstruction Error (Compression Network)
    • (2) Energy Function (Estimation Network)
    • (3) Pernalised term (for Covariance matrices Diagonal Entries to 0)

4) Relation to Variational Inference

  • EM Algorithm은 Latent variables가 있는 확률 모델에서 MLE를 구하는 방법
  • Graphical Model 관점에서, Estimation Network는 Latent Variable 추론과 유사한 역할을 함
  • 해당 내용은 PRML 9.4 The EM Algorithm in General 부분에 잘 기술이 되어 있음

참고한 Reference

1) PRML (Pattern Recognition and Machine Learning, Christopher Bishop)

profile
게임회사에서 데이터분석을 하고 있는 분석가의 블로그

0개의 댓글