✅ 논문 링크 : [DAGMM] (https://bzong.github.io/doc/iclr18-dagmm.pdf)
논문을 소개하고자 하는 이유
- 라인게임즈 다니는 분으로 부터 소개 받은 논문인데, 정리해보면서 Toy Data에 적용해보고자 함
- Anomaly Point를 Annotation하는데 Overhead가 너무 크므로, Unsupervised하게 접근하는 방식을 배워보고자함
- 그런데, 논문을 읽다가 잘 이해가 안되는 느낌도 있고, 추상적인 부분이 있어서 구현체를 봐야 알 수 있을 것 같음
Abstract
Introduction
- 사람의 Supervision 없이, 고차원의 데이터를 Anomaly Detection 하는 것은 어려운 과제
- 특히, Input Data의 차원이 커지면 커질수록, 원래 공간에 Density Estimation을 하기 어려워짐
- Input Data Point가 낮은 확률로 관찰되는 Rare event 이라면, 더더욱 어려워질 수도 있음
- 이상탐지 연구에서는 Curse of Dimensionality를 해결하기 위해, 2-step 접근이 많이 사용됨
- (1) 차원 축소 (Dimensionality Reduction)
- (2) 밀도 추정 (Density Estimation)
- 2-step 접근이다 보니, 밀도 추정에 Input으로 사용될, 저차원의 Representation이 이상탐지에 필요한 정보가 제거될 수 있음
- 해당 논문의 Contribution :
- (1) 이상탐지에 필요한 정보를 보존하며 저차원 Representation과 Reconstruction Error 생성
- (2) 학습된 저차원 공간의 정보를 GMM을 통해, 밀도 추정
- (1) : Reconstruction Error 최소화 & (2) : GMM Parameter 추정을 동시에 진행
- (3) End-to-End Training
Architecture
- DAGMM 구조는 크게 2가지로 구성됨
- (1) Compression Network :
- Deep Autoencoder를 통한 차원축소
- 저차원 Representation (Reduced Space & Reconstruction Error Features)을 Estimation Network에 Feeding
- (2) Estimation Network :
- Compression Network를 통해 얻은 저차원 표현을 통해, GMM 프레임워크를 바탕으로 likelihood를 계산함
1) Compression Network
- Low-Dimensional Representation은 2가지 Features를 합쳐진 형태
- (1) Autoencoder를 통해 얻어진 Latent Representation
- (2) Reconstruction Error로 부터 얻어진 Feature
2) Estimation Network
3) Objectvie Function
- DAGMM의 Objective Function은 크게 3가지 파트로 구성
- (1) Reconstruction Error (Compression Network)
- (2) Energy Function (Estimation Network)
- (3) Pernalised term (for Covariance matrices Diagonal Entries to 0)
4) Relation to Variational Inference
- EM Algorithm은 Latent variables가 있는 확률 모델에서 MLE를 구하는 방법
- Graphical Model 관점에서, Estimation Network는 Latent Variable 추론과 유사한 역할을 함
- 해당 내용은 PRML 9.4 The EM Algorithm in General 부분에 잘 기술이 되어 있음
참고한 Reference
1) PRML (Pattern Recognition and Machine Learning, Christopher Bishop)