Isolation Forest
- 트리 기반의 이상치 탐지 알고리즘
- 주요 개념: 이상치는 정상 데이터보다 더 적고, 다른 데이터와 멀리 떨어져 있을 가능성이 높다는 것
- 특징: 빠르고 대용량 데이터에 적합함
One-Class SVM
- 서포트 벡터 머신을 기반으로 하는 이상치 탐지 방법
- 정상 데이터를 포함하는 고차원의 경계(hyperplane)를 학습하고, 경계 밖에 위치한 데이터를 이상치로 분류
- 특징: 고차원 데이터를 처리하는 데 유리하지만, 데이터 크기가 커질수록 계산 비용이 증가할 수 있음.
Elliptic Envelope
- 데이터가 가우시안 분포(정규분포)를 따른다고 가정하고, 이 데이터의 공분산을 기반으로 타원 형태의 경계를 학습해 이상치를 탐지
- 데이터가 정규 분포를 따르는 경우에 효과적
- 특징: 가우시안 분포를 가정하기 때문에, 분포 가정이 맞지 않으면 성능이 떨어질 수 있음.
Gaussian Mixture Models (GMM)
- 데이터를 여러 개의 가우시안 분포로 표현하여 클러스터링 수행
- 각 클러스터가 가우시안 분포로 모델링되며, 이상치는 이 클러스터에 속하지 않는 데이터로 간주
- 확률 기반으로 클러스터에 속할 가능성이 낮은 데이터를 이상치로 분류
- 특징: 데이터가 여러 개의 가우시안 분포로 구성되어 있을 때 유리하며, 분포 간의 겹침을 허용함.
references
https://blog.naver.com/nhncloud_official/223266309674