이상탐지는 데이터셋에서 정상적인 패턴에서 벗어난 데이터 포인트를 식별하는 과정입니다. 이러한 이상치는 데이터의 분포나 특성에서 눈에 띄게 다른 점들을 나타내며, 종종 오류, 사기, 결함 등의 문제를 나타낼 수 있습니다.
밀도 기반 알고리즘은 데이터 포인트 간의 지역적 밀도를 기반으로 이상치를 탐지합니다. 이러한 알고리즘은 데이터 분포가 불균일한 경우에도 잘 작동할 수 있습니다.
통계적 접근 방식을 사용하여 모델이 데이터의 '정상적인' 행동을 학습하고 통계적으로 이례적인 행동을 보이는 데이터 포인트를 이상치로 식별합니다.
거리 기반 알고리즘은 데이터 포인트 간의 거리를 기반으로 이상치를 탐지합니다. 데이터 포인트가 다른 포인트와의 거리가 멀다면 이상치로 간주됩니다.
앙상블 기반 알고리즘은 여러 개의 의사결정 기반 모델을 조합하여 이상치를 탐지합니다. 이 방법은 일반적으로 높은 정확도를 제공합니다.
결정 경계 기반 알고리즘은 데이터의 분포를 학습하여 명확한 경계를 형성하고, 이 경계를 벗어나는 점들을 이상치로 간주합니다.