이상탐지(anomaly detection)는 일반적인 값과 다른 특이한 값(outlier)이나 드문 사건을 탐지하는 기법
▪ 지도학습, Classification [분류모델]
•모델을만들고, 정상(normal)과 비정상(abnormal)을 평가할 수 있어야함
• y(label)이 필요
▪ 비지도학습(에가까움) [이상탐지 모델]
•비정상(Abnormal) 데이터가 너무 부족.
•그나마 있는 데이터도 Class를 대표하기 어려움
•정상(Normal)데이터를 가지고 어디까지가 정상인지 추정
이상탐지의 몇가지 Challenge
①Label을 어떻게 확보할 것인가?
②낮은 성능 문제
숲에서 나무를 찾아내듯이, 데이터에서 이상한 점을 찾아내는 것
Normal과 Abnormal 구분하기
데이터 샘플링: 먼저, 많은 데이터 중에서 일부를 뽑아내. 마치 여러 개의 과자 중에서 몇 개를 골라서 맛보는 것처럼, 데이터를 조금씩 샘플로 선택하는 거야.
Isolation Tree 만들기: 그 다음, 샘플링한 데이터로 나무(트리)를 만들어. 이 나무는 데이터를 잘라내는 역할을 해. 마치 나무를 자르듯이, 데이터를 여러 번 나누면서 이상한 점을 찾아내는 방법이야.
점수 매기기(Scoring): 마지막으로, 만들어진 나무를 사용해서 각 데이터 포인트에 점수를 매겨. 점수가 낮은 데이터는 정상(Normal)이고, 점수가 높은 데이터는 이상(Abnormal)으로 판단해. 이렇게 해서 어떤 데이터가 보통과 다르게 이상한지를 구분하는 거야.