1. 이상 탐지의 정의
주어진 데이터의 정상 여부를 판별하는 문제
- 정상 데이터와 이상 데이터의 비율이 불균형하다.
2. 데이터 불균형
지도학습에서 모델을 학습하기 위해서는 정답이 있는 데이터가 필요.
- 모델이 모든 예측 값을 데이터가 많은 쪽 (Majority Group)으로 예측하는 상황이 발생
해결 방법
- Sampling을 통한 해결 방법
- Under Sampling
- Over Sampling
- 모델을 통한 해결 방법
3. Under Sampling
Majority Group의 데이터를 덜 뽑아서 데이터 비율을 맞추는 방법
random under sampling
- Majority Group의 데이터를 무작위로 삭제
Near Miss Under Sampling
- Minority Group 근처에 있는 Majority Group의 데이터를 선택
4. Over Sampling
Minority Group의 데이터를 더 뽑아서 데이터 비율을 맞추는 방법
Simple Over Sampling
- Minority Group에서 데이터를 더 많이 추출하는 방법
SMOTE ( synthetic minority oversampling technique)
- 합성 데이터를 생성해서 데이터 비율을 맞추는 방법