[ML] 머신러닝 - Anomaly Detection

GisangLee·2022년 7월 25일
0

ML

목록 보기
99/141

1. 이상 탐지의 정의

주어진 데이터의 정상 여부를 판별하는 문제

  • 정상 데이터와 이상 데이터의 비율이 불균형하다.

2. 데이터 불균형

지도학습에서 모델을 학습하기 위해서는 정답이 있는 데이터가 필요.

  • 한 쪽의 데이터가 매우 적은 상황
  • 모델이 모든 예측 값을 데이터가 많은 쪽 (Majority Group)으로 예측하는 상황이 발생

해결 방법

  1. Sampling을 통한 해결 방법
    - Under Sampling
    - Over Sampling

  2. 모델을 통한 해결 방법

3. Under Sampling

Majority Group의 데이터를 덜 뽑아서 데이터 비율을 맞추는 방법

random under sampling

  • Majority Group의 데이터를 무작위로 삭제

Near Miss Under Sampling

  • Minority Group 근처에 있는 Majority Group의 데이터를 선택

4. Over Sampling

Minority Group의 데이터를 더 뽑아서 데이터 비율을 맞추는 방법

Simple Over Sampling

  • Minority Group에서 데이터를 더 많이 추출하는 방법

SMOTE ( synthetic minority oversampling technique)

  • 합성 데이터를 생성해서 데이터 비율을 맞추는 방법

profile
포폴 및 이력서 : https://gisanglee.github.io/web-porfolio/

0개의 댓글