Outlier

🧐이상치(Outlier)란?

데이터셋에서 일반 데이터와 현저히 다르게 나타나는 값들을 말한다.
입력 오류, 특이한 이벤트, 실제로 존재하는 변동성 등 여러 원인에 의해 발생할 수 있다.
데이터 분석 결과에 영향을 미칠 수 있으므로 적절히 처리해야한다!

짧게 얘기하자면 단어 그대로 이상한 수치를 말한다.
그럼 우리는 수많은 데이터들 사이에서 이상치를 어떻게 구별할 수 있을까?


🔎이상치 탐지

이상치를 탐지하는 방법은 크게 1) 시각적 방법, 2) 통계적 방법으로 나뉜다.

1. 시각적 방법📊

  • BOX PLOT(박스 플롯)
    데이터 분포를 시각화하고 이상치를 탐지하는데 유용한 시각화 방법!!

  • SCATEER PLOT(산점도)
    두 변수 간의 관계에서 이상치를 시각적으로 탐지하는 것!


2. 통계적 방법🔢

  • IQR(Interquartile Range) 방법
    데이터를 4개의 사분위수로 나누어서 데이터의 1사분위수(Q1)와 3사분위수(Q3)를 사용하여 이상치를 탐지하는 방법!

  • Z-score(Z-점수) 방법
    데이터 포인트가 평균으로부터 얼마나 떨어져 있는지를 나타내는 표준 점수를 계산한다.
    일반적으로 Z-점수가 3을 초과하면 이상치로 간주!!


이상치 처리

  1. 이상치 제거 : 이상치데이터셋에서 제거합니다.
  2. 이상치 대체 : 이상치를 적절한 값(평균, 중앙값 등)으로 대체 합니다.
  3. 이상치 변환 : 이상치를 변환하여 분석에 적합하게 만듭니다.
  4. 모델링을 통한 대체 : 이상치를 예측 모델을 사용하여 대체합니다.
profile
SQL, Python, Code Kata

0개의 댓글