데이터셋에서 일반 데이터와 현저히 다르게 나타나는 값들을 말한다.
입력 오류, 특이한 이벤트, 실제로 존재하는 변동성 등 여러 원인에 의해 발생할 수 있다.
데이터 분석 결과에 영향을 미칠 수 있으므로 적절히 처리해야한다!
짧게 얘기하자면 단어 그대로 이상한 수치를 말한다.
그럼 우리는 수많은 데이터들 사이에서 이상치를 어떻게 구별할 수 있을까?
이상치를 탐지하는 방법은 크게 1) 시각적 방법, 2) 통계적 방법으로 나뉜다.
BOX PLOT(박스 플롯)
데이터 분포를 시각화하고 이상치를 탐지하는데 유용한 시각화 방법!!
SCATEER PLOT(산점도)
두 변수 간의 관계에서 이상치를 시각적으로 탐지하는 것!
IQR(Interquartile Range) 방법
데이터를 4개의 사분위수로 나누어서 데이터의 1사분위수(Q1)와 3사분위수(Q3)를 사용하여 이상치를 탐지하는 방법!
Z-score(Z-점수) 방법
데이터 포인트가 평균으로부터 얼마나 떨어져 있는지를 나타내는 표준 점수를 계산한다.
일반적으로 Z-점수가 3을 초과하면 이상치로 간주!!