데이터 분석 40일
개념: 평균에서 얼마나 떨어져 있는지를 ‘표준편차’ 기준으로 계산
공식: 𝑧 = (𝑥-𝜇)/σ
(x: 값, μ: 평균, σ: 표준편차)
기준: |z| > 3이면 이상치로 간주하는 게 일반적
장점: 계산이 빠르고 간단
단점: 정규분포 가정이 필요 (데이터가 비대칭이면 부적합)
개념: 데이터의 중앙 50% 범위를 기준으로 벗어난 값을 이상치로 판단
공식:
- IQR = Q3 - Q1
- 하한 = Q1 - 1.5×IQR
- 상한 = Q3 + 1.5×IQR
- 하한보다 작거나 상한보다 크면 이상치
장점: 분포 가정 없이 사용할 수 있고, 극단값에 덜 민감
단점: 다변량 데이터에는 적용이 어려움 (변수 하나씩만 가능)


✅ 정답: 데이터와 목적에 따라 달라!
| 상황 | 추천 방법 |
|---|---|
| 단순 수치형, 정규분포 가정 가능 | Z-score |
| 범용적으로 간단하게 확인할 때 | IQR |
| 복잡한 분포, 이상치 패턴이 지역적일 때 | LOF |
| 고차원, 대용량 데이터 | Isolation Forest |
| 비선형 경계가 필요할 때 | One-Class SVM |
✔️ 비지도 학습 기반 방법(LOF, Isolation Forest, One-Class SVM)은 머신러닝 프로젝트에서 자주 쓰임