멀리 떨어진 애가 이상치.
likelihood
Gaussian Distribution을 가정하고,
Threshold 기준으로, 멀리 떨어진 애개 여기서 나왔을 가능도가 낮다.
Likelihood
우리는 sample로부터 parameter를 추출하고 싶습니다.
likelihood 측정을 통해 이상치 탐지가 가능합니다.
- 모집단(population)으로부터 표본(sample)추출
- sample mean으로부터 populatin mean을 추정합니다.
왜 n-1?
- degrees of freedom 이 sample mean이 됨
- sample은 애초에 추출된 값이고 개수가 적다.
표본의 분산은 모집단의 분산을 Underestimate(과소평가)하여 (표본의 분산 < 모집단의 분산)와 같은 상태
그래서 n에서 1을 빼어 값을 scaling해준다.
Reference
- 앤드류 응의 머신러닝 : 이상치 탐지 Lecture Note.