[ML] 9주차-1 : Density Estimation

k_dah·2021년 12월 7일

MachineLearning_AndrewNg

목록 보기

23/32

Machine Learning by professor Andrew Ng in Coursera

내가 비행기 엔진을 제작하는 사람이라고 가정한다.
좋은 엔진을 가려내기 위해 feature들을 테스트해 보려고 한다.

새로운 엔진을 기존의 데이터와 함께 표시하면

'~~기존 데이터와 비슷하게 잘 섞이면 괜찮다. 새로운 데이터가 튄다면 anomaly~~ '

'새로운 데이터가 normal / anomalous 인지 판단하는 방법'

Fraud detection
- $x^{(i)} = \text{features of user i's activities}$
- $\text{Model p(x) from data}$
- $p(x) <= \epsilon$ 인 이상한 유저들을 식별한다.

$\mu$ 와 $\sigma$ 를 추정하는 방법

'데이터가 주어졌을 때 Gaussian~을 따른다면 평균&표준편차를 추정할 수 있다.'

$anomalous$ 데이터를 식별할 수 있을 것으로 판단되는 특성 $x_i$ 들을 선택한다.
$\text{Fit parameters } \mu_1, ..., \mu_n, \sigma_1^2, ... \sigma_n^2$
- $\mu_j = \frac{1}{m}\sum_{i=1}^{m}x_j^{(i)}$
- $\sigma_j^2 = \frac{1}{m}\sum_{i=1}^{m}(x_j^{(i)} - \mu_j)^2$
새로운 데이터 $x$ 가 주어지면, 아래와 같이 $p(x)$ 를 계산한다.
- $p(x) = \prod_{j=1}^{n}P(x_j; \mu_j, \sigma_j^2) = \prod_{j=1}^{n}\frac{1}{\sqrt{2\pi} \sigma_j}\exp\left(-\frac{(x_j-\mu_j)^2}{2\sigma_j^2}\right)$
이때 $p(x) < \epsilon$ 이면 해당 데이터는 $anomaly$