군집 수 KKK 설정
군집 중심(centroid) μ1\mu_1μ1 ~ μK\mu_KμK 무작위 초기화
두 단계 반복:
할당 단계: 각 데이터 포인트 x(i)x^{(i)}x(i)를 가장 가까운 군집 중심 μk\mu_kμk에 할당 c(i):=argmink∥x(i)−μk∥2c^{(i)} := \arg\min_k \|x^{(i)} - \mu_k\|^2c(i):=argmink∥x(i)−μk∥2
업데이트 단계: 각 군집 중심을 해당 군집에 속한 점들의 평균으로 갱신 μk:=1∣{i:c(i)=k}∣∑i:c(i)=kx(i)\mu_k := \frac{1}{\left|\{i: c^{(i)} = k\}\right|} \sum_{i: c^{(i)} = k} x^{(i)}μk:=∣{i:c(i)=k}∣1∑i:c(i)=kx(i)
각 특징 xjx_jxj에 대해 가우시안 분포 모델링 p(xj)=12πσjexp(−(xj−μj)22σj2)p(x_j) = \frac{1}{\sqrt{2\pi} \sigma_j} \exp\left( -\frac{(x_j - \mu_j)^2}{2\sigma_j^2} \right)p(xj)=2πσj1exp(−2σj2(xj−μj)2)
전체 확률: p(x)=∏j=1np(xj)p(x) = \prod_{j=1}^n p(x_j)p(x)=∏j=1np(xj)
임계값 ε\varepsilonε보다 작으면 이상 탐지: p(x)<ε⇒Anomalyp(x) < \varepsilon \Rightarrow \text{Anomaly}p(x)<ε⇒Anomaly