MetaCode(Machine Learning) 5. Clustering

cjun·2022년 8월 4일

MetaCode - Machine Learning

목록 보기

10/10

모수적 추정 vs 비모수적 추정

군집의 중심점(centroid)기반 클러스터링
샘플은 가장 가까운 중심점을 가진 군집으로 할당됨
K-means 알고리즘은 사전에 군집의 수에 대한 하이퍼파라미터 k를 정해야 사용 가능
$X = C_1 \cup C_2 ... C_k$ , $C_i \cap C_j = \varnothing$ --> 군집의 수 : k, 샘플은 무조건 하나의 군집에 포함됨
$argmin_C\sum^k_{j=1}\sum_{x_i\in C_j}||x_i-c_j||^2$ --> 군집의 centroid와의 유클리디안 거리 차이가 최소가 되도록
EM 알고리즘을 통해 최적의 군집에 수렴할 때까지 학습함

최대가능도(maximum likelihood)나 최대사후확률(maximum a posteriori)을 갖는 모수의 추정값을 찾는 반복적인 알고리즘
EM 알고리즘은 Expectation 단계와 Maximization 단계로 나뉨

특정 분포에 대한 가정이 없는 Non-parametric 추정에서는 가능도의 개념이 없음
Mean Shift나 DBSCAN은 밀도 추정의 방법으로 학습
K-means 군집화에서의 EM 알고리즘은
- Expectation 단계: 추정하고자 하는 모수는 중심점(centroid)이므로, 샘플을 군집으로 할당하는 단계
- Maximization단계: likelihood를 샘플이 군집에 속할 확률로 해석하여, 군집에 할당된 샘플을 바탕으로 새로운 중심점을 계산

커널 함수를 통해 어떤 변수의 확률 밀도 함수를 추정하는 방법
개별 샘플들에 커널 함수를 적용한 값을 모두 합한 뒤, 데이터 개수로 나누어 확률 밀도 함수를 추정 --> 각각에 모두 적용
$KDE = \frac{1}{nh}\sum^n_{i=1}K(\frac{x-x_i}{h})$
$h$ 는 커널 함수의 bandwidth 파라미터로, 뾰족한 형태 혹은 완만한 형태일지 결정
대표적인 커널 함수로 Gaussian 분포 함수가 사용됨 --> $\mu$ : 데이터값 자체를 평균으로, $\sigma$ : $h$ 값으로 대체
$KDE = \frac{1}{nh}\sum^n_{i=1}\frac{1}{\sqrt{2\pi}h}e^{(-\frac12(\frac{x-x_i}{h})^2)}$

--> x축, y축에 투영시켜서 계산

--> 결국 거리의 차이에 따라서 평가를 하므로 특이한 데이터 분포의 경우 학습 어려움 여전
--> 이를 해결한 알고리즘이 DBSCAN 알고리즘

DBSCAN 또한 밀도가 높은 부분을 중심으로 군집화를 하는 방법론
어떤 점을 기준으로 반경 $\epsilon$ 내에 샘플이 minpoints 보다 많으면 같은 군집으로 할당
군집으로 할당된 샘플들을 해당 군집의 core point로 설정해 계속 반복
minpoints 개수를 만족 못하는 borderpoint 샘플(군집으로 할당은 됐지만, corepoint가 될 수 없는 샘플)이 나올 경우 멈춤
이를 모든 데이터 샘플에 대해 진행하여 cluster point와 noise point를 구분

하나의 클러스터ㅓ로부터 시작해서 모든 클러스터가 하나의 원소를 가질 때까지 쪼개는 Divisive(top-down approach) 방법
각각의 샘플을 원소로 가지는 클러스터들로부터 전체를 포함하는 하나의 클러스터가 될 때까지 합쳐가는 Agglomerative(bottom-up approach) 방법