클러스터링과 알고리즘

클러스터링

비지도 학습에서 데이터 샘플들을 별개의 군집(cluster)으로 그룹화하는 것
비지도 학습에서의 분류 알고리즘
데이터의 특징에 따라 세분화하는데 사용
이상 검출(anomaly detection)에 사용
유사성이 높은 데이터를 동일한 그룹으로 분류
서로 다른 군집은 특성이 상이하도록 군집화 함
클러스터 내부의 분산(within 분산) 최소화, 클러스터 간의 분산(between 분산) 최대화
모수적(parametric) 추정: 주어진 데이터가 특정 데이터 분포를 따른다고 가정
ex) Gaussian Mixture Model(GMM)
비모수적(non-parametric) 추정: 데이터가 특정 분포를 따르지 않는다는 가정 하에서 확률 밀도를 추정
ex) K-means, Mean Shift, DBSCAN

K-means의 한계점

군집의 개수, centroid에 대한 초기 설정값에 따라 성능 편차가 심함

군집 크기나 밀도가 다를 경우, 학습이 잘 안 될 수가 있음

데이터 분포가 특이할 경우에도 군집 학습이 어려움

기댓값 최대화 알고리즘
최대가능도(maximum likelihood)나 최대사후확률(maximum a posteriori)을 갖는 모수의 추정값을 찾는 반복적인 알고리즘
Expectation(기댓값) 단계: 현재의 추정된 모수를 통해 샘플을 군집에 할당하는 단계
Maximization(최대화) 단계: 로그 가능도(likelihood)의 기댓값을 최대화하는 모수를 추정하는 단계
특정 분포에 대한 가정이 없는 non-parametric 추정에서는 가능도의 개념이 없음
Mean Shift나 DBSCAN은 밀도 추정의 방법으로 학습
K-means 군집화에서의 EM 알고리즘
- Expectation 단계: 추정하고자 하는 모수는 중심점(centroid)이므로, 샘플을 군집으로 할당하는 단계
- Maximization 단계: 가능도를 샘플이 군집에 속할 확률로 해석하여, 군집에 할당된 샘플을 바탕으로 새로운 중심점을 계산

Mean Shift 한계점

sliding window의 크기와 bandwidth h에 대한 선택이 필요함

여전히 데이터 분포가 특이할 경우에 군집 학습이 어려움

모수적 추정의 방법론으로 주어진 데이터를 k개의 gaussian 분포의 혼합으로 가정
EM 알고리즘을 통해 모델을 학습함
E 단계: 현재의 추정된 모수를 통해 샘플을 군집에 할당하는 단계. responsibility(책임값)를 계산하여 샘플마다 가장 큰 값을 도출하는 군집으로 할당
M 단계: 로그 가능도(likelihood)의 기댓값을 최대화하는 모수를 추정하는 단계
(장점) 각 유형별 데이터의 밀도가 일정하지 않거나 경계가 모호해도 군집화가 잘됨
(단점) 클러스터 개수 k에 대한 설정이 필요
(단점) 데이터가 정규 분포의 조합으로 표현된다는 가정이 어긋나면 성능이 떨어짐
(단점) 연산량이 크기 때문에 대량의 데이터에 사용하기 어려움

계층적 군집화
하나의 클러스터로부터 시작해서 모든 클러스터가 하나의 원소를 가질 때까지 쪼개는 Divise(top-down approach) 방법
각각의 샘플을 원소로 가지는 클러스터들로부터 전체를 포함하는 하나의 클러스터가 될 때까지 합쳐가는 Agglomerative(bottom-up approach) 방법
군집-군집 간 거리 계산을 통해 합치거나 나눔