문서 집합에서 비슷한 문서끼리 그룹화 하는 것
거리가 가까운 것끼리 묶음
training set 없이 작업한다.(unsupervised learning)
※classification과 clustering의 차이
가설 : 정답과 같은 cluster에 속해있다면 그것도 정답일 가능성이 크다.
clustering의 효과
장점 : recall(재현율)이 높아진다. (정답과 같은 cluster에 있으면 정답이기 때문에)
Flat clustering : 일반적인 clustering
Hierarchical clustering : 계층적으로 여러번 clustering
Hard clustering : 하나의 문서는 하나의 cluster에 속해있음
Soft clustering : 하나의 문서가 여러개의 cluster에 속할 수 있다.
k는 군집의 갯수이다.
Flat clustering이다.
Euclidean distance를 사용해서 문서 간의 유사도를 계산한다. (모든 문서 간 서로의 유사도를 구해야한다.)
centroid : 한 군집의 문서들의 벡터들의 평균
좋은 군집의 기준
알고리즘
단점 : 초기 centroid를 잘못 잡으면 clustering의 결과가 나쁘게 나올 수 있다.