데이터를 유사한 것들끼리 모으는 것
군집 간의 유사도는 작게, 군집 내의 유사도는 크게
군집 간의 거리는 크게, 군집 내의 거리는 작게
군집화의 결과가 군집들이 계층적인 구조를 갖도록 하는 것
병합형 계층적 군집화(바텀 업 방식)
계층적 구조를 만들지 않고 전체 데이터를 유사한 것들끼리 나누어 묶는 것
ex) k-means 알고리즘
- i번째 클러스터의 중심을 , 클러스터에 속하는 점의 집합을 라고 할 때, 전체 분산
- 분산값 V을 최소화하는 를 찾는 것이 알고리즘의 목표
- 과정
- 우선 초기의 를 임의로 설정
- 다음 두 단계를 클러스터가 변하지 않을 때까지 반복
i. 클러스터 설정: 각 점에 대해, 그 점에서 가장 가까운 클러스터를 찾아 배당한다.
ii. 클러스터 중심 재조정: 를 각 클러스터에 있는 점들의 평균값으로 재설정해준다.
초기 중심값에 민감하여 원하지 않는 결과가 나올 수 있다.
이때는 원하는 결과가 나오게 하기 위해 초기 중심값을 재설정한다.