vector clustering - OPTICS, DBSCAN
OPTICS
- Ordering points to identify the clustering structure
- 밀도 기반의 클러스터를 탐색하기 위한 알고리즘
- DBSCAN과 유사하지만, 다양한 밀도를 가진 데이터에서 클러스터를 잘 찾아내지 못하는 문제를 해결하기 위해 고안
- 데이터들을 정렬하여 가까운 point들이 이웃이 될 수 있도록 하며, 각 point가 더 밀집된 cluster에 포함될 수 있도록 한다.
- The basic approach of OPTICS is similar to DBSCAN, but instead of maintaining a set of known, but so far unprocessed cluster members, a priority queue (e.g. using an indexed heap) is used.
DBSCAN
- Density-based spatial clustering of applications with noise
- K-means처럼 데이터의 위치정보를 이용하지만, 단순 거리를 통해 군집을 정하지 않고, 데이터의 밀도를 통해 군집을 정한다.
- 주변 공간을 정의하는 파라미터와, 그 주변 공간에 몇 개의 데이터가 존재해야 군집으로 설정할건지 정의하는 파라미터가 필요하다.
- 즉, 군집은 핵심 벡터를 중심으로 한 외곽 벡터들로 형성되며, 어떤 군집에도 속하지 않는 데이터들을 노이즈라 부른다.
- K-means와 달리 DBSCAN에서는 군집의 수를 미리 정해줄 필요가 없고, 노이즈 데이터를 따로 분류하여 노이즈 데이터가 군집에 영향을 주지 않는다. 또한 기하학적인 모양을 갖는 군집도 잘 찾을 수 있다.
- 데이터를 사용하는 순서가 군집에 영향을 줄 수도 있다는 단점은 있으나, 이는 자주 발생하는 문제가 아니며 군집 자체에도 큰 영향을 주지 않는다.
참고