vector clustering - OPTICS, DBSCAN

햄도·2020년 12월 3일
1

OPTICS

  • Ordering points to identify the clustering structure
  • 밀도 기반의 클러스터를 탐색하기 위한 알고리즘
  • DBSCAN과 유사하지만, 다양한 밀도를 가진 데이터에서 클러스터를 잘 찾아내지 못하는 문제를 해결하기 위해 고안
  • 데이터들을 정렬하여 가까운 point들이 이웃이 될 수 있도록 하며, 각 point가 더 밀집된 cluster에 포함될 수 있도록 한다.
  • The basic approach of OPTICS is similar to DBSCAN, but instead of maintaining a set of known, but so far unprocessed cluster members, a priority queue (e.g. using an indexed heap) is used.

DBSCAN

  • Density-based spatial clustering of applications with noise
  • K-means처럼 데이터의 위치정보를 이용하지만, 단순 거리를 통해 군집을 정하지 않고, 데이터의 밀도를 통해 군집을 정한다.

  • 주변 공간을 정의하는 파라미터와, 그 주변 공간에 몇 개의 데이터가 존재해야 군집으로 설정할건지 정의하는 파라미터가 필요하다.
  • 즉, 군집은 핵심 벡터를 중심으로 한 외곽 벡터들로 형성되며, 어떤 군집에도 속하지 않는 데이터들을 노이즈라 부른다.
  • K-means와 달리 DBSCAN에서는 군집의 수를 미리 정해줄 필요가 없고, 노이즈 데이터를 따로 분류하여 노이즈 데이터가 군집에 영향을 주지 않는다. 또한 기하학적인 모양을 갖는 군집도 잘 찾을 수 있다.
  • 데이터를 사용하는 순서가 군집에 영향을 줄 수도 있다는 단점은 있으나, 이는 자주 발생하는 문제가 아니며 군집 자체에도 큰 영향을 주지 않는다.

참고

profile
developer hamdoe

0개의 댓글