[Data Science] Clustering (1) Intro, Basic Concepts

이수빈·2023년 6월 18일
0

1 Introduction to Cluster Analysis


☑️ what) Cluster : 데이터들의 모음

☑️ what) Cluster Analysis : 데이터의 특징에 따라 유사성을 찾아내어 나누는 것.

  • 데이터가 라벨링되어 있지 않으므로 Unserpervised learning
  • 데이터를 나누기 위해 Simirality / Disimirality 의 기준이 필요하다.
  • 상기의 measure는 주로 거리 함수로 측정된다.

How) Clustering Approches

  1. Partitioning approach \ni K-means, K-mediods, CLARA
  2. Hierarchical approach \ni AGNES, DIANA, BIRCH, CHAMELEON, , …
  3. Density-based approach \ni DBSCAN, OPTICS

Quality of Clustering

  • High Intra-Cluster Similarity (클러스터 내부 데이터 간 유사성 大 )
  • Low Inter-Cluster similarity (클러스터 간 유사성 小 )

▶️ use) 클러스터링 응용

  • 데이터 시각화, 데이터 분포 분석
  • 공간 데이터 분석
  • 경제 과학
  • WWW

클러스터링 및 거리 함수의 요구 사항

2 Basic Concepts : Centroid, Radius, Diameter, Distance


  1. Centroid : 클러스터의 중심, 실제 데이터 포인트 X
  2. Radius : 클러스터의 반경, centroid와의 평균 거리
  3. Diameter : 클러스터 내부 페어의 평균 거리
  4. Distance
    1. Single link : 최단 거리
    2. Complete link : 최장 거리
    3. Average
    4. Centroid
    5. Medoid

0개의 댓글