1 Introduction to Cluster Analysis
☑️ what) Cluster : 데이터들의 모음
☑️ what) Cluster Analysis : 데이터의 특징에 따라 유사성을 찾아내어 나누는 것.
- 데이터가 라벨링되어 있지 않으므로 Unserpervised learning
- 데이터를 나누기 위해
Simirality / Disimirality
의 기준이 필요하다.
- 상기의 measure는 주로 거리 함수로 측정된다.
How) Clustering Approches
- Partitioning approach ∋ K-means, K-mediods, CLARA
- Hierarchical approach ∋ AGNES, DIANA, BIRCH, CHAMELEON, , …
- Density-based approach ∋ DBSCAN, OPTICS
Quality of Clustering
- High Intra-Cluster Similarity (클러스터 내부 데이터 간 유사성 大 )
- Low Inter-Cluster similarity (클러스터 간 유사성 小 )
▶️ use) 클러스터링 응용
- 데이터 시각화, 데이터 분포 분석
- 공간 데이터 분석
- 경제 과학
- WWW
클러스터링 및 거리 함수의 요구 사항
2 Basic Concepts : Centroid, Radius, Diameter, Distance
- Centroid : 클러스터의 중심, 실제 데이터 포인트 X
- Radius : 클러스터의 반경, centroid와의 평균 거리
- Diameter : 클러스터 내부 페어의 평균 거리
- Distance
- Single link : 최단 거리
- Complete link : 최장 거리
- Average
- Centroid
- Medoid