1092soobin2.log

1092soobin2.log

[Data Science] Clustering (1) Intro, Basic Concepts

이수빈·2023년 6월 18일

0

강의-데이터사이언스

목록 보기

5/9

1 Introduction to Cluster Analysis

☑️ what) Cluster : 데이터들의 모음

☑️ what) Cluster Analysis : 데이터의 특징에 따라 유사성을 찾아내어 나누는 것.

데이터가 라벨링되어 있지 않으므로 Unserpervised learning

데이터를 나누기 위해 Simirality / Disimirality 의 기준이 필요하다.

상기의 measure는 주로 거리 함수로 측정된다.

How) Clustering Approches

Partitioning approach $\ni$ K-means, K-mediods, CLARA
Hierarchical approach $\ni$ AGNES, DIANA, BIRCH, CHAMELEON, , …
Density-based approach $\ni$ DBSCAN, OPTICS

Quality of Clustering

High Intra-Cluster Similarity (클러스터 내부 데이터 간 유사성 大 )
Low Inter-Cluster similarity (클러스터 간 유사성 小 )

▶️ use) 클러스터링 응용

데이터 시각화, 데이터 분포 분석
공간 데이터 분석
경제 과학
WWW

클러스터링 및 거리 함수의 요구 사항

…

2 Basic Concepts : Centroid, Radius, Diameter, Distance

Centroid : 클러스터의 중심, 실제 데이터 포인트 X
Radius : 클러스터의 반경, centroid와의 평균 거리
Diameter : 클러스터 내부 페어의 평균 거리
Distance
1. Single link : 최단 거리
2. Complete link : 최장 거리
3. Average
4. Centroid
5. Medoid

이전 포스트

[Data Science] Data Preprocessing

다음 포스트

[Data Science] Clustering (2) Partitioning Method; K-Means, PAM(K-Medoids), K-modes, CLARA

0개의 댓글

관련 채용 정보