길이-너비 산점도


1. K개 군집 수 설정
2. 임의의 중심을 선정
3. 해당 중심점과 거리가 가까운 데이터를 그룹화

4. 데이터의 그룹의 무게 중심으로 중심점을 이동
5. 중심점을 이동했기 때문에 다시 거리가 가까운 데이터를 그룹화 (3~5번 반복)
→ 📌 이렇게 임의로 선정한 K군집수를 기준으로 데이터 군집화 프로세스를 진행
sklearn.cluster.KMeansn_cluster: 군집화 갯수max_iter: 최대 반복 횟수labels_: 각 데이터 포인트가 속한 군집 중심점 레이블cluster_centers: 각 군집 중심점의 좌표
실루엣 분석(silhouette analysis) : 간 군집 간의 거리가 얼마나 효율적으로 분리되어 있는지 측정→ 📌특정한 데이터 i의 실루엣 계수는 얼마나 떨어져있는가($b(i) -a(i)$)가 클 수록 크며, 이를 단위 정규화를 위해 $a(i), b(i)$ 값 중에 큰 값으로 나눔
sklearn.metrics.sihouette_score: 전제 데이터의 실루엣 계수 평균 값 반환X: 데이터 세트labels: 레이블metrics: 측정 기준 기본은 euclidean이중 고객 세그멘테이션(Customer Segmentation) : 다양한 기준으로 고객을 분류하는 기법
Recency(R) : 가장 최근 구입 일에서 오늘까지의 시간Frequency(F) : 상품 구매 횟수Monetary value(M) : 총 구매 금액