길이-너비
산점도
1. K개 군집 수 설정
2. 임의의 중심을 선정
3. 해당 중심점과 거리가 가까운 데이터를 그룹화
4. 데이터의 그룹의 무게 중심으로 중심점을 이동
5. 중심점을 이동했기 때문에 다시 거리가 가까운 데이터를 그룹화 (3~5번 반복)
→ 📌 이렇게 임의로 선정한 K군집수를 기준으로 데이터 군집화 프로세스를 진행
sklearn.cluster.KMeans
n_cluster
: 군집화 갯수max_iter
: 최대 반복 횟수labels_
: 각 데이터 포인트가 속한 군집 중심점 레이블cluster_centers
: 각 군집 중심점의 좌표실루엣 분석(silhouette analysis)
: 간 군집 간의 거리가 얼마나 효율적으로 분리되어 있는지 측정→ 📌특정한 데이터 i의 실루엣 계수는 얼마나 떨어져있는가($b(i) -a(i)$)
가 클 수록 크며, 이를 단위 정규화를 위해 $a(i), b(i)$
값 중에 큰 값으로 나눔
sklearn.metrics.sihouette_score
: 전제 데이터의 실루엣 계수 평균 값 반환X
: 데이터 세트labels
: 레이블metrics
: 측정 기준 기본은 euclidean
이중 고객 세그멘테이션(Customer Segmentation)
: 다양한 기준으로 고객을 분류하는 기법Recency(R)
: 가장 최근 구입 일에서 오늘까지의 시간Frequency(F)
: 상품 구매 횟수Monetary value(M)
: 총 구매 금액