dav74.log
로그인
dav74.log
로그인
머신러닝 활용 - 3회차
Data_Student
·
약 13시간 전
팔로우
0
0
머신러닝
목록 보기
5/6
03. 비지도학습
1. K-Means Clustering
수행 순서
K개 군집 수 설정
임의의 중심을 선정
해당 중심점과 거리가 가까운 데이터를 그룹화
데이터의 그룹의 무게 중심으로 중심점을 이동
중심점을 이동했기 때문에 다시 거리가 가까운 데이터를 그룹화
(3 ~ 5 단계 반복)
특징
장점
일반적이고 적용하기 쉬움
단점
거리 기반으로 가까움을 측정하기 때문에 차원이 많을 수록 정확도 ↓
반복 횟수가 많을수록 시간이 느려짐
몇 개의 군집(K)을 선정할지 주관적임
평균을 이용하기 때문에(중심점) 이상치에 취약
Python 라이브러리
sklearn.cluster.KMeans
n_cluster : 군집화 갯수
max_iter : 최대 반복 횟수
labels_ : 각 데이터 포인트가 속한 군집 중심점 레이블
cluster_centers : 각 군집 중심점의 좌표
2. 군집평가 지표
실루엣 계수
-군집 간의 거리가 얼마나 효율적으로 분리되어 있는지 측정
좋은 군집화의 조건
실루엣 값이 높을수록(1에 가까울수록)
개별 군집의 평균 값의 편차가 크기 않아야 함
Python 라이브러리
sklearn.metrics.sihouette_score : 전체 데이터의 실루엣 계수 평균값 반환
X : 데이터 세트
labels : 레이블
metrics : 측정 기준 (기본 : euclidean)
3. 고객 세그멘테이션
다양한 기준으로 고객을 분류하는 기법 ( 타켓 마케팅 )
RFM
Recency : 가장 최근 구입 일에서 오늘까지의 시간
Frequency : 상품 구매 횟수
Monetary : 총 구매 금액
Data_Student
팔로우
이전 포스트
머신러닝 활용 - 2회차
다음 포스트
머신러닝 활용 - 4회차
0개의 댓글
댓글 작성