머신러닝 활용 - 3회차

Data_Student·2024년 11월 25일
0

머신러닝

목록 보기
5/10

03. 비지도학습

1. K-Means Clustering

  • 수행 순서

    • K개 군집 수 설정
    • 임의의 중심을 선정
    • 해당 중심점과 거리가 가까운 데이터를 그룹화
    • 데이터의 그룹의 무게 중심으로 중심점을 이동
    • 중심점을 이동했기 때문에 다시 거리가 가까운 데이터를 그룹화
      (3 ~ 5 단계 반복)
  • 특징

  • 장점

    • 일반적이고 적용하기 쉬움
  • 단점

    • 거리 기반으로 가까움을 측정하기 때문에 차원이 많을 수록 정확도 ↓
    • 반복 횟수가 많을수록 시간이 느려짐
    • 몇 개의 군집(K)을 선정할지 주관적임
    • 평균을 이용하기 때문에(중심점) 이상치에 취약
  • Python 라이브러리

    • sklearn.cluster.KMeans
      • n_cluster : 군집화 갯수
      • max_iter : 최대 반복 횟수
      • labels_ : 각 데이터 포인트가 속한 군집 중심점 레이블
      • cluster_centers : 각 군집 중심점의 좌표

2. 군집평가 지표

  • 실루엣 계수
    -군집 간의 거리가 얼마나 효율적으로 분리되어 있는지 측정

  • 좋은 군집화의 조건

    • 실루엣 값이 높을수록(1에 가까울수록)
    • 개별 군집의 평균 값의 편차가 크기 않아야 함
  • Python 라이브러리

    • sklearn.metrics.sihouette_score : 전체 데이터의 실루엣 계수 평균값 반환
      • X : 데이터 세트
      • labels : 레이블
      • metrics : 측정 기준 (기본 : euclidean)

3. 고객 세그멘테이션

  • 다양한 기준으로 고객을 분류하는 기법 ( 타켓 마케팅 )
  • RFM
    • Recency : 가장 최근 구입 일에서 오늘까지의 시간
    • Frequency : 상품 구매 횟수
    • Monetary : 총 구매 금액

0개의 댓글