[TIL | 230614] 군집화 - k-means, GMM, DBSCAN

sun_U·2023년 6월 14일
0

TIL

목록 보기
6/21
post-thumbnail

참고도서 : 파이썬 머신러닝 완벽가이드 개정 2판

Clustering🌐

K-means 알고리즘


: 군집 중심점(centroid)이라는 특정한 임의의 지점을 선택해 해당 중심에 가장 가까운 포인트들을 선택하는 군집화 기법

장점

  • 일반적인 군집화에서 가장 많이 활용되는 알고리즘
  • 알고리즘이 쉽고 간결

단점

  • 거리 기반 알고리즘으로 속성의 개수가 매우 많을 경우 군집화 정확도가 떨어짐 (-> PCA 차원 감소)
  • 반복 횟수가 많을 경우 수행 시간이 오래 걸림
  • 몇 개의 군집을 선택해야 할지 모름

Scikit-learn KMeans Class

from sklearn.cluster import KMeans

주요 파라미터

  • n_clusters : 군집화할 개수, 군집 중심점의 개수
  • init : 초기 군집 중심점의 좌표를 설정할 방식, 일반적으로 k-means++방식으로 최초 설정
  • max_iter : 최대 반복 횟수, 횟수 전 모든 데이터 중심점 이동이 없으면 종료.

주요 속성 정보

  • labels_ : 각 데이터 포인트가 속한 군집 중심점 레이블
  • cluster_centers_ : 각 군집 중심점 좌표. 이를 이용해 군집 중심점 좌표 시각화 가능.

GMM(Gaussian Mixture Model)

DBSCAN

profile
Data Engineer🐣

0개의 댓글