머신러닝 실습 7회차

3eo·2026년 2월 27일

군집 평가지표

  • Inertia (SSE) : 빠른 탐색, 낮을수록 좋지만 k가 커지면 무조건 감소하기 때문에 엄청 좋은 지표라 할 수 없음
  • Sihouette Score : 가장 많이 사용, -1~1 사이, 높을수록 좋음
    - 자기 군집 안에서는 얼마나 잘 뭉쳐 있고, 다른 군집과는 얼마나 떨어져 있는가
  • DBI (Davies-Bouldin Index) : 보조 검증, 낮을수록 좋음, 군집 간 분리도가 중요할 때 사용
    - 군집 간 거리(분모) 대비 군집 내부 분산(분자)의 비율
  • CHI (Calinski-Harabasz Index) : 통계적 분산 확인, 높을수록 좋음, 분산 기반 통계적 지표
    - 군집 간 분산 / 군집 내 분산

Clustering

K-means 거리기반 ⭐

스케일링 필요
비지도학습이기 때문에 test_train_split 과정 없음
가장 중요한 파라미터 : n_clusters (=k) 군집 개수

GMM

계층적 Clustering

DBSCAN 밀도기반

하이퍼파라미터튜닝 중요함
밀도 기반으로 군집 개수를 알아서 결정하기 때문에 k 값 설정 필요 없음
밀도를 계산하는 데 도움이 되는 지표를 계속 바꿔가며 실험해야하긴 함 (eps, min_samples)
DBSCAN은 이상치 탐지를 자동적으로 할 수 있기 때문에 노이즈(이상치)는 -1로 뽑음 -> -1을 따로 전처리해야 함
가장 중요한 파라미터 :

  • eps : 이웃으로 인정할 거리반경, 너무 작으면 전부 noise, 너무 크면 하나의 군집
  • min_samples : 최소 데이터 개수(=core point 기준), 너무 작으면 이상한 군집 많이 생김, 너무 크면 보수적으로 군집 생성, 일반적으로 '차원 수*2' 정도로 시작
    ※ 차원 수 = 컬럼의 수, 변수(피쳐)의 수

0개의 댓글