25강. 클러스터 수 결정 기법 - Elbow method & Silhouette score

이찬·2023년 9월 13일
post-thumbnail

어떻게 Cluster 개수를 결정하는가?

  1. elbow 기법
  2. Silhouette 기법

1. elbow 기법

  • 팔꿈치에 해당하는 부분의 x값

if Cluster가 잘 되었다면, 각각의 군집 끼리는 뭉쳐있고, 다른 클러스터끼리는 거리가 있다고 생각

  • 똘똘 뭉쳐있다면 거리가 짧을 것임!
  • cluster를 늘려줄 때마다 얼마나 뭉쳐지는가를 측정!
  • 제일 작은 inertia의 값을 정하는 것은 필요 이상으로 쪼개는 것임 => 팔꿈치 인근 (꺾이는 지점)으로 결정
  • 애매한 2개는 활용 목적에 따라 결정

    <한계점>
  • 각각의 cluster 간 얼마나 멀리 떨어져 있는 지를 알 수 없음

Silhouette score

실루엣 값을 계산 => 실루엣 값의 평균 구하기 => 그 평균이 판단의 지표

  • 전체 실루엣 계수의 평균 : 0.7 이상이면 desirable (바람직함)
  • 클러스터링을 진행 후, 클러스터링이 완료되면 data 1개마다 실루엣 계수가 결정됨
  • 클러스터링이 잘 되었다면, 각각의 군집은 똘똘 뭉쳐 있기에 a 값은 작을 수록 좋음
  • 하나의 data와 가장 가까운 다른 하나의 군집의 모든 data와의 평균 거리값 => b값은 커질수록 좋음

profile
Kyunghee univ. IE 21

0개의 댓글