clustering 평가 지표

TaeJong Kim·2023년 12월 17일

Dunn Index

https://zephyrus1111.tistory.com/180

  • δ(Ci,Cj)\delta(C_i, C_j)는 i 번째 클러스터와 j번째 클러스터의 거리
  • Δk\Delta_k는 k 번째 클러스터 내 거리

⇒ 가장 작은 클러스터 간 거리 / 가장 넓게 묶인 클러스터 내 거리

  • 값이 클수록 클러스터링이 잘 되었다고 볼 수 있다.

Silhouette Coefficient

[metric] 군집분석 평가 지표 1: 실루엣 계수(Silhouette Coefficient)

  • 개별 데이터가 군집 내에서 얼마나 가까운지
  • 다른 군집과는 얼마나 멀리 떨어져 있는지
s(i)=b(i)a(i)max(a(i),b(i)),i=개별데이터인덱스s(i) = \frac{b(i)-a(i)}{max(a(i), b(i))}, i = 개별데이터 인덱스
  • a(i)a(i)는 개별 데이터의 동일한 군집 내 다른 데이터들과의 평균 거리

  • b(i)b(i)는 가장 가까운 군집과의 평균 거리

  • 1 > silhouette coefficient > -1

  • 1에 가까울 수록 근처 군집과 멀리 떨어져 있음

  • 0에 가까울수록 근처 군집과 가까움

  • 음수면 아예 다른 군집에 데이터가 할당 됐음

장단점

  1. 장점
    • 단순하고 직관적
    • 최적의 군집 개수 정할때 사용
  2. 단점
    • 계산량이 많다.
profile
AI 엔지니어 김태종입니다. 추천시스템, 이상탐지, LLM에 관심이 있습니다. 블로그에는 공부한 기술, 논문 혹은 개인적인 경험을 올리고 있습니다.

0개의 댓글