군집 분석(Clustering) 의 개념과 기법

Yuno·2025년 4월 12일

데이터 사이언스

목록 보기
15/25

1️⃣ 군집 분석이란?

  • 비슷한 특성을 가진 관측 대상끼리 그룹(군집) 으로 나누는 분석 방법
  • 데이터의 특성을 이해하거나, 데이터 전처리 및 탐색적 분석에 활용
  • 인간의 자연스러운 추론 과정을 반영한 분석 기법
  • 예시
    • 사과를 색상, 맛, 모양 등 유사성으로 묶어 분류
    • 고객의 구매 성향에 따라 그룹화하여 마케팅 전략 수립

2️⃣ 군집 분석 vs 분류 분석

특징군집 분석(Clustering)분류 분석(Classification)
Label(레이블)없음 (unsupervised)있음 (supervised)
접근 방법데이터 자체의 특성을 기준으로 그룹화미리 정해진 카테고리에 따라 개체를 분류
활용 목적데이터 탐색 및 구조 파악새로운 데이터의 범주 예측
  • 군집 분석은 그룹 자체를 만들어 가는 과정
  • 분류 분석은 이미 정의된 그룹(정답) 에 데이터를 할당하는 과정

3️⃣ 군집 분석의 목적

  • 데이터 탐색과 요약 (데이터의 구조 및 통찰력 확보)
  • 데이터 전처리 수단 (군집 대표 데이터로 데이터 축소)
  • 이상치 탐지 (군집에서 멀리 떨어진 데이터 발견)

4️⃣ 군집 분석의 핵심 원리

✨ 응집도(Cohesion) 최대화

  • 같은 군집 내에서 개체들의 유사성을 최대화 (내부 거리는 최소화)

✨ 분리도(Separation) 최대화

  • 서로 다른 군집 간의 차이를 최대화 (군집 간 거리는 최대화)

5️⃣ 군집 분석의 종류

✨ 계층적 군집 (Hierarchical Clustering)

  • 트리 형태의 계층 구조를 만드는 방식
  • 미리 군집의 수를 정할 필요 없음
  • 덴드로그램(Dendrogram) 으로 시각화 가능
  • 장점: 군집 형성 과정 파악 용이
  • 단점: 데이터가 많으면 복잡성 증가

✨ 계층적 군집 방법

  • 최단 연결법 (Single Linkage): 두 군집 간 가장 가까운 개체 사이 거리로 측정
  • 최장 연결법 (Complete Linkage): 가장 먼 개체 사이 거리로 측정
  • 평균 연결법 (Average Linkage): 군집 간 모든 개체 간 평균 거리 사용
  • 중심 연결법 (Centroid Linkage): 군집의 중심 간 거리를 측정
  • 와드 연결법 (Ward`s Method): 군집 내 오차제곱합의 증가가 최소인 방향으로 군집 형성

✨ 비계층적 군집 (Non-Hierarchical Clustering)

  • 계층 없이 미리 정해진 군집 수(k)를 사용하여 그룹화
  • 대표적 방법: K-means 알고리즘

✨ K-means 알고리즘 순서 (EM 알고리즘)

  • 초기 설정
    • 군집의 수(k) 를 정하고, 랜덤으로 중심점 배치
  • 군집 할당
    • 각 데이터 포인트를 가장 가까운 중심에 할당
  • 중심 업데이트
    • 각 군집 내 데이터 포인트의 평균으로 중심점을 다시 계산
  • 반복
    • 군집 할당과 중심 업데이트 과정을 결과가 더 이상 변하지 않을 때까지 반복
  • 장점 : 빠르고 효율적인 분석, 대규모 데이터 처리 가능
  • 단점 : 초기 중심 설정에 따라 결과 달라짐. 군집 수를 미리 정해야 함

6️⃣ 군집 분석의 거리 계산 방법

  • 최단 연결법: 가장 가까운 거리로 연결
  • 최장 연결법: 가장 먼 거리로 연결 (군집 응집성 강조)
  • 평균 연결법: 모든 거리의 평균 계산
  • 중심 연결법: 군집 중심 사이의 거리 계산
  • 와드 연결법: 오차제곱합이 최소가 되는 방향으로 연결

🚀 정리

  • 군집 분석: 유사성을 기준으로 데이터를 그룹화하는 방법
  • 계층적 군집: 군집 수를 미리 정하지 않고 계층 구조로 군집을 형성함
  • 비계층적 군집 (K-means): 군집 수를 미리 정하고 빠르게 군집을 형성
  • 응집도 최대화, 분리도 최대화를 통해 좋은 군집을 형성할 수 있음
profile
Hello World

0개의 댓글