군집 분석(Clustering) 의 개념과 기법
1️⃣ 군집 분석이란?
- 비슷한 특성을 가진 관측 대상끼리 그룹(군집) 으로 나누는 분석 방법
- 데이터의 특성을 이해하거나, 데이터 전처리 및 탐색적 분석에 활용
- 인간의 자연스러운 추론 과정을 반영한 분석 기법
- 예시
- 사과를 색상, 맛, 모양 등 유사성으로 묶어 분류
- 고객의 구매 성향에 따라 그룹화하여 마케팅 전략 수립
2️⃣ 군집 분석 vs 분류 분석
| 특징 | 군집 분석(Clustering) | 분류 분석(Classification) |
|---|
| Label(레이블) | 없음 (unsupervised) | 있음 (supervised) |
| 접근 방법 | 데이터 자체의 특성을 기준으로 그룹화 | 미리 정해진 카테고리에 따라 개체를 분류 |
| 활용 목적 | 데이터 탐색 및 구조 파악 | 새로운 데이터의 범주 예측 |
- 군집 분석은 그룹 자체를 만들어 가는 과정
- 분류 분석은 이미 정의된 그룹(정답) 에 데이터를 할당하는 과정
3️⃣ 군집 분석의 목적
- 데이터 탐색과 요약 (데이터의 구조 및 통찰력 확보)
- 데이터 전처리 수단 (군집 대표 데이터로 데이터 축소)
- 이상치 탐지 (군집에서 멀리 떨어진 데이터 발견)
4️⃣ 군집 분석의 핵심 원리
✨ 응집도(Cohesion) 최대화
- 같은 군집 내에서 개체들의 유사성을 최대화 (내부 거리는 최소화)
✨ 분리도(Separation) 최대화
- 서로 다른 군집 간의 차이를 최대화 (군집 간 거리는 최대화)
5️⃣ 군집 분석의 종류
✨ 계층적 군집 (Hierarchical Clustering)
- 트리 형태의 계층 구조를 만드는 방식
- 미리 군집의 수를 정할 필요 없음
- 덴드로그램(Dendrogram) 으로 시각화 가능
- 장점: 군집 형성 과정 파악 용이
- 단점: 데이터가 많으면 복잡성 증가
✨ 계층적 군집 방법
- 최단 연결법 (Single Linkage): 두 군집 간 가장 가까운 개체 사이 거리로 측정
- 최장 연결법 (Complete Linkage): 가장 먼 개체 사이 거리로 측정
- 평균 연결법 (Average Linkage): 군집 간 모든 개체 간 평균 거리 사용
- 중심 연결법 (Centroid Linkage): 군집의 중심 간 거리를 측정
- 와드 연결법 (Ward`s Method): 군집 내 오차제곱합의 증가가 최소인 방향으로 군집 형성
✨ 비계층적 군집 (Non-Hierarchical Clustering)
- 계층 없이 미리 정해진 군집 수(k)를 사용하여 그룹화
- 대표적 방법: K-means 알고리즘
✨ K-means 알고리즘 순서 (EM 알고리즘)
- 초기 설정
- 군집의 수(k) 를 정하고, 랜덤으로 중심점 배치
- 군집 할당
- 중심 업데이트
- 각 군집 내 데이터 포인트의 평균으로 중심점을 다시 계산
- 반복
- 군집 할당과 중심 업데이트 과정을 결과가 더 이상 변하지 않을 때까지 반복
- 장점 : 빠르고 효율적인 분석, 대규모 데이터 처리 가능
- 단점 : 초기 중심 설정에 따라 결과 달라짐. 군집 수를 미리 정해야 함
6️⃣ 군집 분석의 거리 계산 방법
- 최단 연결법: 가장 가까운 거리로 연결
- 최장 연결법: 가장 먼 거리로 연결 (군집 응집성 강조)
- 평균 연결법: 모든 거리의 평균 계산
- 중심 연결법: 군집 중심 사이의 거리 계산
- 와드 연결법: 오차제곱합이 최소가 되는 방향으로 연결
🚀 정리
- 군집 분석: 유사성을 기준으로 데이터를 그룹화하는 방법
- 계층적 군집: 군집 수를 미리 정하지 않고 계층 구조로 군집을 형성함
- 비계층적 군집 (K-means): 군집 수를 미리 정하고 빠르게 군집을 형성
- 응집도 최대화, 분리도 최대화를 통해 좋은 군집을 형성할 수 있음