클러스터링(Clustering)

Ryu Jihoon·2024년 10월 11일

부스트캠프 AI Tech RecSys

목록 보기

22/27

클러스터링 방법의 종류

클러스터링 알고리즘은 클러스터링 전략에 따라 여러 가지 방법으로 분류될 수 있습니다. 여기서는 각 분류에 따른 클러스터링 방법을 설명합니다.

1. Partitioning Methods (분할 방법)

Partitioning Methods는 데이터를 K개의 클러스터로 나누는 방법입니다. 각 데이터 포인트는 하나의 클러스터에만 속하며, 클러스터 내의 데이터는 유사하고, 클러스터 간 데이터는 차이가 있어야 합니다.

주요 알고리즘:

K-Means
- 데이터를 K개의 클러스터로 나누고, 각 클러스터 중심(centroid)을 기준으로 데이터를 할당합니다.
- 작동 원리:
  1. 임의의 클러스터 중심(K개)을 설정합니다.
  2. 각 데이터 포인트를 가장 가까운 클러스터 중심에 할당합니다.
  3. 클러스터 중심을 할당된 데이터 포인트의 평균으로 업데이트합니다.
  4. 데이터 포인트가 더 이상 이동하지 않을 때까지 2~3 단계를 반복합니다.
- 장점:
  - 빠르고 대규모 데이터에 적합합니다.
  - 간단한 구현이 가능하며, 많은 경우에 좋은 성능을 보입니다.
- 단점:
  - 클러스터 수(K)를 사전에 지정해야 합니다.
  - 데이터의 분포가 원형이라고 가정하므로, 복잡한 데이터 구조에서는 성능이 떨어질 수 있습니다.
  - 이상치(outlier)에 민감합니다.
- 활용 예시: 고객 세분화, 이미지 분할, 문서 분류 등.

2. Density-based Methods (밀도 기반 방법)

Density-based Methods는 데이터가 밀집된 영역을 클러스터로 형성하고, 밀도가 낮은 영역은 노이즈로 처리하는 방법입니다. 이러한 방법은 비구형 클러스터나 잡음이 있는 데이터에서 효과적입니다.

주요 알고리즘:

DBSCAN (Density-Based Spatial Clustering of Applications with Noise)
- 데이터가 밀집된 영역에서 클러스터를 형성하고, 밀도가 낮은 영역은 잡음으로 처리하는 알고리즘입니다.
- 작동 원리:
  1. 반경 eps 이내에 최소 데이터 포인트 개수(min_samples)를 충족하는 데이터 포인트를 기준으로 클러스터를 확장합니다.
  2. 밀도가 높은 영역에서 시작해 클러스터를 형성하고, 밀도가 낮은 데이터는 노이즈로 처리합니다.
- 장점:
  - 비구형 클러스터나 비선형 데이터에 적합합니다.
  - 클러스터 수를 미리 설정할 필요가 없습니다.
  - 잡음(outliers)을 처리하는 데 강력한 성능을 보입니다.
- 단점:
  - 적절한 eps와 min_samples 파라미터 설정이 필요합니다.
  - 데이터 밀도가 균일하지 않으면 성능이 떨어질 수 있습니다.
- 활용 예시: 위성 이미지 분석, 도시 내 상권 탐지, 지리적 데이터 분석 등.

3. Model-based Methods (모델 기반 방법)

Model-based Methods는 데이터를 설명할 수 있는 통계 모델을 가정하고, 데이터를 그 모델에 맞춰 클러스터링하는 방법입니다. 가장 자주 사용되는 방법은 혼합 모델(mixture models)을 이용하는 방법입니다.

주요 알고리즘:

Gaussian Mixture Model (GMM)
- 각 클러스터가 가우시안 분포(정규 분포)를 따른다고 가정하고, EM 알고리즘을 통해 클러스터를 찾습니다.
- 작동 원리:
  1. 각 클러스터가 가우시안 분포를 따른다고 가정합니다.
  2. 각 데이터 포인트가 어느 클러스터에 속할 확률을 계산하고, 그에 따라 데이터를 할당합니다.
  3. Expectation-Maximization(EM) 알고리즘을 사용해 데이터 포인트를 다시 할당하고, 클러스터 중심과 분포를 업데이트합니다.
  4. 수렴할 때까지 이 과정을 반복합니다.
- 장점:
  - K-Means보다 유연한 클러스터 모양을 허용합니다.
  - 클러스터가 반드시 원형일 필요가 없고, 타원형의 클러스터도 허용됩니다.
  - 클러스터가 중첩되거나 다양한 모양일 때도 잘 작동합니다.
- 단점:
  - 클러스터 수(K)를 사전에 지정해야 하며, K-Means보다 계산 비용이 더 많이 듭니다.
  - 복잡한 데이터에서는 수렴하지 않거나, 잘못된 결과를 낼 수 있습니다.
- 활용 예시: 패턴 인식, 통계적 데이터 분석, 음성 및 영상 처리.

4. Grid-based Methods (그리드 기반 방법)

Grid-based Methods는 데이터 공간을 일정한 격자(grid)로 나누고, 각 격자를 클러스터로 형성하는 방법입니다. 이 방법은 주로 공간 데이터나 고차원 데이터에 적합하며, 효율적으로 클러스터링할 수 있습니다.

주요 알고리즘:

STING (Statistical Information Grid)
- 데이터 공간을 그리드로 나누고, 각 그리드의 통계 정보를 이용해 클러스터링을 수행합니다. 그리드의 통계적 특성을 기반으로 데이터 간의 유사성을 파악합니다.
CLIQUE (Clustering In QUEst)
- 고차원 데이터에서 밀도 기반 클러스터링을 수행하는 방법으로, 데이터 공간을 그리드로 나누고 밀도가 높은 격자를 클러스터로 인식합니다.

특징:

장점: 그리드 기반이므로 계산량이 효율적이며, 고차원 데이터나 대규모 데이터셋에 적합합니다.
단점: 클러스터의 모양이 그리드 구조에 의존하게 되어 세밀한 클러스터를 형성하는 데 한계가 있을 수 있습니다.

요약

방법론	설명	주요 알고리즘
Partitioning Methods	데이터를 사전에 정의된 K개의 클러스터로 분할	K-Means, K-Medoids, PAM
Density-based Methods	밀도가 높은 영역을 클러스터로 형성하고, 밀도가 낮은 데이터는 노이즈로 처리	DBSCAN, OPTICS
Model-based Methods	데이터를 확률 모델로 가정하고 클러스터를 형성	Gaussian Mixture Model (GMM), HMM
Grid-based Methods	데이터 공간을 격자(grid)로 나누고 각 격자를 클러스터로 나눔	STING, CLIQUE
Hierarchical Methods	데이터를 계층적으로 나누거나 병합하여 클러스터를 형성	Agglomerative, Divisive Hierarchical Clustering

각 방법론은 데이터의 특성과 목적에 따라 선택됩니다. 모양이 자유로운 클러스터가 필요한 경우 Density-based Methods가 유리하고, 대규모 데이터나 고차원 데이터에서는 Grid-based Methods가 적합합니다. Partitioning Methods와 Model-based Methods는 상대적으로 직관적이면서도 유연한 클러스터링이 가능합니다.

Ryu Jihoon

CSE Junior

이전 포스트

선형 회귀의 가정 - 등분산성

다음 포스트

클러스터링(Clustering)

부스트캠프 AI Tech RecSys

클러스터링 방법의 종류

1. Partitioning Methods (분할 방법)

주요 알고리즘:

2. Density-based Methods (밀도 기반 방법)

주요 알고리즘:

3. Model-based Methods (모델 기반 방법)

주요 알고리즘:

4. Grid-based Methods (그리드 기반 방법)

주요 알고리즘:

특징:

요약

선형 회귀의 가정 - 등분산성

Haversine

0개의 댓글