💠 AIchemist 9th Session | 군집화

yellowsubmarine372·2023년 11월 26일

AIchemist

목록 보기

11/14

01. 군집화 개념

군집화는 비지도 학습에 속한다.

군집화

비슷한 샘플을 하나의 클러스터로 모으는 것

차원 축소를 이용하여 분석을 위한 충분한 정보를 가질 수 있음

이상치 탐지 가능 !

하드 군집 vs 소프트 군집

소프트 군집은 객체가 어느 군집에 속할지를 가중치(weight)나 확률(probability)로서 가능성 정도를 나타내주는 기법

02. K-평균 알고리즘 이해

군집화에서 가장 일반적으로 사용되는 알고리즘

군집 중심점(centroid)이라는 특정한 임의의 지점을 선택해 해당 중심에 가장 가까운 포인트들을 선택하는 군집화 기법

선택된 포인트의 평균지점으로 이동하고 이동된 중심점에서 다시 가까운 포인트 선택, 다시 중심점을 평균지점으로 이동하는 프로세스 반복 수행

각 cluster 내 유사도 높이고 외 유사도는 낮추는 것을 가정으로 각 cluster 거리 차이의 분산을 최대화하는 것이 목적

(1) 몇 개의 덩어리로 clustering할지 정한다

(2) 1에서 정한 개수만큼 중심점을 정한다(자신이 원하는 아무 값으로 중심점을 정하기)

(3) 각 점에 대해 가장 가까운 centroid를 정한다

(4) 이제 각 매핑된 점들을 바탕으로 하여 centroid를 이동한다

(5) 5. 3-4의 과정을 더이상 새로 매핑되지 않을 때까지 반복한다

(6) 새로 매핑된 점들을 바탕으로 다시 centroid를 이동한다

(7) 위의 과정을 더이상 이동이 없을 때까지 반복

kmean parameter

k평균을 이용한 붓꽃 데이터 세트 군집화

꽃받침, 꽃잎의 길이에 따라 각 데이터의 군집화가 어떻게 결정되는 지 확인, 이를 분류값과 비교

초기 중심 설정 방식은 k-means++
target 칼럼, labels_칼럼은 cluster 의미

kmeans = KMeans(n_clusters=3, init='k-means++', max_iter=300,random_state=0)
kmeans.fit(irisDF)

irisDF['target'] = iris.target
irisDF['cluster']=kmeans.labels_
iris_result = irisDF.groupby(['target','cluster'])['sepal_length'].count()
print(iris_result)

군집화 시각화

PCA 이용해 4개의 속성을 2개로 차원 축소한 뒤 x좌표, y좌표로 개별 데이터를 표현

from sklearn.decomposition import PCA

pca = PCA(n_components=2)
pca_transformed = pca.fit_transform(iris.data)

irisDF['pca_x'] = pca_transformed[:,0]
irisDF['pca_y'] = pca_transformed[:,1]
irisDF.head(3)

# 군집 값이 0, 1, 2인 경우마다 별도의 인덱스로 추출
marker0_ind = irisDF[irisDF['cluster']==0].index
marker1_ind = irisDF[irisDF['cluster']==1].index
marker2_ind = irisDF[irisDF['cluster']==2].index

# 군집 값 0, 1, 2에 해당하는 인덱스로 각 군집 레벨의 pca_x, pca_y 값 추출. o, s, ^ 로 마커 표시
plt.scatter(x=irisDF.loc[marker0_ind, 'pca_x'], y=irisDF.loc[marker0_ind, 'pca_y'], marker='o')
plt.scatter(x=irisDF.loc[marker1_ind, 'pca_x'], y=irisDF.loc[marker1_ind, 'pca_y'], marker='s')
plt.scatter(x=irisDF.loc[marker2_ind, 'pca_x'], y=irisDF.loc[marker2_ind, 'pca_y'], marker='^')

plt.xlabel('PCA 1')
plt.ylabel('PCA 2')
plt.title('3 Clusters Visualization by 2 PCA Components')
plt.show()

군집화 알고리즘 테스트를 위한 데이터 생성

군집화용 데이터 생성기
make_blobs()
개별 군집의 중심점과 표준편차 제어 기능 추가 > 피처 데이터 세트와 타깃 데이터 세트가 튜플로 반환
make_classification()
노이즈를 포함한 데이터를 만드는 데 유용

import numpy as np
import matplotlib.pyplot as plt
from sklearn.cluster import KMeans
from sklearn.datasets import make_blobs
%matplotlib inline

X, y = make_blobs(n_samples=200, n_features=2, centers=3, cluster_std=0.8, random_state=0)
print(X.shape, y.shape)

# y target 값의 분포를 확인
unique, counts = np.unique(y, return_counts=True)
print(unique,counts)

n_samples: 생성할 데이터 총 개수
n_features : 데이터 피터 개수
centers : 군집의 개수

피처 데이터 세트가 어떠한 군집화 분포를 가지고 만들어졌는지 확인

target_list = np.unique(y)
# 각 타깃별 산점도의 마커 값.
markers=['o', 's', '^', 'P', 'D', 'H', 'x']
# 3개의 군집 영역으로 구분한 데이터 세트를 생성했으므로 target_list는 [0, 1, 2]
# target==0, target==1, target==2 로 scatter plot을 marker별로 생성.
for target in target_list:
    target_cluster = clusterDF[clusterDF['target']==target]
    plt.scatter(x=target_cluster['ftr1'], y=target_cluster['ftr2'], edgecolor='k',
                marker=markers[target] )

plt.show()

KMeans 군집화를 수행한 뒤에 군집별로 시각화

cluster_centers_ 은 개별 군집의 중심 위치 좌표 나타냄

# KMeans 객체를 이용하여 X 데이터를 K-Means 클러스터링 수행 
kmeans = KMeans(n_clusters=3, init='k-means++', max_iter=200, random_state=0)
cluster_labels = kmeans.fit_predict(X)
clusterDF['kmeans_label']  = cluster_labels

#cluster_centers_ 는 개별 클러스터의 중심 위치 좌표 시각화를 위해 추출
centers = kmeans.cluster_centers_
unique_labels = np.unique(cluster_labels)
markers=['o', 's', '^', 'P','D','H','x']

# 군집된 label 유형별로 iteration 하면서 marker 별로 scatter plot 수행. 
for label in unique_labels:
    label_cluster = clusterDF[clusterDF['kmeans_label']==label]
    center_x_y = centers[label]
    plt.scatter(x=label_cluster['ftr1'], y=label_cluster['ftr2'], edgecolor='k', 
                marker=markers[label] )
    
    # 군집별 중심 위치 좌표 시각화 
    plt.scatter(x=center_x_y[0], y=center_x_y[1], s=200, color='white',
                alpha=0.9, edgecolor='k', marker=markers[label])
    plt.scatter(x=center_x_y[0], y=center_x_y[1], s=70, color='k', edgecolor='k', 
                marker='$%d$' % label)

plt.show()

cluster_std가 작을 수록 군집 중심에 데이터가 모여 있으며, 클수록 데이터가 퍼져있음

03. 군집 평가(Cluster Evaluation)

대부분 군집화 데이터 세트는 타깃레이블을 가지지 있지 않고 군집화는 분류와 유사해 보일 수 있으나 성격이 다름. 서로 다른 분류 값의 데이터도 더 넓은 군집화 레벨화 등의 영역을 가지고 있음.

군집화 성능을 평가하는 대표적인 방법으로 실루엣 분석을 이용

실루엣 분석

실루엣 분석은 각 군집 간의 거리가 얼마나 효율적으로 분리돼 있는지를 나타냄
실루엣 분석은 실루엣 계수를 기반으로 시행
해당 데이터가 같은 군집 내의 데이터와 얼마나 가깝게 군집화돼 있고, 다른 군집에 있는 데이터와는 얼마나 멀리 분리돼 있는지를 나타내는 지표

실루엣 분석 메서드
.silhouette_samples
각 데이터 포인트의 실루엣 계수를 계산 해 반환
.silhouette_score
전체 데이터 실루엣 계수 값을 평균해 반환

+ 군집별 평균 실루엣 계수 값 = .groupby('cluster)['silhouette_coeff'].mean()

좋은 군집화 만족 기준

전체 실루엣 계수의 평균값은 1에 가까울 수록 좋음
개별 군집의 실루엣 계수 평균값이 전체 실루엣 계수의 평균값에서 크게 벗어나지 않는게 중요

붓꽃 데이터 세트를 이용한 군집 평가

from sklearn.preprocessing import scale
from sklearn.datasets import load_iris
from sklearn.cluster import KMeans
# 실루엣 분석 metric 값을 구하기 위한 API 추가
from sklearn.metrics import silhouette_samples, silhouette_score
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd

%matplotlib inline

iris = load_iris()
feature_names = ['sepal_length','sepal_width','petal_length','petal_width']
irisDF = pd.DataFrame(data=iris.data, columns=feature_names)
kmeans = KMeans(n_clusters=3, init='k-means++', max_iter=300,random_state=0).fit(irisDF)

irisDF['cluster'] = kmeans.labels_

# iris 의 모든 개별 데이터에 실루엣 계수값을 구함. 
score_samples = silhouette_samples(iris.data, irisDF['cluster'])
print('silhouette_samples( ) return 값의 shape' , score_samples.shape)

# irisDF에 실루엣 계수 컬럼 추가
irisDF['silhouette_coeff'] = score_samples

# 모든 데이터의 평균 실루엣 계수값을 구함. 
average_score = silhouette_score(iris.data, irisDF['cluster'])
print('붓꽃 데이터셋 Silhouette Analysis Score:{0:.3f}'.format(average_score))

irisDF.head(3)

평균 실루엣 계수값은 낮은 반면에 1번 군집의 실루엣 계수는 높은 값을 나타냄

군집별 평균 실루엣 계수의 시각화를 통한 군집 개수 최적화 방법

특정 군집 내의 실루엣 계수값만 너무 높고, 다른 군집의 내부 데이터 끼리 너무 거리가 떨어져 있어 실루엣 계수 값이 낮아져도 평균적으로 높은 값을 가질 수 있음

군집의 개수 = 2

1번 군집의 모든 데이터는 평균 실루엣 계수 값 이상이지만, 2번 군집의 경우는 평균 보다 적은 데이터 값이 매우 많음

군집의 개수 = 3

0번의 경우 모두 평균보다 낮음. 0번의 내부 데이터 간 거리도 멀지만 2번 군집과도 가깝게 위치

군집의 개수 = 4

4개인 경우가 가장 이상적인 군집화 개수로 판단 가능

▶︎ 실루엣 계수를 통한 k-평균 군집 평가 방법은 직관적으로 이해하기 쉽지만, 각 데이터 별로 다른 데이터와의 거리를 반복적으로 계산해야 하므로 데이터양이 늘어나면서 수행시간이 크게 늘어남

04. 평균 이동 (Mean Shift)

평균이동은 k-평균과 유사하게 중심을 군집의 중심으로 지속적으로 움직이면서 군집화를 수행. k-평균이 중심에 소속된 데이터의 평균 거리 중심으로 이동하는 데 반해, 평균 이동은 중심을 데이터가 모여있는 밀도가 가장 높은 곳으로 이동시킴

확률 밀도함수가 피크인 점을 군집 중심점으로 선정 >> KDE를 이용해 확률 밀도 함수를 찾는다.

KDE - kernel 함수를 통해 어떤 변수의 확률 밀도 함수를 추정하는 대표적인 방식. 관측 데이터 각각에 커널 함수를 적용한값을 전부 더한 뒤 데이터 건수로 나눠 확률 밀도 함수를 추정
=> KDE는 개별 관측 데터에 커널 함수를 적용한 뒤, 이 적용 값을 모두 더한 뒤 개별 관측 데이터 건수로 나눠 확률 밀도함수를 추정

K는 커널 함수, x는 확률 변수 값, xi는 관측값, h는 대역폭

대역폭 h (bandwidth)

KDE 형태를 부드러운 형태로 평활화 하는데 적용

작은 h값은 좁고 뾰족한 KDE를 가지게 되며, 과적합 되기 쉬움. 큰 h값은 과도하게 평활화된 KDE로 인해 지나치게 단순화된 방식으로 확률 밀도함수를 추정하며 과소적합 되기 쉬움

MeanShift 클래스의 가장 중요한 초기화 파라미터 bandwidth

평균 이동 군집화 알고리즘 예제

meanshift= MeanShift(bandwidth=1)
cluster_labels = meanshift.fit_predict(X)
print('cluster labels 유형:', np.unique(cluster_labels))

[Output]
cluster labels 유형: [0 1 2]

bandwidth가 큰 영향을 미침을 확인할 수 있음. 사이킷런은 최적화된 bandwidth 값을 찾기 위해 estimate_bandwidth() 함수를 제공

from sklearn.cluster import estimate_bandwidth

bandwidth = estimate_bandwidth(X)
print('bandwidth 값:', round(bandwidth,3))

3개의 군집을 시각화

평균이동은 알고리즘 수행 시간이 오래 걸리고 무엇보다도 bandwidth 크기에 따른 군집화 영향도가 매우 큼. 분석 업무 기반의 데이터 세트 보다는 컴퓨터 비전 영역에서 더 많이 사용됨.

05. GMM(Gaussian Mixture Model)

GMM 군집화는 군집화를 적용하고자 하는 데이터가 여러 개의 가우시안 분포를 가진 데이터 집합들이 섞여서 생성된 것이라는 가정하에 군집화를 수행 (각 데이터 군집들이 가우시안 분포 이룸)

서로 다른 정규 분포에 기반해 군집화를 수행

GMM은 개별 정규 분포의 평균과 분산/ 각 데이터가 어떤 정규 분포에 해당되는 지의 확률 을 추정해 반환

GMM을 이용한 붓꽃 데이터 세트 군집화

초기화 파라미터 n_components
gaussian mixture 모델의 총 개수

from sklearn.mixture import GaussianMixture

gmm = GaussianMixture(n_components=3, random_state=0).fit(iris.data)
gmm_cluster_labels = gmm.predict(iris.data)

# 클러스터링 결과를 irisDF 의 'gmm_cluster' 컬럼명으로 저장
irisDF['gmm_cluster'] = gmm_cluster_labels
irisDF['target'] = iris.target

# target 값에 따라서 gmm_cluster 값이 어떻게 매핑되었는지 확인. 
iris_result = irisDF.groupby(['target'])['gmm_cluster'].value_counts()
print(iris_result)

GMM과 K-평균의 비교

make_blobs()와 transformation(행렬 내적 연산)을 이용해 뭉친 데이터를 타원형으로 변환

from sklearn.datasets import make_blobs

# make_blobs() 로 300개의 데이터 셋, 3개의 cluster 셋, cluster_std=0.5 을 만듬. 
X, y = make_blobs(n_samples=300, n_features=2, centers=3, cluster_std=0.5, random_state=0)

# 길게 늘어난 타원형의 데이터 셋을 생성하기 위해 변환함. 
transformation = [[0.60834549, -0.63667341], [-0.40887718, 0.85253229]]
X_aniso = np.dot(X, transformation)
# feature 데이터 셋과 make_blobs( ) 의 y 결과 값을 DataFrame으로 저장
clusterDF = pd.DataFrame(data=X_aniso, columns=['ftr1', 'ftr2'])
clusterDF['target'] = y
# 생성된 데이터 셋을 target 별로 다른 marker 로 표시하여 시각화 함. 
visualize_cluster_plot(None, clusterDF, 'target', iscenter=False)

KMeans 군집화

KMeans으로 군집화를 수행할 경우, 원형 위치로 개별 군집화가 되면서 원하는 방향으로 구성되지 않음

GMM 군집화

데이터가 분포한 방향에 따라 정확하게 군집화 됐음을 확인 가능

06. DBSCAN (Density Based Spatial Clustering of Applications With Noise)

주요 파라미터

입실론 주변 영역 (epsilon) : 개별 데이터를 중심으로 입실론 반경을 가지는 원형의 영역
최소 데이터 개수 (min points) : 개별 데이터의 입실론 주변 영역에 포함되는 타 데이터의 개수

데이터 포인트

핵심 포인트(Core Point): 주변 영역 내에 최소 데이터 개수 이상의 타 데이터를 가지고 있을 경우
이웃 포인트 (Neighbor Point): 주변 영역 내에 위치한 타 데이터
경계 포인트 (Border Point): 주변 영역 내에 최소 데이터 개수 이상의 이웃 포인트를 가지고 있지 않지만 핵심 포인트를 이웃 포인트로 가지고 있는 데이터
잡음 포인트 (Noise Point): 최소 데이터 개수 이상의 이웃 포인트를 가지고 있지 않으며, 핵심 포인트도 이웃 포인트로 가지고 있지 않는 데이터

DBSCAN 과정

DBSCAN 적용하기 - 붓꽃 데이터 세트

(eps = 0.6, min_samples=8)로 군집화

from sklearn.cluster import DBSCAN

dbscan = DBSCAN(eps=0.6, min_samples=8, metric='euclidean')
dbscan_labels = dbscan.fit_predict(iris.data)

irisDF['dbscan_cluster'] = dbscan_labels
irisDF['target'] = iris.target

iris_result = irisDF.groupby(['target'])['dbscan_cluster'].value_counts()
print(iris_result)

PCA 이용해 2개의 피처로 압축 변환 후 시각화

from sklearn.decomposition import PCA
# 2차원으로 시각화하기 위해 PCA n_componets=2로 피처 데이터 세트 변환
pca = PCA(n_components=2, random_state=0)
pca_transformed = pca.fit_transform(iris.data)
# visualize_cluster_2d( ) 함수는 ftr1, ftr2 컬럼을 좌표에 표현하므로 PCA 변환값을 해당 컬럼으로 생성
irisDF['ftr1'] = pca_transformed[:,0]
irisDF['ftr2'] = pca_transformed[:,1]

visualize_cluster_plot(dbscan, irisDF, 'dbscan_cluster', iscenter=False)

(eps = 0.8, min_samples=8)로 군집화

from sklearn.cluster import DBSCAN

dbscan = DBSCAN(eps=0.8, min_samples=8, metric='euclidean')
dbscan_labels = dbscan.fit_predict(iris.data)

irisDF['dbscan_cluster'] = dbscan_labels
irisDF['target'] = iris.target

iris_result = irisDF.groupby(['target'])['dbscan_cluster'].value_counts()
print(iris_result)

visualize_cluster_plot(dbscan, irisDF, 'dbscan_cluster', iscenter=False)

(eps = 0.6, min_samples=16)로 군집화

dbscan = DBSCAN(eps=0.6, min_samples=16, metric='euclidean')
dbscan_labels = dbscan.fit_predict(iris.data)

irisDF['dbscan_cluster'] = dbscan_labels
irisDF['target'] = iris.target

iris_result = irisDF.groupby(['target'])['dbscan_cluster'].value_counts()
print(iris_result)

visualize_cluster_plot(dbscan, irisDF, 'dbscan_cluster', iscenter=False)