Clustering

JERRY·2025년 4월 22일

Machine Learning

목록 보기

28/31

비지도 학습

군집 Clustering : 비슷한 샘플을 모음
이상치 탐지 Outier detection : 정상 데이터가 어떻게 보이는지 학습, 비정상 샘플을 감지
밀도 추정 : 데이터셋의 확률 밀도 함수 Probability Density Function PDF를 추정. 이상치 탐지 등에 사용

K-Means

군집화에서 가장 일반적인 알고리즘
군집 중심(centroid)이라는 임의의 지점을 선택해서 해당 중심에 가장 가까운 포인트들을 선택하는 군집화
일반적인 군집화에서 가장 많이 사용되는 기법
거리 기반 알고리즘으로 속성의 개수가 매우 많을 경우 군집화의 정확도가 떨어짐

K-Means 알고리즘

알고리즘의 원리 1

알고리즘의 원리 2

실습 데이터

편의상 두 개의 특성만

군집화

• n_clusters : 군집화 할 개수, 즉 군집 중심점의 개수
• init : 초기 군집 중심점의 좌표를 설정하는 방식을 결정
• max_iter : 최대 반복 횟수, 모든 데이터의 중심점 이동이 없으면 종료

결과 라벨

군집화라서 지도학습의 라벨과 다르다

군집 중심값

그래프를 그리기 위한 정리

결과 확인

make_blobs

실습 데이터

데이터 정리 및 군집화

결과 도식화

결과 확인

군집 평가

군집 결과의 평가

분류기는 평가 기준(정답)을 가지고 있지만, 군집은 그렇지 않다.
군집 결과를 평가하기 위해 실루엣 분석을 많이 활용한다.

실루엣 분석

실루엣 분석은 각 군집 간의 거리가 얼마나 효율적으로 분리되어 있는지 나타냄
다른 군집과는 거리가 떨어져 있고, 동일 군집간의 데이터는 서로 가깝게 잘 뭉쳐 있는지 확인
군집화가 잘 되어 있을 수록 개별 군집은 비슷한 정도의 여유공간을 가지고 있음
실루엣 계수 : 개별 데이터가 가지는 군집화 지표

n = 2 인 경우

n = 3 인 경우

n = 4 인 경우

데이터 읽기

군집 결과 정리

군집 결과 평가

실루엣 플랏의 결과

JERRY

이전 포스트

Titanic data using PCA, kNN

다음 포스트

Clustering

Machine Learning

비지도 학습

비지도 학습

K-Means

K-Means 알고리즘

알고리즘의 원리 1

알고리즘의 원리 2

실습 데이터

편의상 두 개의 특성만

군집화

결과 라벨

군집 중심값

그래프를 그리기 위한 정리

결과 확인

make_blobs

실습 데이터

데이터 정리 및 군집화

결과 도식화

결과 확인

군집 평가

군집 결과의 평가

실루엣 분석

n = 2 인 경우

n = 3 인 경우

n = 4 인 경우

데이터 읽기

군집 결과 정리

군집 결과 평가

실루엣 플랏의 결과

Titanic data using PCA, kNN

군집을 이용한 이미지 분할

0개의 댓글