Clustering

JERRY·2025년 4월 22일
0

Machine Learning

목록 보기
28/31
post-thumbnail

비지도 학습

비지도 학습

  • 군집 Clustering : 비슷한 샘플을 모음
  • 이상치 탐지 Outier detection : 정상 데이터가 어떻게 보이는지 학습, 비정상 샘플을 감지
  • 밀도 추정 : 데이터셋의 확률 밀도 함수 Probability Density Function PDF를 추정. 이상치 탐지 등에 사용

K-Means

  • 군집화에서 가장 일반적인 알고리즘
  • 군집 중심(centroid)이라는 임의의 지점을 선택해서 해당 중심에 가장 가까운 포인트들을 선택하는 군집화
  • 일반적인 군집화에서 가장 많이 사용되는 기법
  • 거리 기반 알고리즘으로 속성의 개수가 매우 많을 경우 군집화의 정확도가 떨어짐

K-Means 알고리즘

알고리즘의 원리 1

알고리즘의 원리 2

실습 데이터

편의상 두 개의 특성만

군집화

• n_clusters : 군집화 할 개수, 즉 군집 중심점의 개수
• init : 초기 군집 중심점의 좌표를 설정하는 방식을 결정
• max_iter : 최대 반복 횟수, 모든 데이터의 중심점 이동이 없으면 종료

결과 라벨

군집화라서 지도학습의 라벨과 다르다

군집 중심값

그래프를 그리기 위한 정리

결과 확인


make_blobs

실습 데이터

데이터 정리 및 군집화

결과 도식화

결과 확인


군집 평가

군집 결과의 평가

  • 분류기는 평가 기준(정답)을 가지고 있지만, 군집은 그렇지 않다.
  • 군집 결과를 평가하기 위해 실루엣 분석을 많이 활용한다.

실루엣 분석

  • 실루엣 분석은 각 군집 간의 거리가 얼마나 효율적으로 분리되어 있는지 나타냄
  • 다른 군집과는 거리가 떨어져 있고, 동일 군집간의 데이터는 서로 가깝게 잘 뭉쳐 있는지 확인
  • 군집화가 잘 되어 있을 수록 개별 군집은 비슷한 정도의 여유공간을 가지고 있음
  • 실루엣 계수 : 개별 데이터가 가지는 군집화 지표

n = 2 인 경우

n = 3 인 경우

n = 4 인 경우

데이터 읽기

군집 결과 정리

군집 결과 평가

실루엣 플랏의 결과

0개의 댓글