군집 분석

목록 보기

13/13

비지도학습: 정답을 모르는 데이터 안에서 숨겨진 구조나 정보를 찾는 것.
종류:
1) 프로토타입 기반(k-평균, 계층적 군집): 각 클러스터가 하나의 프로토타입으로 표현됨. 연속적인 특성에서도 비슷한 데이터 포인트의 센트로이드(평균)이거나, 범주형 특서에서는 메도이드(대표값, 최빈값)가 된다.
2) 밀집도 기반

K개의 클러스터로 그룹화하는 비지도 학습 알고리즘
장점: 원형 클러스터를 구분하는데 뛰어남
단점: 사전에 클러스터 개수 k를 지정해야 하는 것.적절하지 않은 k를 고르면 군집 성능 저하
각 데이터 포인트를 가장 가까운 클러스터 중심(센트로이드)에 할당하고 반복적으로 갱신하여 군집을 최적화
유사도 측정을 어떻게?
-> 거리 비교 -> 유클리디안 거리의 제곱
상대적인 거리 비교가 필요하므로 제곱근을 생략
클러스터 할당 시 제곱값이 작은 데이터가 중심과 더 가깝다는 것을 비교할 수 있으므로, 굳이 제곱근을 계산할 필요가 없기때문.
클러스터 내 제곱 오차합(SSE) 또는 클러스터 관성을 반복적으로 최소화 하는 방향으로!

여기서 관성이란?
: 클러스터 내 중심에서 얼마나 포인트들이 밀집되어 있는지

1) K-평균

2) K-평균++

중심을 랜덤이 아닌 거리 기반 확률적 방법으로 설정.
새로운 중심을 선택할 때, 기존 중심과 거리가 먼 데이터를 선택할 확률이 높아짐.
-> 보다 균형 잡힌 초기화로 수렴 속도 향상 및 군집화 품질 개선. 지역 최적해에 빠질 가능성 감소.

지도 학습의 성능 평가를 위해 사용한 기법들을 적용할 수 X
-> 알고리즘 자체의 지표 사용 ex) k-평균 군집 성능 비교하기 위해 클래스 내 SSE(왜곡) 사용

1) 엘보우

클러스터 개수를 미리 지정할 필요 X
1) 병합 계층 군집: 각 샘플이 독립적인 클러스터가 되고 하나의 클러스터가 남을 때까지 가장 가까운 클러스터로 합침.
2) 분할 계층 군집: 전체 샘플을 포함하는 하나의 클러스터에서 시작하여 더 작은 클러스터로 반복적으로 분할. 클러스터 안에 샘플이 하나만 남을 때까지 계속

*차원의 저주(Curse of Dimensionality)는 데이터의 특성(변수) 수가 늘어날수록 데이터 공간이 급격히 확장되어, 분석이나 모델링이 점점 더 어려워지고 성능이 떨어지는 현상

10차원 공간이나 100차원 공간으로 갈수록, 점들 간의 거리 차이가 거의 비슷해지는 현상이 발생. 즉, 데이터들이 모두 서로 비슷하게 멀리 떨어지게 되므로 구별하기 어려워 짐.

정리하는게 공부가 될 지 모르겠지만, 정리를 하면 마음만큼은 편해

머신러닝