-
비지도학습: 정답을 모르는 데이터 안에서 숨겨진 구조나 정보를 찾는 것.
-
종류:
1) 프로토타입 기반(k-평균, 계층적 군집): 각 클러스터가 하나의 프로토타입으로 표현됨. 연속적인 특성에서도 비슷한 데이터 포인트의 센트로이드(평균)이거나, 범주형 특서에서는 메도이드(대표값, 최빈값)가 된다.
2) 밀집도 기반
K-평균
- K개의 클러스터로 그룹화하는 비지도 학습 알고리즘
- 장점: 원형 클러스터를 구분하는데 뛰어남
- 단점: 사전에 클러스터 개수 k를 지정해야 하는 것.적절하지 않은 k를 고르면 군집 성능 저하
- 각 데이터 포인트를 가장 가까운 클러스터 중심(센트로이드)에 할당하고 반복적으로 갱신하여 군집을 최적화
- 유사도 측정을 어떻게?
-> 거리 비교 -> 유클리디안 거리의 제곱
상대적인 거리 비교가 필요하므로 제곱근을 생략
클러스터 할당 시 제곱값이 작은 데이터가 중심과 더 가깝다는 것을 비교할 수 있으므로, 굳이 제곱근을 계산할 필요가 없기때문.
- 클러스터 내 제곱 오차합(SSE) 또는 클러스터 관성을 반복적으로 최소화 하는 방향으로!
여기서 관성이란?
: 클러스터 내 중심에서 얼마나 포인트들이 밀집되어 있는지
K-평균++
- 초기 클러스터 중심을 똑똑하게 할당. 어떻게? "거리 기반 확률"로
- 중심들이 서로 최대한 멀리 배치되도록 보장함으로써, 보다 균형 잡힌 초기화가 가능
[K-평균과 K-평균++의 차이점]
1) K-평균
- 클러스터 중심을 완전히 랜덤하게 선택.
- 초기화에 따라 지역 최적해(중심이 처음부터 잘못 선택되면 수렴 과정에서 최적의 클러스터링 결과를 얻기 어려움)에 빠질 가능성이 있음.
2) K-평균++
- 중심을 랜덤이 아닌 거리 기반 확률적 방법으로 설정.
- 새로운 중심을 선택할 때, 기존 중심과 거리가 먼 데이터를 선택할 확률이 높아짐.
-> 보다 균형 잡힌 초기화로 수렴 속도 향상 및 군집화 품질 개선. 지역 최적해에 빠질 가능성 감소.
직접 군집 vs. 간접 군집
- 직접 군집 : 데이터셋의 샘플이 정확히 하나의 클러스터에 할당되는 알고리즘 종류
- 간접 군집 : 샘플이 하나 이상의 클러스터에 할당되는 알고리즘 종류
군집 품질 평가 기법
- 지도 학습의 성능 평가를 위해 사용한 기법들을 적용할 수 X
-> 알고리즘 자체의 지표 사용 ex) k-평균 군집 성능 비교하기 위해 클래스 내 SSE(왜곡) 사용
1) 엘보우
- 클래스 내 SSE 바탕으로 최적인 클러슽터 개수 k 추정
- 일반적으로 k가 증가하면 왜곡은 감소
- 왜곡이 빠르게 증가하는 지점 = k값
2) 실루엣 분석
- 클러스터 내 샘플들이 얼마나 조밀하게 모여있는지 측정.
- 실루엣 계수(-1 ~ 1)
계층 군집
- 클러스터 개수를 미리 지정할 필요 X
- 1) 병합 계층 군집: 각 샘플이 독립적인 클러스터가 되고 하나의 클러스터가 남을 때까지 가장 가까운 클러스터로 합침.
2) 분할 계층 군집: 전체 샘플을 포함하는 하나의 클러스터에서 시작하여 더 작은 클러스터로 반복적으로 분할. 클러스터 안에 샘플이 하나만 남을 때까지 계속
[병합 계층 군집]
- 기본 알고리즘: 단일연결, 완전연결
- 단일연결: 클러스터 쌍에서 가장 비슷 샘플 간 거리 계산(가장 가까운)
- 완전연결: 가장 비슷하지 않은 샘플(가장 멀리 떠어진)
- 평균연결: 두 클러스터에 있는 모든 샘플 사이의 평균 거리가 작은 클러스터 쌍 합침.
- 와드연결: 클러스터 내SSE가 가장작게 증가하는 두 클러스터 합침.
DBSCAN(밀집도기반)
- 데이터의 밀도가 높은 영역을 클러스터로 정의.
- 밀집도란? 특정 반경 안에 있는 샘플 개수
- 원형 클러스터로 가정하지 X -> 클러스터의 모양에 구애받지 않고 밀도 차이를 기준으로 클러스터를 형성
- 모든 샘플을 클러스터에 할당 X
- 핵심 샘플, 경계 샘플, 잡음 샘플로 레이어 할당.
- 단점: 차원의 저주(특성 개수가 늘어나면)
*차원의 저주(Curse of Dimensionality)는 데이터의 특성(변수) 수가 늘어날수록 데이터 공간이 급격히 확장되어, 분석이나 모델링이 점점 더 어려워지고 성능이 떨어지는 현상
10차원 공간이나 100차원 공간으로 갈수록, 점들 간의 거리 차이가 거의 비슷해지는 현상이 발생. 즉, 데이터들이 모두 서로 비슷하게 멀리 떨어지게 되므로 구별하기 어려워 짐.