군집 분석

머신러닝

목록 보기
13/13
  • 비지도학습: 정답을 모르는 데이터 안에서 숨겨진 구조나 정보를 찾는 것.

  • 종류:
    1) 프로토타입 기반(k-평균, 계층적 군집): 각 클러스터가 하나의 프로토타입으로 표현됨. 연속적인 특성에서도 비슷한 데이터 포인트의 센트로이드(평균)이거나, 범주형 특서에서는 메도이드(대표값, 최빈값)가 된다.
    2) 밀집도 기반

  • 군집: 비슷한 객체로 이루어진 그룹

K-평균

  • K개의 클러스터로 그룹화하는 비지도 학습 알고리즘
  • 장점: 원형 클러스터를 구분하는데 뛰어남
  • 단점: 사전에 클러스터 개수 k를 지정해야 하는 것.적절하지 않은 k를 고르면 군집 성능 저하
  • 각 데이터 포인트를 가장 가까운 클러스터 중심(센트로이드)에 할당하고 반복적으로 갱신하여 군집을 최적화
  • 유사도 측정을 어떻게?
    -> 거리 비교 -> 유클리디안 거리의 제곱
    상대적인 거리 비교가 필요하므로 제곱근을 생략
    클러스터 할당 시 제곱값이 작은 데이터가 중심과 더 가깝다는 것을 비교할 수 있으므로, 굳이 제곱근을 계산할 필요가 없기때문.
  • 클러스터 내 제곱 오차합(SSE) 또는 클러스터 관성을 반복적으로 최소화 하는 방향으로!

    여기서 관성이란?
    : 클러스터 내 중심에서 얼마나 포인트들이 밀집되어 있는지


K-평균++

  • 초기 클러스터 중심을 똑똑하게 할당. 어떻게? "거리 기반 확률"
  • 중심들이 서로 최대한 멀리 배치되도록 보장함으로써, 보다 균형 잡힌 초기화가 가능

[K-평균과 K-평균++의 차이점]

1) K-평균

  • 클러스터 중심을 완전히 랜덤하게 선택.
  • 초기화에 따라 지역 최적해(중심이 처음부터 잘못 선택되면 수렴 과정에서 최적의 클러스터링 결과를 얻기 어려움)에 빠질 가능성이 있음.

2) K-평균++

  • 중심을 랜덤이 아닌 거리 기반 확률적 방법으로 설정.
  • 새로운 중심을 선택할 때, 기존 중심과 거리가 먼 데이터를 선택할 확률이 높아짐.
    -> 보다 균형 잡힌 초기화로 수렴 속도 향상 및 군집화 품질 개선. 지역 최적해에 빠질 가능성 감소.

직접 군집 vs. 간접 군집

  • 직접 군집 : 데이터셋의 샘플이 정확히 하나의 클러스터에 할당되는 알고리즘 종류
  • 간접 군집 : 샘플이 하나 이상의 클러스터에 할당되는 알고리즘 종류

군집 품질 평가 기법

  • 지도 학습의 성능 평가를 위해 사용한 기법들을 적용할 수 X
    -> 알고리즘 자체의 지표 사용 ex) k-평균 군집 성능 비교하기 위해 클래스 내 SSE(왜곡) 사용

1) 엘보우

  • 클래스 내 SSE 바탕으로 최적인 클러슽터 개수 k 추정
  • 일반적으로 k가 증가하면 왜곡은 감소
  • 왜곡이 빠르게 증가하는 지점 = k값
    2) 실루엣 분석
  • 클러스터 내 샘플들이 얼마나 조밀하게 모여있는지 측정.
  • 실루엣 계수(-1 ~ 1)

계층 군집

  • 클러스터 개수를 미리 지정할 필요 X
  • 1) 병합 계층 군집: 각 샘플이 독립적인 클러스터가 되고 하나의 클러스터가 남을 때까지 가장 가까운 클러스터로 합침.
    2) 분할 계층 군집: 전체 샘플을 포함하는 하나의 클러스터에서 시작하여 더 작은 클러스터로 반복적으로 분할. 클러스터 안에 샘플이 하나만 남을 때까지 계속

[병합 계층 군집]

  • 기본 알고리즘: 단일연결, 완전연결
  • 단일연결: 클러스터 쌍에서 가장 비슷 샘플 간 거리 계산(가장 가까운)
  • 완전연결: 가장 비슷하지 않은 샘플(가장 멀리 떠어진)
  • 평균연결: 두 클러스터에 있는 모든 샘플 사이의 평균 거리가 작은 클러스터 쌍 합침.
  • 와드연결: 클러스터 내SSE가 가장작게 증가하는 두 클러스터 합침.

DBSCAN(밀집도기반)

  • 데이터의 밀도가 높은 영역을 클러스터로 정의.
  • 밀집도란? 특정 반경 안에 있는 샘플 개수
  • 원형 클러스터로 가정하지 X -> 클러스터의 모양에 구애받지 않고 밀도 차이를 기준으로 클러스터를 형성
  • 모든 샘플을 클러스터에 할당 X
  • 핵심 샘플, 경계 샘플, 잡음 샘플로 레이어 할당.
  • 단점: 차원의 저주(특성 개수가 늘어나면)

*차원의 저주(Curse of Dimensionality)는 데이터의 특성(변수) 수가 늘어날수록 데이터 공간이 급격히 확장되어, 분석이나 모델링이 점점 더 어려워지고 성능이 떨어지는 현상

10차원 공간이나 100차원 공간으로 갈수록, 점들 간의 거리 차이가 거의 비슷해지는 현상이 발생. 즉, 데이터들이 모두 서로 비슷하게 멀리 떨어지게 되므로 구별하기 어려워 짐.

profile
정리하는게 공부가 될 지 모르겠지만, 정리를 하면 마음만큼은 편해

0개의 댓글