모델 기반 클러스터링

정다영·2022년 9월 8일
0

7.4 모델 기반 클러스터링



7.4.1 다변량정규분포

1. 다변량정규분포란?

  • p개의 변수 집합 X1, X2, X3, ... , Xp에 대해 정규분포를 일반화한 것
  • 분포는 평균 집합과 공분산행렬로 정의된다.
  • 공분산행렬은 변수가 서로 어떻게 상호 관련되어 있는지 나타내는 지표



7.4.2 정규혼합

  • 모델 기반 클러스터링의 핵심 아이디어는 각 레코드가 k개의 다변량정규분포 중 하나로부터 발생했다고 가정하는 것




7.4.3 클럿스터 개수 정하기

  • k-평균이나 계층적 클러스터링과 달리 mclust는 클러스터 수를 자동으로 선택
  • 베이즈 정보 기준(BIC) 값이 큰 클러스터의 개수를 선택하도록 동작


피터 브루스, 앤드루 브루스의 <데이터 과학을 위한 통계(2판): 데이터 분석에서 머신러닝까지 50가지 핵심 개념> 을 읽고 정리한 내용입니다.

profile
My_Spielraum

0개의 댓글