7.4 모델 기반 클러스터링
7.4.1 다변량정규분포
1. 다변량정규분포란?
- p개의 변수 집합 X1, X2, X3, ... , Xp에 대해 정규분포를 일반화한 것
- 분포는 평균 집합과 공분산행렬로 정의된다.
- 공분산행렬은 변수가 서로 어떻게 상호 관련되어 있는지 나타내는 지표
7.4.2 정규혼합
- 모델 기반 클러스터링의 핵심 아이디어는 각 레코드가 k개의 다변량정규분포 중 하나로부터 발생했다고 가정하는 것
7.4.3 클럿스터 개수 정하기
- k-평균이나 계층적 클러스터링과 달리 mclust는 클러스터 수를 자동으로 선택
- 베이즈 정보 기준(BIC) 값이 큰 클러스터의 개수를 선택하도록 동작
피터 브루스, 앤드루 브루스의 <데이터 과학을 위한 통계(2판): 데이터 분석에서 머신러닝까지 50가지 핵심 개념> 을 읽고 정리한 내용입니다.