(1) 군집분석 개요
(2) ⭐거리 측도⭐
1. 변수가 연속형인 경우


데이터가 범주형 변수인 경우에는 얼마나 많은 공통된 요소를 갖고 있는지 판단할 수 있다.
단순 일치 계수 : 두 객체 i와 j간의 상이성을 불일치 비율로 계산한다. P는 변수의 총 개수이며, m은 객체 i와 j가 같은 상태인 변수의 수(일치한 수)를 의미한다. 
자카드 지수 : 두 집합 사이의 유사도를 측정하는 지표로서 두 집합이 같으면 1, 완전히 다르면 0의 값을 갖는다. 
자카드 거리 : 자카드 지수를 거리화하기 위해 완전히 다르면 먼 거리를 갖는 1로, 완전히 동일하면 거리를 0으로 변환하기 위해 1에서 자카드 지수를 뺀 값이다. 
코사인 유사도 : 문서(텍스트)의 유사도를 측정하기 위한 지표로서 크기가 아닌 방향성을 측정하는 지표다. 완전히 일치하면 1의 값을 가지며, 완전히 다른 방향이면 -1의 값을 갖는다. 
코사인 거리 : 코사인 유사도를 거리화하기 위해 1에서 코사인 유사도를 뺀 값이다. 
순위 상관 계수 : 순서척도인 두 데이터 사이의 거리를 측정하기 위한 지표로서 스피어만 상관계수를 사용할 수 있다(3과목'상관분석'편 참고).

(1) 계층적 군집분석 개요

(2) ⭐군집 간의 거리⭐


(3) 비계층적 군집분석
⭐k-means 군집의 방법⭐

⭐k-means 군집의 특징⭐

DBSCAN(Density Based Spatial Clustering of Applications with Noise)

(1) 혼합 분포 군집 개요
(2) EM 알고리즘
기댓값 최대화(EM, Expectation Maximization) 알고리즘은 확률모델의 최대가능도(Maximum Likelihood)를 갖는 모수와 함께 그 확률모델의 가중치를 추정하고자 한다.
각 데이터가 어느 분포에서 추출된 데이터인지 각 집단(잠재변수, Z)으로부터 기댓값을 구할 수 있다. 이때 추정된 기댓값을 활용하여 로그-가능도 함수가 최대로 되게 하는 모수를 찾을 수 있다.
알고리즘으로 두 가지 단계(E-step, M-step)로 구성되어 있다. 
(3) EM 알고리즘 과정


(1) 자기조직화지도 개요
(2) ⭐자기조직화지도 구성

(3) 자기조직화지도 과정⭐

(4) 자기조직화지도 특성⭐⭐
