분류와 군집 모두 데이터를 특정 집단으로 나눈다는 공통점이 존재
소속 집단의 정보(종속변수)를 알고 있는 상태에서 새로운 데이터를 비슷한 집단으로 묶는 방법. 즉, 지도학습(knn)
이항분류 통계를 함께 진행해 일치 정도를 비교
소속 집단의 정보(종속변수)가 없는 상태에서 비슷한 집단으로 묶는 방법. 즉, 비지도 학습(k-means)
k-means 가우시안 평균이동
DBScan
n_clusters : 군집의 갯수, n_init : 초기 중심위치 수, random_state : 시드 값 고정(재현성)
연구 목적이 아닌 실무에서 random_state는 배제
Density-based spatial clustering of Application Noise
밀도 기반 데이터 클러스터링 알고리즘
클러스터의 개수를 미리 지정할 필요가 없다.
복잡한 형상의 데이터 셋에도 무리 없이 적용 가능
어떤 클래스에도 속하지 않는 포인트를 구분할 수 있다.
속도는 다소 느리다.