명확한 분류 기준이 없는 상황에서도 데이터들을 분석하여 가까운(또는 유사한) 것들끼리 묶어 주는 작업
1) K-means
k 값이 주어져 있을 때, 가장 가까운 주어진 데이터들을 k 개의 클러스터로 묶는 알고리즘
k 값을 미리 지정
2) DBSCAN
DBSCAN(Density Based Spatial Clustering of Applications with Noise) 알고리즘
밀도(density)기반의 군집 알고리즘
군집의 개수(k값)를 명시하지 않으면서, 밀도 기반으로 군집을 예측하는 방법
최초 임의의 점 하나로부터 퍼져나감
epsilon, minPts 값을 미리 지정
epsilon: 클러스터의 반경
minPts: 클러스터를 이루는 개체의 최솟값
core point: 반경 epsilon 내에 minPts 개 이상의 점이 존재하는 중심점
border point: 군집의 중심이 되지는 못하지만, 군집에 속하는 점
noise point: 군집에 포함되지 못하는 점
2. 차원축소(dimensionality reduction)
1) PCA(Principal Component Analysis)
주성분분석
데이터를 나타내는 여러 특징(feature)들 중에서 어떤 특징이 가장 그 데이터를 잘 표현(represent) 하는지 알게 해주는 특징 추출(feature extraction)의 용도로 사용
데이터 셋의 특징(feature)이 많아질수록, 각 특징인 하나의 차원 또한 증가함 ⇨ ∴ 차원이 증가할 수록 공가의 부피가 기하급수적으로 증가하여 데이터의 밀도는 희소(sparse)해짐
데이터의 차원이 증가할 수록, 포인트 간의 거리 또한 증가 ⇨ 오버피팅(overfitting) 위험의 커짐
기저(basis) : 새로운 좌표계 역할을 할 수 있는 벡터의 모음
PCA는 차원축소를 시도하되, 주어진 좌표축 방향이 아니라, 가장 분산이 길게 나오는 기저(basis) 방향을 찾아서 그 방향의 기저만 남기고, 덜 중요한 기저 방향을 삭제하는 방식으로 진행
찾은 가장 중요한 기저를 주성분(Principal Component) 방향, 또는 pc축이라고 합니다.
2) T-SNE(T-Stochastic Neighbor Embedding)
시각화에 많이 쓰이는 알고리즘
기존 차원의 공간에서 가까운 점들은, 차원축소된 공간에서도 여전히 가깝게 유지되는 것을 목표