비지도학습이란?
정답 레이블이 지정되지 않은 데이터로부터 패턴을 찾아내는 학습 방법론
주어진 데이터의 구조나 패턴을 자동으로 탐색하는 목적을 가지고 있다
대표적인 해결 문제들
군집화 (Clustering) : 데이터를 유사한 특성을 공유하는 군집으로 분할하는 과정
차원 축소 (Dimensionality Reduction) : 고차원 데이터를 보다 낮은 차원으로 표현하여 데이터의 핵심적인 특성을 유지하는 기법
이상 탐지 (Anomaly Detection) : 데이터에서 비정상적인 패턴, 이상치, 또는 예외적인 사례를 탐지하는 과정
군집화 종류
K-means Clustering
Hierarchical Clustering
DBSCAN (Density-Based Sparital Clustering of Applications with Noise)
차원 축소의 종류
이상 탐지의 종류
K-means Clustering
로이드 알고리즘
엘칸 알고리즘
엘보우 방법 (Elbow Method) : 실제 Clustering을 진행해야 할 때는 K의 값을 알 수 없다. 그래서 클러스터 수를 늘려가며 각각에 클러스터링 성능을 측정하여 최적의 K값을 설정
SSE(Sum of Squared Error) 값을 사용하여 클러스터링 성능을 측정한다
실루엣 계수 (Silhouette Coefficient) : 클러스터의 응집도와 서로 다른 클러스터 간의 분리도를 고려하여 Clustering의 품질을 평가하는 방법
응집도 (Cohesion, a(i)) : 특정 데이터 포인트 i에 대해 동일한 클러스터 안에 들어있는 다른 데이터들과의 평균 거리
분리도 (Separation, b(i)) : 특정 데이터 포인트 i에 대해, i가 포함되어있지 않은 클러스터 중 가장 가까운 클러스터의 중심까지의 거리
이상탐지