Dimentionality Reduction (Curse of Dimensionality)
Clustering
GMM (Gaussian Mixture Model)
차원축소가 하는 일: 큰 차원을 작은 차원으로 어떻게 바꿀 것인가
Projection
Features not affecting much or highly correlated may be removed
Manifold Learning
A d-dimensional manifold as a part of an n-dimensioal space
original variance ~~ Reduced dimension variance
Randomized PCA - 속도를 줄이는
Incremenral PCA(IPCA)
Classification
Clustering
예) 100개의 엔진 사운드를 주고 어떤 것이 고장난/비정상적인 엔진 사운드인지 알아내라
K-Means
a simple algorithm capable of clustering dataset, very quickly and efficiently Hard Clustering vs. Soft Clustering
distance base 적절하게 스케일링이 되어있지 않으면 normalize 큰 bias 될 수 읶음
K-Means
Guaranteed to converge without oscillation
May not converge to the right solution for unlucky random centroid initialization
초기에 centroid를 정해야함 -> 초기에 이걸 어디다 두느냐에 따라 답이 다름 -> 판단기준이 있어야 함(performance measure)어떤 놈이 좋은 놈인지 알아야 함
Inertia가 작은 cluster 가 좋음
각각 데이터 포인트 하나당 가까운 센트로이드 거리의 제곱의 합 - balance가 잘 되어진
Mini-batch K-means - 모든 데이터를 쓰지 않음
DBSCAN(Density Based Spatial Clustering of Application with Noise)
defines clusters as continuous regions of high density
dense 한 것을 따라감
connection 이 중요함
DBSCAN은 prediction하는 모델이 아님
Gaussian Mixture Model (GMM)
임의의 distribution을 보았을 때 Gaussian function들의 합을 보게되는 것임
세 개의 parameter가 있음
1. Mean point
2. Standard deviation이 얼마나 되는지
3. 얼마나 많은 population을 갖는지