K-means
sklearn.datasets.make_blobs()
으로 데이터 생성Eucledian Distance
display()
라는 함수도 있었다.
object
를 display해주는 함수란다.(print()
같이) print()
역할 같이, 하지만 판다스 df를 출력해주기 위해 쓰였다.print()
로 해보니 그냥 숫자만 정렬된 상태로 출력됐다.K-means의 단점(혹은 군집화가 잘 안 되는 데이터 분포)
이러한 단점을 극복하게 해준 게 DBSCAN 알고리즘
DBSCAN의 단점
PCA
T-SNE(T-Stochastic Neibour Embedding)
어떤 정보를 보존할 건데
를 고려해야 함.요약해서 PCA는 데이터가 가진 고유한 물리적 정보를 유지하려 하지만, T-SNE는 데이터 간의 상대적 거리 보존에 중점을 둠