DAY14

마친자·2021년 7월 28일
0
post-thumbnail

Scree Plots

  • pc1/pc1+pc2/pc1+pc2+pc3
  • 그래프가 점점 더 100으로 향하는데, 우리는 그렇게 많은 정보가 아닌 적절한 정보를 가지고 하는것이기 때문에 70~80이 적절하다
  • 그러므로 3번째 그래프에서 보면 5 ~ 6개가 70 ~ 80이기 때문에 5~6개가 적절하다

Machine Learning

이미지 출처

지도 학습 (Supervised Learning)

:트레이닝 데이터에 라벨(답)이 있을때 사용

  • 분류(Classification)
    :주어진 데이터의 카테고리 혹은 클래스 예측을 위해 사용
  • 회귀(prediction)
    :continuous 한 데이터를 바탕으로 결과를 예측 하기 위해 사용

비지도 학습 (Unsupervised Learning)

  • 클러스터링(clustering)
    :데이터의 연관된 feature를 바탕으로 유사한 그룹을 생성합니다.
    Train Data에 대해서 label도 없고, 몇 개의 클러스터가 정확한지조차도 없는 경우
  • 차원 축소 (Dimensionality Reduction)
    높은 차원을 갖는 데이터셋을 사용하여 feature selection / extraction 등을 통해 차원을 줄이는 방법입니다.
  • 연관 규칙 학습 (Association Rule Learning)
    데이터셋의 feature들의 관계를 발견하는 방법입니다 (feature-output 이 아닌 feature-feature)

이미지 출처

Clustering

Clustering의 목적

Clustering은 주어진 데이터들이 얼마나, 어떻게 유사한지 알려준다

  • 어진 데이터셋을 요약/정리하는데 있어서 매우 효율적인 방법
  • EDA > production의 수준, 혹은 예측을 위한 모델링

Clustering의 종류

Hierarchical

  • Agglomerative: 개별 포인트에서 시작후 점점 크게 합쳐감
  • Divisive: 한개의 큰 cluster에서 시작후 점점 작은 cluster로 나눠감

Point Assignment

: 시작시에 cluster의 수를 정한 다음, 데이터들을 하나씩 cluster에 배정시킴

Hard vs Soft Clustering

  • Hard Clustering에서 데이터는 하나의 cluster에만 할당
  • Soft Clustering에서 데이터는 여러 cluster에 확률을 가지고 할당
    예를 들어 혈관을 만들어내는 유전자가 있을때 암세포가 빨아드릴 혈관을 만들어낼때도 사용되는데 즉, 이 유전자는 개체의 성장에 영향을 주는 집단에도 속하지만 암세포 집단에도 속한다

K-Means Clustering

n-차원의 데이터에 대해서 :
1) k 개의 랜덤한 데이터를 cluster의 중심점으로 설정
2) 해당 cluster에 근접해 있는 데이터를 cluster로 할당
3) 변경된 cluster에 대해서 중심점을 새로 계산
cluster에 유의미한 변화가 없을 때 까지 2-3을 반복

예를 들어 100개 중에 3개를 랜덤하게 뽑고 중심으로 선언 97개를 3개에 젤 가까운 클라스터에 배치 클라스터마다 중심점을 평균으로 계산 다시 반복

  • K-means 할때 스케일링은 거진 다 해준다고 생각하면 된다.
from sklearn.cluster import KMeans 
kmeans = KMeans(n_clusters = 3)
kmeans.fit(x) 

K를 어떻게 결정할까?

  • 도메인 지식
  • Elbow methods

Elbow methods

이미지출처

항상 K-means가 답이 아니다. 각자마다 최적화된 알고리즘은 다르기에 다양한 클러스팅 알고리즘에 대한 연구가 필요하며,데이터에 대한 이해가 없으면 좋은 방법이 있얻 사용하지 못하기에도메인에 대한 지식이 필요하다


N134

Accuracy
Accuracy

hierarchical clustering

single 외
scipy.cluster.hierarchy.dendrogram

이미지 출처

profile
마루에 미친자

0개의 댓글