[기계학습개론] Data Processing for ML

SUbbb·2021년 10월 24일
0

기계학습개론

목록 보기
3/10
post-thumbnail

Dataset의 중요성

데이터의 중요성

  • 치우친 dataset을 통한 학습 \rarr 어떤 학습을 수행해도 결과가 비슷하다.
  • 데이터의 특성 분석과 밸런싱이 중요하다.

데이터 이해하기

상관관계(correlation)

Pearson correlation coefficient:

  • 두 변수 X와 Y사이의 선형 상관 관계를 측정하는 통계치

    • covcov는 분산, σX\sigma_X는 X의 표준편차, σY\sigma_Y는 Y의 표준편차

Clustering(군집화)

  • Unsupervised learning 예시

와인 데이터

  • multi-class classification dataset

코드: K-means & 시각화

  • 분류를 통해 데이터 분석용으로 사용할 수도 있다.

profile
배우고 정리하고 공유하기

0개의 댓글