[기계학습개론] Data Processing for ML
Dataset의 중요성
데이터의 중요성
- 치우친 dataset을 통한 학습 → 어떤 학습을 수행해도 결과가 비슷하다.
- 데이터의 특성 분석과 밸런싱이 중요하다.
데이터 이해하기
상관관계(correlation)
Pearson correlation coefficient:
- 두 변수 X와 Y사이의 선형 상관 관계를 측정하는 통계치
- cov는 분산, σX는 X의 표준편차, σY는 Y의 표준편차
Clustering(군집화)
와인 데이터
- multi-class classification dataset
코드: K-means & 시각화
- 분류를 통해 데이터 분석용으로 사용할 수도 있다.