요점 정리
- 머신러닝을 할때는 Data를 처리하는것을 신경 써야한다.
- 사이키런 같은 경우 전처리가 다 되어있는 데이터 이기때문에 따로 신경을 쓸게 많이 없지만 모든 데이터가 그런것은 아님
- 전처리에 대한 부분을 항상 염두하고 익숙하게 만드는게 중요
- 데이터 분류는 학습용과 test용으로 분류(이때 사용하는 함수 train_test_split)
- train_test_split 으로 데이터를 분할 했을때 변수의 개수는 4가지가 나온다
(X_train,X_test,y_train,y_test)
- 학습을 시킬 모델을 만들기
- 학습이 된 모델들은 평가를 해야한다(성능이 좋게 나올때까지)
- 학습을 할때는 train 데이터 평가할때는 test 데이터를 사용
- 성능이 좋다는 것은 절대적으로 정답확률에 의존하지 않는다.(무조건 높다고 좋은것은 아니라는 말)
Scikit-Learn
=> 머신러닝을 위한 파이썬 라이브러리로 다양한 머신러닝 알고리즘과 도구를 제공함
설치

- sklearn.datasets - 사이키런에 내장되어져있는 무료 데이터
- sklearn.preprocessing - 데이터 전처리 해주는 변수(숫자인코딩, 정규화, 스케일링)
- sklearn.ensemble, sklearn.linear_model, sklearn.svm, sklearn.tree, sklearn.cluster 등의 라이브러리가 있다. : 학습시 사용할 모델
- sklearn.metrics : 분류,회귀 평가