input - x1,x2.. (features)
output - y (Target) : 범주형
파이썬 (scikit-learn)
⭐
70% (Training set 70%, Validation set 30%), Test set 30%
그러나 실제의 데이터는 충분하지 않음
치우침(Bias) : 위 사진에서 중심점(참 값)에서 치우침을 말함
high bias - low variance
오른쪽 사진 : 과적합
계층화샘플이 더 좋음
각각test를 각각의train(컬럼)에 진행함.
복원추출 : 샘플 추출 후 다시 데이터셋에 넣음
때문에 머신러닝은 모델 개발자의 영향을 많이 받음
=> K - 최근접 이웃 분류(KNN classfication)
k의 적정값은 10과 30 사이에 존재함
변수의 단위에 대한 영향을 제거할 수 있음
(각각의 값 - 평균)/분산
그러나 해석상의 오류가 발생할 수 있음
왼쪽 : 단위가 다름
오른쪽 : 표준화 후 대부분이 0으로 수렴