정리하는 이유... 내가 헷갈림
matplotlibscatter()산점도를 그리는 맷플롯맆 함수. 처음 2개의 매개변수로 x축 값과 y축 값을 전달.
sckit-learnKNeighborsClassifier() k-최근접 이웃 분류 모델을 만드는 사이킷런 클래스.
n-neighbors 매개변수로 이웃의 개수 지정. 기본값 = 5
p 매개변수로 거리를 재는 방법을 지정. 1일 경우 맨허튼 거리, 2일 경우 유클리디안 거리 사용. 기본값 2
n_jobs 매개변수로 사용할 CPU 코어를 지정. -1로 설정하면 모든 CPU 코어를 사용. 이웃 간의 거리 계산 속도를 높일수 있지만 fit() 메서드에는 영향 X . 기본값 = 1
fit()사이킷런 모델을 훈련할 때 사용하는 메서드. 처음 두 매개변수로 훈련에 사용할 특성과 정답 데이터를 전달.
predict()사이킷런 모델을 훈련하고 예측할 때 사용하는 메서드. 특성 데이터 하나만 매개변수로 받는다.
score()훈련된 사이킷런 모델의 성능을 측정. 처음 두 매개변수로 특성과 정답 데이터를 전달.
KNeighborsRegressork-최근접 이웃 회귀 모델을 만드는 사이킷런 클래스.
n-neighbors 매개변수로 이웃의 개수 지정. 기본값 = 5
다른 매개변수는 KNeighborsClassifier 클래스와 거의 동일
mean_absolute_error()회귀 모델의 평균 절댓값 오차를 계산.
첫 번째 매개변수는 타깃, 두 번째 매개변수는 예측값
cf ) mean_squared_error() : 평균 제곱 오차를 계산. 타깃과 예측을 뺀 값을 제곱한 다음 전체 샘플에 대해 평균한 값을 반환.
LogisticRegression로지스틱 회귀를 위한 클래스
solver 매개변수에서 사용할 알고리즘 선택 가능. (기본값 'lbfgs')
'sag' 확률적 평균 경사 하강법 알고리즘. 특성과 샘플 수가 많을 때 성능은 빠르고 좋음.
'saga''sag'의 개선버전
penalty L2 규제(릿지 방식)와 L1 규제(라쏘 방식) 중 선택 가능. 기본값은 'l2'
C 매개변수에서 규제의 강도 제어. 기본값 1.0 , 값이 작을수록 규제가 강해진다.
predict_probal()예측 확률을 반환.
이진 분류의 경우 샘플마다 음성 클래스와 양성 클래스에 대한 확률 반환
다중 분류의 경우 샘플마다 모든 클래스에 대한 확률 반환
decision_function()모델이 학습한 선형 방정식의 출력 반환
이진 분류의 경우 양성 클래스의 확률 반환. 이 값이 0보다 크면 양성 클래스, 작거나 같으면 음성 클래스로 변환
다중 분류의 경우 각 클래스마다 선형 방정식 계산. 가장 큰 값의 클래스가 예측 클래스가 됨.
numpyreshape()배열의 크기를 바꾼다. 바꾸고자 하는 배열의 크기를 매개변수로 전달한다. 바꾸기 전후의 배열 원소 개수는 동일하다.
test_array.reshape(2,2)
np.reshape(test_array, (2,2))
두 개는 같은 표현이다.