정리하는 이유... 내가 헷갈림
matplotlib
scatter()
산점도를 그리는 맷플롯맆 함수. 처음 2개의 매개변수로 x축 값과 y축 값을 전달.
sckit-learn
KNeighborsClassifier()
k-최근접 이웃 분류 모델을 만드는 사이킷런 클래스.
n-neighbors
매개변수로 이웃의 개수 지정. 기본값 = 5
p
매개변수로 거리를 재는 방법을 지정. 1일 경우 맨허튼 거리, 2일 경우 유클리디안 거리 사용. 기본값 2
n_jobs
매개변수로 사용할 CPU 코어를 지정. -1로 설정하면 모든 CPU 코어를 사용. 이웃 간의 거리 계산 속도를 높일수 있지만 fit() 메서드에는 영향 X . 기본값 = 1
fit()
사이킷런 모델을 훈련할 때 사용하는 메서드. 처음 두 매개변수로 훈련에 사용할 특성과 정답 데이터를 전달.
predict()
사이킷런 모델을 훈련하고 예측할 때 사용하는 메서드. 특성 데이터 하나만 매개변수로 받는다.
score()
훈련된 사이킷런 모델의 성능을 측정. 처음 두 매개변수로 특성과 정답 데이터를 전달.
KNeighborsRegressor
k-최근접 이웃 회귀 모델을 만드는 사이킷런 클래스.
n-neighbors
매개변수로 이웃의 개수 지정. 기본값 = 5
다른 매개변수는 KNeighborsClassifier
클래스와 거의 동일
mean_absolute_error()
회귀 모델의 평균 절댓값 오차를 계산.
첫 번째 매개변수는 타깃, 두 번째 매개변수는 예측값
cf ) mean_squared_error()
: 평균 제곱 오차를 계산. 타깃과 예측을 뺀 값을 제곱한 다음 전체 샘플에 대해 평균한 값을 반환.
LogisticRegression
로지스틱 회귀를 위한 클래스
solver
매개변수에서 사용할 알고리즘 선택 가능. (기본값 'lbfgs')
'sag' 확률적 평균 경사 하강법 알고리즘. 특성과 샘플 수가 많을 때 성능은 빠르고 좋음.
'saga''sag'의 개선버전
penalty
L2 규제(릿지 방식)와 L1 규제(라쏘 방식) 중 선택 가능. 기본값은 'l2'
C
매개변수에서 규제의 강도 제어. 기본값 1.0 , 값이 작을수록 규제가 강해진다.
predict_probal()
예측 확률을 반환.
이진 분류의 경우 샘플마다 음성 클래스와 양성 클래스에 대한 확률 반환
다중 분류의 경우 샘플마다 모든 클래스에 대한 확률 반환
decision_function()
모델이 학습한 선형 방정식의 출력 반환
이진 분류의 경우 양성 클래스의 확률 반환. 이 값이 0보다 크면 양성 클래스, 작거나 같으면 음성 클래스로 변환
다중 분류의 경우 각 클래스마다 선형 방정식 계산. 가장 큰 값의 클래스가 예측 클래스가 됨.
numpy
reshape()
배열의 크기를 바꾼다. 바꾸고자 하는 배열의 크기를 매개변수로 전달한다. 바꾸기 전후의 배열 원소 개수는 동일하다.
test_array.reshape(2,2)
np.reshape(test_array, (2,2))
두 개는 같은 표현이다.