재현율이 더 중요한 경우 \- positive를 negative로 잘못 판단 \- FN ▼ \- 암 판정 / 환자를 정상이라고 함 >> FN 낮추는데 집중 >> 재현율 중요정밀도가 더 중요한 경우 \- negative를 positive로 잘못 판단 \- FP
.keys() : key값 조회 target_names: 예측하려는 값(class)을 가진 문자열 배열 > 컬럼명같은거 불러옴target: Label(출력데이터)data: Feature(입력변수)feature_names: 입력변수 각 항목의 이름 > 컬럼명같은거 불러옴
Train 데이터셋 : 훈련/학습Validation 데이터셋 : 검증Test 데이터셋 : 평가머신러닝 모델 파라미터 : 성능에 영향을 주는 값, 최적 성능 값 찾아내야함하이퍼파라미터(Hyper Parameter) : 사람이 직접 설정하는 파라미터 값파라미터(Parame
오차(실제 값과 예측값의 차)의 제곱의 평균from sklearn.metrics import mean_squared_error교차검증시 지정할 문자열: 'negmean_squared_error'$$MSE = \\frac{1}{n}\\sum{i=1}^{n}(y_i - \
정확도 (Accuracy)정밀도 (Precision)재현률 (Recall)F1점수 (F1 Score)PR Curve, AP scoreROC, AUC scoreMSE (Mean Squared Error)RMSE (Root Mean Squared Error)$R^2$ (결
학습이 잘 되도록 숫자로 처리데이터 전처리 단계에서제거/ 대체결측치 표현 값 정함 > 대체이상한 값 / 동떨어진 값범주형 : 이산적(연속적 X, 떨어져있음), 범주로 정해진거 \- 명목변수/비서열변수 - 성별, 혈액형 \- 순위변수/서열변수 - 성적, 직급, 만족도
from sklearn.svm import SVCSVM모델: 두 클래스 간의 거리를 가장 넓게 분리할 수있는 경계선을 찾는 것이 목표 = support vector간의 가장 넓은 margin을 가지는결정경계를 찾는다 (support vector: 경계찾는 기준/ m
주변의 데이터 중 가까운 k개의 데이터로 분류/예측K: 포인트의 개수를 지정하는 하이퍼파라미터분류: K개의 y중 다수의 class로 추론 회귀: K개의 y값 평균값으로 추론(K작으면 overfitting, K크면 underfitting)from sklearn.neig
질문해서 데이터 분류(yes/no) \- 분류: 불순도 낮추도록 \- 회귀: 오차가 적도록Root Node : 시작 nodeDecision Node (Intermediate Node): 중간 nodeLeaf Node(Terminal Node) : 마지막 단계(트리의
BoostingVoting여러모델들의 협업: 정확도가 낮은 모델을 만들어 학습시킨뒤 예측 오류는 그 다음 모델이 보완 > 이과정 반복 >> 오류를 줄이는 방향으로 학습DecisionTree 사용얕은 depth 트리 연결 > 오차 보정X, y 분리 > y의 평균 예측
각 featrue에 가중치(weight) 곱하고 편향(bias) 더해 결과 예측$$\\hat{yi} = w_1 x{i1} + w2 x{i2}... + w{p} x{ip} + b\\\\hat{y_i} = \\mathbf{w}^{T} \\cdot \\mathbf{X} $$