Ch3 p.90에서 SGDClassifier를 이용한 이진분류가 나왔다. 그런데 SGDClassifier를 비롯하여 SGD에 대한 설명이 부족해서 더 공부해보려고 한다.SGD에 대해 다루기 전, 오차(/손실)와 오차함수(/손실함수), GD를 먼저 다뤄보려고 한다. (얘
Ch3 p.91에서 교차 검증을 하는 방법으로 (StratifiedKFold+추가 코드)와 cross_val_score, cross_val_predict에 대해 언급했는데, 각각의 기능과 차이에 대해 정리하고 싶었음scikit-learn의 cross validation
Ch3 p.92에서 cross_val_score로 데이터에서 5와 5가 아닌 데이터를 분류하는 코드를 작성한 뒤, 점수를 도출하였다. 5가 아닌 데이터를 뽑아내는 정확도가 각 fold마다 90% 이상이 나왔는데 그 이유는 단지 5가 전체 데이터의 10%에 해당하므로 5
끝나지 않는 Ch3, 행복하다Multiclass Classification에 대한 전체적인 구조, 내용, 그리고 지난번에 공부했던 confusion matrix와 관련하여 생긴 의문과 해결에 대해 다뤄보려고 한다.Binary Classification은 두 개의 클래스
Logistic Regression is commonly used to estimate the probability that an instance belongs to a particular class. If the estimated probablility is grea
선형 모델은 다음과 같이 weighted sum of input features에 constant인 bias term이 더해진 형태를 갖는다.$$y\_{pred}=\\theta_0+\\theta_1x_1+\\theta_2x_2+...+\\theta_nx_n$$$y\_{
앞에서는 선형적인 형태의 데이터에 선형 회귀 모델을 적용하였다.그렇다면 선형적이지 않은, 더 복잡한 형태의 데이터에 대해서는 어떻게 해야할까?\-> nonlinear data를 학습할 때에도 linear model을 사용할 수 있다. 대신, 데이터 feature들의 거
모델이 학습데이터에 너무 잘 맞으면 overfitting이 일어난다. overfitting은 모델의 일반화 성능을 낮추기 때문에 규제를 통해 줄여야 한다. regularization의 방법은 다양하다. 그 중 이번에 다룰 방법은 linear model에 적용할 수 있
여태까지 SVM은 분류에만 사용되는줄 알았는데, 책 첫문단 읽고 나서 SVM이 linear or nonlinear classification, regression, outlier detection에 모두 사용된다는 걸 알고 조금 충격받았다,,그림으로 알아보자. 왼쪽 그
SVM을 공부하던 중 모델을 학습하기 전에 feature scaling을 해야한다는 이야기가 있었음. 내가 아는 바로는 feature scaling 방법으로 normalization과 standardization이 있는데, 왜 여기서 후자의 방법을 택하는지 궁금했음.
Decision Tree도 분류만 되는 줄 알았더니 분류랑 회귀 둘다 되는 애였네 1) Training iris dataset에서 두 피처(petal length, petal width)를 이용하여 분류 모델을 학습하고 시각화한 결과이다. 데이터는 depth=0인 r
"머신러닝은 규칙을 일일이 프로그래밍하지 않아도 자동으로 데이터에서 규칙을 학습하는 알고리즘을 연구하는 분야입니다."출처: 혼자 공부하는 머신러닝+딥러닝\-> 여태까지 머신러닝에 관한 여러 정의와 표현들을 봤지만 이거 만큼 마음에 와닿았던 건 없었다!규칙이 길고 복잡해
내 첫 머신러닝 프로젝트는 작년 여름에 했던 LG Aimers였다. 이때는 데이터 분석이 뭔지도 몰랐고, 머신러닝이 뭔지는 더더욱 몰랐다. 그래서 같은 팀의 언니들과 친구 덕분에 결과물을 만들 수 있었다. 이 이후에 데이터 분석 스터디, 딥러닝 스터디 등 많은 스터디와
https://velog.io/@shihyunlim/ML-Cross-Validation https://velog.io/@shihyunlim/ML-PR-Curve-ROC-curve p.148에서 StratifiedKFold와 반복문을 이용하여 sklearn의 cross
https://velog.io/@shihyunlim/ML-Multiclass-Classification이전에 공부했던 내용이라 이번에는 코드 위주로 공부하려 함Multiclass classifier(다중 분류기) 또는 Multinomial classifier(
이전 글과 내용이 비슷한 것 같지만 다름ㅎㅎ 둘다 보기https://velog.io/@shihyunlim/ML-SGD최적화 알고리즘. 비용 함수를 최소화하기 위해 반복해서 파라미터를 조정가장 가파른 길을 따라 내려가는 것2차원 공간에서 경사 하강법의 이동(영상
CH4에서 모델의 일반화 성능을 판단(overfitting과 underfitting 판단)하기 위해 learning curve들을 그렸음. 이후 일반화 오차와 bias-variance trade-off에 대해 언급했는데 설명이 부족하다고 느껴 찾아봄과녁판의 가운데는 정
https://velog.io/@shihyunlim/ML-Regularization-no6or2cr이전에 규제에 대해 공부한 적이 있어서 내용 수정 및 추가만 하려고 했는데 수정할 게 좀 많아 보여서 새로 정리하려고 함^-^L2 norm과 L1 norm의 정의
결정선은 도로 경계에 위치한 샘플에 의해 결정되며 이런 샘플들을 support vector라고 한다.이때 축이 되는 특성들의 스케일에 민감하기 때문에 StandardScaler를 이용하여 특성의 스케일을 조정하면 결정 경계가 더 정확하게 만들어진다.hard margin
앙상블: 일련의 예측기(한 개 아님!)앙상블 학습: 일련의 예측기로부터 예측을 수집하여 더 나은 예측을 하는 것앙상블 메소드: 앙상블 학습 알고리즘hard voting(직접 투표): 여러 분류기의 예측을 집계하여, 가장 많이 나온 예측을 최종 예측으로 함(다수결 표)각