chap01 Machine Learning이란
: 명시적으로 프로그래밍하지 않고도 컴퓨터(머신)에 학습할 수 있는 능력을 부여하는 것
데이터 관찰
from sklearn.datasets import load_iris
iris = load_iris()
Decision Tree
- 분할 기준 (split criterion)
- 정보 획득 (information gain)
: 정보의 가치를 반환하는 데 발생하는 사전의 확률이 작을수록 정보의 가치는 커진다
- 정보 이득: 어떤 속성을 선택함으로 인해 데이터를 더 잘 구분하게 되는 것
scikit learn
데이터 나누기: 과적합
데이터 나누기: 데이터 나누기
데이터 나누기: zip과 언패킹
chap02 ML workflow
타이타닉 생존자 분석
개요
EDA
머신러닝 모델 구축
chap03 Preprocessing
encoder and scaler
label_encoer
min-max scaler
standard scaler
robust scaler
Decision Tree를 이용한 와인데이터 분석
wine
레드와인 화이트와인 분류기
데이터 전처리
맛의 이진 분류
Pipeline
하이퍼파라미터 튜닝 - 교차 검증
하이퍼파라미터 튜닝
chap04 Model Evaluation
모델 평가
모델 평가의 개념
ROC와 AUC
ROC 커브 그리기
수학의 기초: 함수
1
2
3
4
box plot
chap05 Linear Regression
Basic Regression
회귀
OLS
통계적 회귀
Cost Function
손으로 이해하는 cost function
cost function과 gradient descent
Boston 집값 예측
chap06 Logistic Regression
Logistic Regression
PMA 인디언 당뇨병 예측
정밀도와 재현율의 트레이드 오프
앙상블 기법
HAR 데이터
HAR 데이터 Decision Tree 적용
HAR 데이터 Random Forest 적용
HAR 데이터 중요 특성 추출
chap07 Boosting Algorithm
kNN
GBM, UGBoost, LGBM
credit card fraud detection
데이터 읽고 관찰하기
한 걸음 전진
두 번째 도전
세 번째 도전
네 번째 도전
chap08 NLP (Natural Language Processing)
chap09 PCA (Principal Component Ananlysis)
chap10 Recommender System