12주: 머신러닝

daye·2023년 5월 17일

chap01 Machine Learning이란

: 명시적으로 프로그래밍하지 않고도 컴퓨터(머신)에 학습할 수 있는 능력을 부여하는 것

데이터 관찰

from sklearn.datasets import load_iris
iris = load_iris()

Decision Tree

  • 분할 기준 (split criterion)
  • 정보 획득 (information gain)
    : 정보의 가치를 반환하는 데 발생하는 사전의 확률이 작을수록 정보의 가치는 커진다
  • 정보 이득: 어떤 속성을 선택함으로 인해 데이터를 더 잘 구분하게 되는 것

scikit learn

데이터 나누기: 과적합

데이터 나누기: 데이터 나누기

데이터 나누기: zip과 언패킹

chap02 ML workflow

타이타닉 생존자 분석

개요

EDA

머신러닝 모델 구축

chap03 Preprocessing

encoder and scaler

label_encoer

min-max scaler

standard scaler

robust scaler

Decision Tree를 이용한 와인데이터 분석

wine

레드와인 화이트와인 분류기

데이터 전처리

맛의 이진 분류

Pipeline

하이퍼파라미터 튜닝 - 교차 검증

하이퍼파라미터 튜닝

chap04 Model Evaluation

모델 평가

모델 평가의 개념

ROC와 AUC

ROC 커브 그리기

수학의 기초: 함수

1

2

3

4

box plot

chap05 Linear Regression

Basic Regression

회귀

OLS

통계적 회귀

Cost Function

손으로 이해하는 cost function

cost function과 gradient descent

Boston 집값 예측

chap06 Logistic Regression

Logistic Regression

PMA 인디언 당뇨병 예측

정밀도와 재현율의 트레이드 오프

앙상블 기법

HAR 데이터

HAR 데이터 Decision Tree 적용

HAR 데이터 Random Forest 적용

HAR 데이터 중요 특성 추출

chap07 Boosting Algorithm

kNN

GBM, UGBoost, LGBM

credit card fraud detection

데이터 읽고 관찰하기

한 걸음 전진

두 번째 도전

세 번째 도전

네 번째 도전

chap08 NLP (Natural Language Processing)

chap09 PCA (Principal Component Ananlysis)

chap10 Recommender System

0개의 댓글