머신러닝 label encoder, 하이퍼파라미터 튜닝 등 - 4월 11일

조준수·2023년 4월 18일

crosstab
pd.crosstab(titanic["pclass"], titanic["survived"], margins=True)
FacetGrid
grid = sns.FacetGrid(titanic, row="pclass", col="sex", height=4, aspect=2)
grid.map(plt.hist, "age", alpha=0.8, bins=20)
grid.add_legend();
plotly.express
import plotly.express as px
fig = px.histogram(titanic, x="age")
fig.show();
cut
pd.cut(titanic["age"], bins=[0,7,15,30,60,100], include_lowest=True, labels=["baby", "teen", "young", "adult", "old"])

하이퍼파라미터 튜닝
모델의 성능을 확보하기 위해 조절하는 설정 값
예시
red_url = "https://raw.githubusercontent.com/PinkWink/ML_tutorial/master/dataset/winequality-red.csv"
white_url = "https://raw.githubusercontent.com/PinkWink/ML_tutorial/master/dataset/winequality-white.csv"

red_wine = pd.read_csv(red_url, sep=";")
white_wine = pd.read_csv(white_url, sep=";")

red_wine["color"] = 1.
white_wine["color"] = 0.

wine = pd.concat([red_wine, white_wine])
wine["taste"] = [1. if grade>5 else 0. for grade in wine["quality"]]

X = wine.drop(["taste", "quality"], axis=1)
y = wine["taste"]

from sklearn.model_selection import GridSearchCV
from sklearn.tree import DecisionTreeClassifier

params = {"max_depth":[2, 4, 7, 10]}

wine_tree = DecisionTreeClassifier(max_depth=2, random_state=13)

grid_search = GridSearchCV(estimator=wine_tree,
param_grid=params, cv=5)
grid_search.fit(X, y)
확인
import pprint

pp = pprint.PrettyPrinter(indent=4)
pp.pprint(gridsearch.cv_results)
최적의 성능을 가진 모델은?
gridsearch.best_estimator
gridsearch.best_score
gridsearch.best_params

모델 평가의 개념
(1) 회귀모델들은 실제 값과의 에러치를 가지고 계산
(2) 분류 모델의 평가 항목은 정확도, 오차행렬, 정밀도, 재현율, F1 score, ROC AUC 등 많음

print(‘안녕하세요! 반갑습니다!’)