지도학습에서는 예측할 타겟을 먼저 정한다.
이산형, 순서형, 범주형 타겟 특성도 회귀문제 또는 다중클래스분류 문제로도 볼 수 있다.
회귀, 다중클래스분류 문제들도 이진분류 문제로 바꿀 수 있다.
여러 특성을 다루다 보면,
정보의 누수가 일어나 과적합을 일으키고 실제 테스트 데이터에서 성능이 급격하게 떨어지는 결과를 확인할 수 있다.
## 어떤 트리가 만들어졌는지 그려봅시다
import graphviz
from sklearn.tree import export_graphviz
tree = pipe.named_steps['decisiontreeclassifier']
dot_data = export_graphviz(
tree,
feature_names=X_train.columns,
class_names=y_train.unique().astype(str),
filled=True,
proportion=True
)
graphviz.Source(dot_data)
r2
, mae
, rmse
, mse
정확도
, f1
, recall
, precision
, roc_auc_score
타겟 특성의 클래스 비율이 차이가 많이 날 경우가 많다.
class_weight
와 같은 클래스의 밸런스를 맞추는 파라미터를 가지고 있다.회귀분석에서는 타겟 분포가 비대칭 형태인지 확인
선형 회귀 모델은
특히 타겟변수가 왜곡된 형태의 분포( skewed )일 경우 예측 성능에 부정적인 영향을 미친다.
Q . 이상치가 있나요?
A . 이상치 제거Q . 로그변환( Log-Transform )은 언제 사용하나요?
A .타겟이 right-skewed 상태라면, 비대칭 분포형태를 정규분포형태로 변환시켜준다.