출처: 코리 웨이드.(2022). XGBoost와 사이킷런을 활용한 그레이디언트 부스팅. 서울:한빛미디어
XGBoost는 Kaggle 대회에서 압도적인 성능으로 인기가 많아짐
XGBoost = Extreme Gradient Boosting
머신러닝은 "컴퓨터가 데이터를 이용해 학습하는 능력"
샘플과 특성으로 이루어진 데이터가 필요함
데이터 랭글링: 다양한 데이터 전처리 단계를 포함하는 광범위한 용어
df[df.isna().any(axis=1)
df[column].fillna(~~, inplace=True)
pd.get_dummies(df)
머신러닝 알고리즘 목표는 "하나 이상의 특성을 가진 입력 데이터를 사용해 하나의 출력 값을 예측하는 것"
회귀 모델
1. Linear Regression
2. XGBoost Regressor (XGBRegressor)
분류 모델
1. Logistic Regression
2. XGBoost Classifier (XGBClassifier)
교차 검증: Train/Validation 분할에 따라 점수에 차이가 나는 문제를 해결하는 방법 (Using K-Fold cross-validation)
회귀 / 분류 모델 모두 XGBoost가 좋은 성능을 보임