데이터 이상치를 어떻게 처리할 것인가?
- 개인적으로 이 부분이 가장 어려운 부분이었다.
- box plot기준 75%의 값을 확인하고, 그 값보다 튀는 값들은 삭제 해주는 과정을 거쳤다. -> 이 과정은 kaggle score에서 80점을 얻었다.
- box plot기준 75%값을 확인하고 중위값을 확인한 뒤, 결측치의 값은 중위값으로 대체했다. -> 이 과정은 kaggle score에서 85점을 얻었다.
- box plot외에도 수치형 데이터끼리 연관이 있는 데이터를 파악해, 그 값과 유사한 그래프 분포를 보이면, 이상치는 연관이 있는 데이터에서 해당 분포를 가진 데이터 값으로 대체해주었다. -> 이 과정은 kaggle score에서 90점을 얻었다.
Basic모델, 하이퍼파라미터 튜닝을 진행하였다.
- logistic regression, Random Forest classifier, Xgboost, LightGBM을 Basic model로 활용하였다.
- 각각의 성능을 비교한 결과, lightGBM의 성능이 높게 나온 것을 확인할 수 있었다.
- 이 후, basic model의 성능을 voting하여 voting값을 추출해보니 LightGBM보다 성능이 조금 떨어진 것을 확인할 수 있었다.
- 이를 바탕으로, GridSearchCV를 활용하여 하이퍼파라미터 튜닝을 시도하였다.
- learning rate, n_estimators, max_depth, min_child_weight, subsample, colsample_bytree 7개의 파라미터의 범위를 주고 찾는 방식으로 진행하였다.
- 변수 중요도를 시각화하고 최종 예측 모델 성능 평가 지표 시각화를 진행하였다.
kaggle aivle school mini project 2차 competition에서 14등을 기록하였다.