Handle missing value, non-numeric values, data leakage, and more
시작합니다.
Introduction
여기서는 이런 내용을 다룰 거라고 함
- 실제 데이터셋에서 흔히 볼 수 있는 데이터 유형(결측값, 범주형(categorical) 변수)을 다룸
- pipeline을 설계하여 머신 러닝 코드의 품질을 개선할 수 있음
- 모델 유효성 검사에 향상된 기술을 사용함(cross=validation)
- 캐글 competition)에서 우승하는 데에 널리 사용되는 최첨단 구축모델(XGBoost)을 사용함
- data science mistakes(data leakage)를 방지함
Prerequisites
아래 항목들에 대해서 알아야 함
Model Validation, Random Forests, Underfitting and Overfitting