지도학습 중에 앙상블(Ensemble)의 기본 알고리즘으로 사용하는 일반적인 ML 모델은 결정 트리이다. 앙상블은 예측성능이 떨어지는 알고리즘을 결합해 확률적 보완과 오류가 발생한 부분에 가중치를 계속 업데이트하면서 예측 성능을 향상시킨다. 이에 결정트리가 약한 학습기
파이썬 머신러닝 완벽가이드에서의 UCI 데이터 분석 내용이다.이번 데이콘에서 이와 비슷한 내용의 대회가 있었다.https://dacon.io/competitions/official/235689/overview/이번 내용을 학습하고 저 대회도 한번 공부해보려고
앙상블(Ensemble)이란 여러개의 분류기를 생성하고 예측값을 결합해서 보다 정확한 예측값을 도출하는 기법이다. 강한 ML모델 하나보다 약한 ML모델 학습기를 여러개 결합한 것이 더 성능이 좋다는 생각으로 만들어낸 기법이다.
부스팅은 여러개의 분류기가 순차적으로 학습하는데, 이전에 학습한 분류기가 예측이 틀린 데이터에 대해서 올바르게 예측할 수 있게 다음 분류기에게 가중치를 부여하면서 학습과 예측을 진행한다.부스팅의 대표적인 알고리즘은AdaBoostGradient Boost가 있다.AdaB
XGBoost를 가지고 위스콘신 유방암 데이터를 분석해보자.'malignant' 'benign'1 3570 212Name: target, dtype: int64(455, 30) (114, 30)파이썬 래퍼 XGBoost는 train, test 데이터 세트를