[키워드]
- Random Forest
- Bagging ~ Bootstrapping & OOB-Error
- Ordinal Encoding
[학습내용]
- Ordinal Encoding
: 트리 모델에서는 원핫인코딩으로 변수가 늘어나고 범주가 많은 변수는 상위노드에서 중요변수가 분할될 때 선택할 가능성이 낮아지기 때문에 Ordinal Encoding을 사용하는 것이 더 나음
from category_encoders import OrdinalEncoder
- 트리앙상블모델 vs 결정트리모델
결정트리모델에 비해 트리앙상블모델은 랜덤성을 통해 과적합 방지
랜덤포레스트에서는 각 결정트리가 배깅을 통해 만들어짐 -> 데이터가 중복추출되므로 랜덤성 생김
각 트리는 분기에서 무작위로 선택된 특성을 선택함 -> 랜덤성 생김
from sklearn.ensemble import RandomForestClassifier
[찾아볼 내용]👀