[Section2 Sprint2] Tree Based Model

Kyungtaek Oh·2022년 7월 11일

AI Bootcamp

목록 보기

6/15

pipe.named_steps['randomforestclassifier'].oob_score_

원 핫 인코더와 다르게 cardinality가 높은 특성을 각각의 특성으로 바꾸지 않고 그대로 유지 하는 것이다. 다만 숫자형으로 변환한다.
이때 장점은 가치가 높은 특성을 살릴 수 있어서 복잡하지 않게 구현할 수 있다는 것이고 단점은 숫자형으로 변하기 때문에 크고 작음을 인지하는 특성이 된다.
결정트리 및 랜덤 포레스트에서 순서형(ordinaly) 특성을 사용 할 수 있는 이유는 숫자의 크기 여부가 관계가 없기 때문이다.
즉, 특성의 중요도가 높을 수록 그리고 cardinality가 높을 수록 one-hot encoder를 사용하는 것을 지양해야 하며 ordinal encoder를 사용하여 특성의 효율을 올려 모델을 만드는 것이 좋다.

1. 랜덤 포레스트에서 학습되는 트리들은 배깅을 통해 만ㄷ르어진다. 각 기본트리에 사용되는 데이터가 랜덤으로 선택된다.
2. 각각 트리는 무작위로 선택된 특성들을 가지고 분기를 수행한다.

즉 랜덤성에서 과적합을 피할 수 있는 이유를 보여준다.

Studying for Data Analysis, Data Engineering & Data Science