→ 나무가 거꾸로있는 모습과 비슷하다.
→ 레이블 인코딩, 원핫인코딩(많이 사용)
장단점 및 주요 매개변수(Hyperparameter)
장점
-만들어진 모델을 쉽게 시각화 할 수 있어 이해하기 쉽다. (white box model)
-각 특성이 개별 처리되기 떄문에 데이터 스케일에 영향을 받지 않아 특성의 정규화나 표준화가 필요 없다.
-트리 구성 시 각 특성의 중요도를 계산하기 때문에 특성 선택(Feature selection)에 활용될 수 있다.
단점
-훈련데이터 범위 밖의 포인트는 예측 할 수 없다. (ex : 시계열 데이터)
-가지치기를 사용함에도 불구하고 과대적합되는 경향이 있어 일반화 성능이 좋지 않다.
→ 테스트 세트에 맞게 학습 될 수 있다.
▼
cross-validation 장/단점
(단점)