S2-WEEK2
트리 모델과, 트리 모델을 기반으로 한 최신 앙상블 모델까지 다룸
주요 라이브러리
- category_encoders
- graphviz
- numpy
- pandas
- scikit-learn
학습목표
- classficication(분류, 트리모델에서의 노드)는
categories 일수도numeric 일수도 있다
결정트리를 생성할때 분기는 어떻게 정해질까요?
Gini Impurity
Decision Trees
데이터가 가진 특성값 기준으로 샘플들을 분류해가는 모델
앙상블 모델의 기초가 되는 모델
- 장점
다른 모델보다 성능이 떨어지지만, (선형회귀처럼) 특성을 해석하기 좋음
회귀, 분류 문제에 모두 적용 가능
- 단점
샘플에 민감해서 트리구조가 잘 바뀜 -> 해석도 바뀜
Decision Trees
사이킷런 파이프라인(pipelines)
encoder, imputer, scaler 을 사용하는 머신러닝 프로세스
전처리 프로세스와 학습 프로세스를 간단하고 명료하게 (중복코드 최소화해서) 구성