AI 부트캠프 31일차

DAYOUNG LEE·2021년 6월 14일
0

S2-WEEK2

트리 모델과, 트리 모델을 기반으로 한 최신 앙상블 모델까지 다룸

주요 라이브러리

  • category_encoders
  • graphviz
  • numpy
  • pandas
  • scikit-learn

학습목표

Warm-up : StatQuest: Decision Trees

  • classficication(분류, 트리모델에서의 노드)는
    categories 일수도numeric 일수도 있다

결정트리를 생성할때 분기는 어떻게 정해질까요?

Warm-up : Let’s Write a Decision Tree Classifier from Scratch

Information Gain

Gini Impurity

Decision Trees

데이터가 가진 특성값 기준으로 샘플들을 분류해가는 모델
앙상블 모델의 기초가 되는 모델

  • 장점
    다른 모델보다 성능이 떨어지지만, (선형회귀처럼) 특성을 해석하기 좋음
    회귀, 분류 문제에 모두 적용 가능
  • 단점
    샘플에 민감해서 트리구조가 잘 바뀜 -> 해석도 바뀜

Decision Trees

사이킷런 파이프라인(pipelines)

encoder, imputer, scaler 을 사용하는 머신러닝 프로세스
전처리 프로세스와 학습 프로세스를 간단하고 명료하게 (중복코드 최소화해서) 구성

0개의 댓글