Classification - Decision Tree

이윤택·2022년 8월 1일
0

Data Science

목록 보기
3/11
post-thumbnail

Decision tree is a decision support tool that uses a tree-like model of decisions and their possible consequences, including chance event outcomes, resource costs, and utility. It is one way to display an algorithm that only contains conditional control statements.

정말 간단하게, 조건에 따라 데이터를 분류하는 모델이다

이미지 출처: https://lucy-the-marketer.kr/ko/growth/decision-tree-and-impurity/

특징

  • Decision Tree는 non-parametric 모델이다
  • Decesion Tree는 white-bot 모델이다 (모델이 어떻게 동작하는지 알 수 있다)
  • 대부분의 Decision Tree모델의 기반은 CART(Classification And Regression Tree)이다

CART(Classification And Regression Tree)

이미지 출처: https://scikit-learn.org/stable/modules/tree.html

  • 그림에서 보이듯이, CART는 Binary Tree이다
  • CART는 노드마다 feature 하나를 골라 최적의 기준으로 나눌 수 있게 기준을 정한다
  • 이 때의 최적이 되는 기준은 Gini criterion

Gini criterion : 불순도(Impurity). 즉, 불순한 정도 혹은 섞여있는 정도이다. 불순도가 제일 낮은 경우가 서로 제일 안 섞여 있는 경우이다. ( Gini Criterion이 0이 될 때가 깔끔하게 나뉘어있는 경우)

profile
데이터 엔지니어로 전향중인 백엔드 개발자입니다

0개의 댓글