C 5.0알고리즘을이용한다.
CART, CHEAD, QUEST 등 여러 알고리즘이 존재함
이진분류문제(Binary classification)을 확장해 다지분류문제(Mulyiclass classification)
속성들 :


동질성(속성)적인 개체들만 모으는것 -> 순수하다
나무를 분류하는 속성에 따라 나무의 크기가 달라짐


IG (parent, children) =
entropy(parent)−[p(c1)×entropy(c1)+p(c2)×entropy(c2) +…]

엔트로피(정보의 불순도)를 많이 낮춰야 함




사례 : 잔디깎이 기계


가능한 동질도를 높게 할 수있도록 분리하는 것을 목표로 함


이진분류 분제
2개의 클래스
우량/불량 등
가장좋은분리기준은각각의잎(node)에하나의클래스에해당하는 데이터들이모이도록분류하도록하는것
하나의클래스-> “순수하다”
순수도(purity), 불순도(impurity)
이를 통래 과대적합 문제를 해결할 수 있다.
