성장 단계 : 분석 목적과 자료 구조에 따라 적절한 분리 기준과 정지 규칙을 설정해 의사결정나무를 성장시키는 단계
분리기준 : 데이터를 분류하는 방법으로 불순도를 사용
불순도 : 자료들의 범주가 한 그룹 안에 얼마나 섞여 있는지 나타내는 측도
하나의 범주로만 구성 -> 불순도 작음, 다양한 범주의 데이터로 구성 -> 불순도 값 큼.
종속변수가 범주형
종속변수가 연속형
의사결정나무는 주로 분류트리를 많이 사용. 조속변수가 연속형일 경우 예측 목적으로 회귀트리가 사용
지니니수 - 불순도를 나타내는 값, 낮을수록 좋음
엔트로피 지수 - 순수도를 나타내는 값, 높을수록 좋음
정지규칙 : 분석자가 설정한 특정한 조건하에 현재의 마디에서 더 이상 분리가 일어나지 않고 현재의 마디가 끝마디가 되도록 정지시킨다.
분리 기준