트리 형태로 의사결정 지식을 표현한 것
모든 데이터를 포함한 하나의 노드로 구성된 트리에서 시작
반복적인 노드 분할과정
분할 속성의 결정
엔트로피 특성: 섞인 정도(불순도)가 클 수록 큰 값
정보 이득 : 정보 이득이 클 수록 우수한 분할 속성
학습 데이터의 예
부류정보가 있는 데이터
엔트로피 계산
데이터 집합 분할과 정보 이득
정보이득 척도의 단점
개선 척도
정보이득비 척도
지니 지수: 데이터 집합에 대한 Gini 값(i,j는 부류를 나타냄)
- 속성 A에 대한 지니 지수값 가중평균
- 지니지수이득
분할속성 평가 척도 비교