Binary classification
예시1) 이메일이 스팸인지 아닌지
예시2) 은행 소비자인지 아닌지
Multi-class Classification
여러 클래스 중 하나를 택하는
데이터가 주어졌을 때, 연속적인 질문에 따라 연속적 분기가 발생
예시의 경우 3번의 질문을 통해 결과값 분류
root node: 첫번째 분기
interior node: 가운데 분기
leaf node(=terminal node): 마지막 분기
subtree: 트리 내부의 트리
parent node: subtree 상위 노드
child node: subtree 하위노드
Entropy?
무질서라는 뜻. 불순도를 측정하는 방법
첫번째는 불순도, 즉 entropy가 0
마지막은 모두 다르기 때문에 entropy가 가장 높음
공식은 위와 같음.
Decision Tree = Information based M/L 이라고 한다. Decision Tree는 entropy가 낮아지는 곳으로 진행을 한다.
정보량(degree of surprisal, 놀람의 정도)
더 큰 덩어리에 더 큰 중요도를 부여해준다는 의미가 weighted Entropy
가중치, 즉 weight에 따라 노드의 데이터
분기 이전의 불순도와 분기 이후의 불순도의 차이(중요)
엔트로피는 불순도를 측정하는 기준이다. 라는 걸 기억하자.
**I · G**
: H(분기 이전) - H’(분기 이후)
엔트로피: 불순도 / 인포메이션 게인: 분기 이전과 이후의 불순도 차이
가장 효율적인 feature을 설정
Information Gain: 분기 이전과 이후의 불순도 차이