moderate 부분은 비워져 있다는 걸 알 수 있을 것이다.
상위 분기인 SLOPE를 보면 Ch2 Co1이기 때문에 다수가 차지하는 Ch가 moderate에 들어가는 것이다. 더미데이터로 이해하면 될듯?
IG: 분기 이전과 이후의 불순도를 측정하는 것
하지만 만능은 아니기에 이를 극복하기 위해 Information Gain Ratio, 즉 IGR가 필요하다
Windy feature로 한다면 IG는 0.5568
With whom으로 한다면 IG는 0.6813
IG가 높다면 같은 색 끼리 뭉치는 것이 가장 높다. with whom은 파랑 까지 다 끼리 나누기 때문에 IG가 높을 수밖에 없다. 단순히 잘게 쪼개지는 건 아니라는 거임.
IG가 높다고 마냥 좋은 것이 아니다.
💡 [Windy] T : 6 / F : 4Intrinsic Value = IV라는 값으로 나누어줘야 한다.
모델을 선정할 때 올바른 의사결정을 할 수 있다.
엔트로피 → IG / IGR 을 구함
Gini Index → : 1 - 시그마 p**2
1/5 확률을 n회차 반복
경우의 수를 나타낸다면 이렇게 나올 수 있음
각 컬러가 같아지는 경우의 수는 위와 같음
각 축의 길이를 1이라고 설정한다면, 모든 경우의 수는 1. 지니인덱스는
12 - (2/52 + 2/52 + 1/52)
모든 클래스가 같은 경우일 때 1 - 1/k 로 계산할 수 있다.
1 - (1/4^2 + 1/4^2 + 1/4^2+ 1/4^2)
IG / 지니인덱스 시각화
IGR 시각화
결과값이 좋다고 아직은 얘기할 수 없다
[Classification Decision Tree]
[Impuruty Metric]
[IG / IGR]