Information Gain Ratio & Gini index

Pygmalion Dali·2023년 10월 13일
0
post-custom-banner

moderate 부분은 비워져 있다는 걸 알 수 있을 것이다.

상위 분기인 SLOPE를 보면 Ch2 Co1이기 때문에 다수가 차지하는 Ch가 moderate에 들어가는 것이다. 더미데이터로 이해하면 될듯?

Information Gain Ratio

IG: 분기 이전과 이후의 불순도를 측정하는 것

하지만 만능은 아니기에 이를 극복하기 위해 Information Gain Ratio, 즉 IGR가 필요하다

Windy feature로 한다면 IG는 0.5568

With whom으로 한다면 IG는 0.6813

IG가 높다면 같은 색 끼리 뭉치는 것이 가장 높다. with whom은 파랑 까지 다 끼리 나누기 때문에 IG가 높을 수밖에 없다. 단순히 잘게 쪼개지는 건 아니라는 거임.

IG가 높다고 마냥 좋은 것이 아니다.

💡 [Windy] T : 6 / F : 4
[With whom] T1 ~ T8: 1 T9: 2

Information Gain Ratio = IG / IV

Intrinsic Value = IV라는 값으로 나누어줘야 한다.

Gini Index

IG vs. IGR

모델을 선정할 때 올바른 의사결정을 할 수 있다.

Gini index

엔트로피 → IG / IGR 을 구함

Gini Index → : 1 - 시그마 p**2

1/5 확률을 n회차 반복

경우의 수를 나타낸다면 이렇게 나올 수 있음

각 컬러가 같아지는 경우의 수는 위와 같음

각 축의 길이를 1이라고 설정한다면, 모든 경우의 수는 1. 지니인덱스는

12 - (2/52 + 2/52 + 1/52)

모든 클래스가 같은 경우일 때 1 - 1/k 로 계산할 수 있다.

1 - (1/4^2 + 1/4^2 + 1/4^2+ 1/4^2)

IG / 지니인덱스 시각화

IGR 시각화

결과값이 좋다고 아직은 얘기할 수 없다

[Classification Decision Tree]

  • Categorical Descriptive feature
  • Categorical taget feature

[Impuruty Metric]

  • Entropy
  • Gini index

[IG / IGR]

post-custom-banner

0개의 댓글