좋은질문과 나쁜질문을 결정 짓는 기준이 Information Gain(정보획득)이다.
정보획득이 많다는 뜻은 질문으로 인해 나뉘는 데이터셋의 집단에 카테고리가 잘 분리된다는 의미다.
질문에 의해 왼쪽으로 분리된 집단은 A카테고리 많고, 오른쪽으로 분리된 집단은 B카테고리가 많아졌다
면, 정보획득이 높은 것이다.
정보획득을 계산하는 많은 방법들 중, Entropy와 Gini계수가 대표적이다.
그중 우선, Entropy만 알아도 충분하다.
불순도 = 정보획득?
데이터 집단에 서로 다른 카테고리가 골고루 뒤섞여 있으면 불순도는 높다고 본다.
데이터 집단에 하나의 카테고리만 존재하는 경우를 ‘불순도가 없다.’ 즉, ‘순도 100퍼센트
데이터집단’이라고 말한다.
즉, 엔트로피 = 주어진 데이터 집합의 혼잡도
정보 이득 지수 = 1 – 엔트로피 지수