Entropy Measure of Impurity

Heejin·2023년 5월 30일
0

Bigdata Analytics Glossary

목록 보기
17/22

Entropy measure of impurity(불순도의 엔트로피 측정)는 데이터 집합의 불순도를 측정하는 방법 중 하나이다. 엔트로피는 정보 이론에서 유래한 개념으로, 데이터의 혼잡도를 나타내는 지표이다.

엔트로피는 주어진 데이터 집합의 클래스 분포에 따라 얼마나 불균형한지를 나타낸다. 엔트로피 값이 높을수록 데이터 집합이 더 불순하다는 것을 의미한다. 반대로, 엔트로피 값이 낮을수록 데이터 집합이 순수해진다고 볼 수 있다.

엔트로피는 다음과 같은 수식으로 계산된다.

Entropy = - (p_1 log2(p_1) + p_2 log2(p_2) + ... + p_k * log2(p_k))

여기서 p_1, p_2, ..., p_k는 각 클래스의 비율을 의미한다. 엔트로피를 계산하기 위해 각 클래스의 비율을 사용하고, 이를 로그 함수에 적용한 후, 음의 부호를 취한 값을 모두 더한다.

의사 결정 트리 알고리즘에서는 엔트로피를 사용하여 노드의 불순도를 측정하고, 엔트로피를 최소화하는 방향으로 트리를 구성한다. 엔트로피가 낮아질수록 노드는 더 순수해지며, 최종적으로 순수한 리프 노드를 만들어 분류 작업을 수행한다.

0개의 댓글