GINI Impurity

Heejin·2023년 5월 30일
0

Bigdata Analytics Glossary

목록 보기
16/22

GINI 불순도(GINI impurity)는 데이터 집합의 불순도를 측정하는 방법 중 하나이다. 이는 의사 결정 트리(Decision Tree) 알고리즘과 관련이 있으며, 분류 문제에서 노드의 순수성을 측정하는 데 사용된다.

GINI 불순도는 0부터 1까지의 값을 가지며, 0은 노드 내에 순수한 클래스(하나의 클래스만 포함)가 있는 경우를 의미하고, 1은 노드에 여러 클래스가 균등하게 분포되어 있는 가장 불순한 상태를 의미한다. GINI 불순도는 각 클래스의 비율을 제곱하여 더한 다음, 1에서 그 값을 뺀 것으로 계산된다.

수식으로 나타내면 다음과 같다.

GINI impurity = 1 - (p_1^2 + p_2^2 + ... + p_k^2)

여기서 p_1, p_2, ..., p_k는 각 클래스의 비율을 의미한다. 노드에 있는 샘플들이 한 클래스에 속할 확률이 높을수록 GINI impurity는 낮아진다.

의사 결정 트리 알고리즘에서는 GINI impurity를 사용하여 각 노드의 불순도를 측정하고, 이를 최소화하는 방향으로 트리를 구성한다. GINI impurity는 트리의 분기점을 결정할 때 사용되며, 가장 불순도가 낮은 방향으로 데이터를 분할한다. 이를 통해 최종적으로 순수한 리프 노드(하나의 클래스만 포함)를 만들어 분류 작업을 수행한다.

1개의 댓글

comment-user-thumbnail
2023년 11월 19일

오류가 있는거 아닌가요??
0과 1이 가장 순수한 클래스를 가진 값이고, 1/2이 균등한 값이지 않나요??

답글 달기