Contents1. 결정 트리 2. 지니 불순도 3. 엔트로피 불순도 4. 가지치기
결정 트리는 지도 분류 학습에서 가장 유용하게 사용되고 있는
기법 중 하나 입니다.
또한 결정 트리의 가장 큰 특징 중 하나가 바로
설명 가능한 모델이라는 것입니다.
이름 답게 결정 트리는 적절한 분할 기준으로 부분 집합을 나눕니다.
이 과정을 재귀적으로 반복하여 학습합니다.
아래 그림은 한국어 위키에 있는 타이타닉호 탑승객의 생존 여부를
나타내는 결정 트리를 시각화 한것입니다.
맨 위에 있는 노드를 루트 노드(root node) 라고 부르고
맨 아래 끝에 달린 노드를 리프 노드(leaf node) 라고 부릅니다.
결정 트리는 일반적인 비용 함수를 사용하지 않고 불순도를 사용합니다.
결정 트리는 이 불순도를 최소화 하는 방향으로 학습하게 됩니다.
지니 불순도를 구하는 방법은 다음과 같습니다.
여기서 는 i 번째 클래스 비율입니다.
따라서 지니 불순도는 1 - ( i 번째 클래스 비율의 제곱들의 합) 입니다.
지니 불순도는 엔트로피 불순도와는 다르게
한쪽 가지로 고립시키는 경향을 가집니다.
지니 불순도와 함께 결정 트리에서 자주 사용하는 불순도인 엔트로피 불순도는
지니 보다는 비교적 균형잡힌 트리를 만들수 있다는 특징이 있습니다.
엔트로피 불순도를 구하는 방법은 다음과 같습니다.
여기서 는 i 번째 클래스의 비율입니다.
결정 트리 또한 모델의 일반화를 위해서 가지치기 라고 불리는 것을 합니다.
트리의 깊이 등을 조절해 결정 트리의 가지치기를 할 수 있습니다.
가지치기 또한 하이퍼파라미터를 적절하게 입력해 줘야 합니다.
트리의 깊이를 너무 제한하게 되면 모델의 정확도가 떨어질수도 있고
트리의 깊이제한을 적게 해버려도 모델의 일반화가 잘 안될수 도 있습니다.