결정 트리

Lia·2021년 8월 29일
0

AI

목록 보기
6/11
Contents
1. 결정 트리
2. 지니 불순도
3. 엔트로피 불순도
4. 가지치기

# 01 - 결정 트리

결정 트리는 지도 분류 학습에서 가장 유용하게 사용되고 있는
기법 중 하나 입니다.

또한 결정 트리의 가장 큰 특징 중 하나가 바로
설명 가능한 모델이라는 것입니다.

이름 답게 결정 트리는 적절한 분할 기준으로 부분 집합을 나눕니다.
이 과정을 재귀적으로 반복하여 학습합니다.

아래 그림은 한국어 위키에 있는 타이타닉호 탑승객의 생존 여부를
나타내는 결정 트리를 시각화 한것입니다.

맨 위에 있는 노드를 루트 노드(root node) 라고 부르고
맨 아래 끝에 달린 노드를 리프 노드(leaf node) 라고 부릅니다.


# 02 - 지니 불순도

결정 트리는 일반적인 비용 함수를 사용하지 않고 불순도를 사용합니다.
결정 트리는 이 불순도를 최소화 하는 방향으로 학습하게 됩니다.
지니 불순도를 구하는 방법은 다음과 같습니다.

1i=1mfi21 - \sum_{i=1}^m f_{i}^2

여기서 fif_{i}i 번째 클래스 비율입니다.
따라서 지니 불순도는 1 - ( i 번째 클래스 비율의 제곱들의 합) 입니다.

지니 불순도는 엔트로피 불순도와는 다르게
한쪽 가지로 고립시키는 경향을 가집니다.


# 03 - 엔트로피 불순도

지니 불순도와 함께 결정 트리에서 자주 사용하는 불순도인 엔트로피 불순도
지니 보다는 비교적 균형잡힌 트리를 만들수 있다는 특징이 있습니다.

엔트로피 불순도를 구하는 방법은 다음과 같습니다.

i=1kpi  log2pi-\sum_{i=1}^k p_{i}\;log_{2} p_{i}

여기서 pip_{i}i 번째 클래스의 비율입니다.


# 04 - 가지치기

결정 트리 또한 모델의 일반화를 위해서 가지치기 라고 불리는 것을 합니다.
트리의 깊이 등을 조절해 결정 트리의 가지치기를 할 수 있습니다.

가지치기 또한 하이퍼파라미터를 적절하게 입력해 줘야 합니다.
트리의 깊이를 너무 제한하게 되면 모델의 정확도가 떨어질수도 있고
트리의 깊이제한을 적게 해버려도 모델의 일반화가 잘 안될수 도 있습니다.

profile
하고싶은게 많아요

0개의 댓글