결정 트리와 앙상블 기법

조권휘·2022년 7월 15일

Codeit_머신러닝

목록 보기

11/13

트리 : 한 지점에서 시작해서 점점 넓게 퍼져 나가는 형태

노드 : 하나하나의 박스

root 노드 : 제일 위에 있는 질문 노드

leaf 노드 : 트리의 가장 끝에 있는 노드

깊이 : 트리의 층

분류 노드
- 데이터 셋이 순수할수록(지니 불순도가 낮을수록) 좋다.
- ex) 모든 데이터는 모두 독감이다.
질문 노드
- 나뉘어진 데이터 셋이 순수할수록(지니 불순도가 낮을수록) 좋다.
- 나뉘어진 노드들의 지니 불순도를 평균을 내서 질문 노드의 지니 불순도를 나타낸다.
- ex) 고열이 있나요? / 몸살이 있나요?
root 노드는 가장 많은 데이터를 처음으로 접하기 때문에 가장 좋은 노드를 고르는 것이 좋다.
분류 노드, 질문 노드의 지니 불순도를 각자 계산하여 이 중 가장 낮은 것을 root노드의 질문으로 고른다.

노드 중요도(Node Importance)

계산하려는 노드까지 오는 학습 데이터 수랑 불순도를 곱한 뒤, 총 데이터 수로 나눠준다.

특정 노드에서 이 노드 전후로 불순도가 얼마나 낮아졌는지 확인할 수 있다.

본 포스트는 코드잇 강의를 공부하며 정리한 내용입니다! 자세한 설명은 "코드잇 머신러닝 강의를 참고해주세요!

안녕하세요 :) Data/AI 공부 중인 한국외대 컴퓨터공학부 조권휘입니다.