결정 트리 학습법

는는·2022년 11월 3일

python

목록 보기

6/19

결정 트리 학습이란?

어떤 항목에 대한 관측값과 목표값을 연결시켜주는 예측 모델로,
이는 통계학과 데이터 마이닝 기계 학습에서 사용하는 예측 모델링 방법 중 하나이다.
트리 모델 중 목표 변수가 유한한 수의 값을 가지는 것을 분류 트리라 한다.
이 트리 구조에서 잎(리프 노드)은 클래스 라벨을 나타내고 가지는 클래스 라벨과 관련있는 특징들의 논리곱을 나타낸다. 결정 트리 중 목표 변수가 연속하는 값, 일반적으로 실수를 가지는 것은 회귀 트리라 한다.

기본적으로 결정 트리는 결정에 다다르기 위해 예/아니오 질문을 이어 나가면서 학습합니다.

머신러닝 식으로 말하면
세 개의 특성 “날개가 있나요?”, “날 수 있나요?”, “지느러미가 있나요?”를 사용해 네 개의 클래스(매, 펭귄, 돌고래, 곰)를 구분하는 모델을 만든 것입니다. 이런 모델을 직접 만드는 대신 지도 학습 방식으로 데이터로부터 학습할 수 있습니다.

의사결정나무는 분류(classification)와 회귀(regression) 모두 가능합니다. 범주나 연속형 수치 모두 예측할 수 있습니다.

새로운 데이터가 특정 terminal node에 속한다는 정보를 확인한 뒤 해당 terminal node에서 가장 빈도가 높은 범주에 새로운 데이터를 분류하게 됩니다.

아무런 분기가 일어나지 않은 상태의 root node는 A입니다.

위에 예시 처럼 "날개가 있나요?”, “날 수 있나요?”, “지느러미가 있나요?" 와 같은 특성을 사용해 클래스를 구분했다고 보면,전체 데이터 A가 세 개의 부분집합으로 분할된 것 또한 알 수 있습니다.
D 특성을 갖고 있는 새로운 데이터가 주어졌을 때 의사결정나무는 D 집합을 대표할 수 있는 값(분류=최빈값, 회귀=평균)을 반환하는 방식으로 예측합니다.