의사결정 규칙을 나무(Tree) 구조로 나타내어 전체 자료를 몇 개의 소집단으로 분류하거나 예측하는 분석 방법이다.
연속형 변수를 비연속적인 값으로 취급하기 때문에 분리의 경계점 근방에서는 예측 오류가 클 가능성이 있는 단점이 있다.
해석이 용이한 이유는 계산 결과가 의사결정나무에 직접적으로 나타나기 때문이
의사결정나무는 주어진 입력값에 대하여 출력값을 예측하는 모형으로 분류나무와 회귀나무가 있다.
부모 마디 (Parent Node) | 주어진 마디의 상위에 있는 마디 |
자식 마디 (Child Node) | 하나의 마디로부터 분리되어 나간 2개 이상의 마디들 |
뿌리 마디(Root Node) | 시작되는 마디로 전체 자료를 포함 |
끝마디(Terminal Node) | 잎(Leaf) 노드라고도 불림 자식 마디가 없는 마디 |
중간 마디(Internal Node) | 부모 마디와 자식 마디가 모두 있는 마디 |
가지 (Branch) | 뿌리 마디로부터 끝마디 까지 연결된 마디들의 수 |
깊이 (Depth) | 뿌리 마디부터 끝마디까지의 중간 마디들의 수 |
장점
✔ 결과를 설명하기 용이하다
✔ 계산 결과가 의사결정나무에 직접적으로 나타나기 때문에 해석이 편리하다.
✔ 모형을 만드는 방법이 복잡하지 않다.
✔ 비모수적 방법이다.
✔ 대용량 데이터도 빠르게 만들 수 있다.
✔ 비정상 잡은 데이터에 대해서도 민감함 없이 분류할 수 있다.
✔ 설명변수나 목표변수에 수치형변수, 범주형변수 모두 사용 가능
단점
✔ 새로운 자료에 대한 과대적합이 발생할 가능성이 높다
✔ 분류 경계선 부근의 자료값에 대하여 오차가 크다
✔ 설명변수 간의 중요도를 판단하기 어렵다
카이제곱 통계량 | - 데이터의 분포와 사용자가 선택한 기대 또는 가정된 분포 사이의 차이를 나타내는 측정값 - (기대도수) = (열의 합계) x (합의 합계) / (전체합계) |
지니 지수(지니 인덱스) | - 노드의 불순도를 나타내는 값 - 지니지수의 값이 클수록 이질적이며 순수도가 낮다고 볼 수 있음 |
엔트로피 지수 | - 열역학에서 쓰는 개념으로 무질서 정도에 대한 측도 - 엔트로피 지수의 값이 클수록 순수도가 낮다고 볼 수 있음 - 엔트로피 지수가 가장 작은 예측변수와 이때의 최적 분리규칙에 따라 자식 마디를 형성함 |
알고리즘 | 이산형 목표변수 | 연속형 목표변수 |
---|---|---|
CHAID(다지분리), QUEST(이진분리) | 카이제곱 통계량 | 분산 분석(ANOVA)에서 F-통계량 |
CART(이진분리) | 지니지수 | 분산의 감소량 |
C4.5 & C5.0(다지분리) | 엔트로피 지수 | - |
CART (이진분할; Classification and Regression Tree)
C4.5 와 C5.0
CHAID(다지분할; CHi-squared Automatic Interaction Detection)
QUEST
편향(Bias)