의사결정나무 Decision Tree

: ) YOUNG·2021년 11월 14일
3

빅분기

목록 보기
3/20
post-thumbnail

의사결정나무

의사결정나무의 개념

  • 의사결정 규칙을 나무(Tree) 구조로 나타내어 전체 자료를 몇 개의 소집단으로 분류하거나 예측하는 분석 방법이다.

  • 연속형 변수를 비연속적인 값으로 취급하기 때문에 분리의 경계점 근방에서는 예측 오류가 클 가능성이 있는 단점이 있다.

  • 해석이 용이한 이유는 계산 결과가 의사결정나무에 직접적으로 나타나기 때문이

  • 의사결정나무는 주어진 입력값에 대하여 출력값을 예측하는 모형으로 분류나무와 회귀나무가 있다.


의사결정나무의 구성요소

부모 마디 (Parent Node)주어진 마디의 상위에 있는 마디
자식 마디 (Child Node)하나의 마디로부터 분리되어 나간 2개 이상의 마디들
뿌리 마디(Root Node)시작되는 마디로 전체 자료를 포함
끝마디(Terminal Node)잎(Leaf) 노드라고도 불림 자식 마디가 없는 마디
중간 마디(Internal Node)부모 마디와 자식 마디가 모두 있는 마디
가지 (Branch)뿌리 마디로부터 끝마디 까지 연결된 마디들의 수
깊이 (Depth)뿌리 마디부터 끝마디까지의 중간 마디들의 수

의사결정나무의 해석력과 예측력

  • 해석력은 결과를 해석하고 설명 할 수 있는 정도이고, 예측력은 실제 예측의 정확도를 나타내는 정도이다.
  • 신용평가에서는 평가 결과 부적격 판정이 나온 경우 대상자에게 부적격이유를 설명해야 하기때문에 해석력에 집중한다.
  • 기대 집단의 사람들 중 가장 크고, 많은 반응을 보일 상품 구매 고객의 모집방안을 예측하고자 하는 경우에는 의사결정나무의 예측력에 집중한다.

의사결정나무의 특징 ★★★★★★(중요)

장점

결과를 설명하기 용이하다

계산 결과가 의사결정나무에 직접적으로 나타나기 때문에 해석이 편리하다.

모형을 만드는 방법이 복잡하지 않다.

비모수적 방법이다.

대용량 데이터도 빠르게 만들 수 있다.

비정상 잡은 데이터에 대해서도 민감함 없이 분류할 수 있다.

설명변수나 목표변수에 수치형변수, 범주형변수 모두 사용 가능


단점

새로운 자료에 대한 과대적합이 발생할 가능성이 높다

분류 경계선 부근의 자료값에 대하여 오차가 크다

설명변수 간의 중요도를 판단하기 어렵다


불순도의 여러가지 척도

카이제곱 통계량- 데이터의 분포와 사용자가 선택한 기대 또는 가정된 분포 사이의 차이를 나타내는 측정값
- (기대도수) = (열의 합계) x (합의 합계) / (전체합계)
지니 지수(지니 인덱스)- 노드의 불순도를 나타내는 값
- 지니지수의 값이 클수록 이질적이며 순수도가 낮다고 볼 수 있음
엔트로피 지수- 열역학에서 쓰는 개념으로 무질서 정도에 대한 측도
- 엔트로피 지수의 값이 클수록 순수도가 낮다고 볼 수 있음
- 엔트로피 지수가 가장 작은 예측변수와 이때의 최적 분리규칙에 따라 자식 마디를 형성함

의사결정나무의 알고리즘 ★★★★★★(중요)

알고리즘이산형 목표변수연속형 목표변수
CHAID(다지분리), QUEST(이진분리)카이제곱 통계량분산 분석(ANOVA)에서 F-통계량
CART(이진분리)지니지수분산의 감소량
C4.5 & C5.0(다지분리)엔트로피 지수-

CART (이진분할; Classification and Regression Tree)

  • 각 독립변수를 이분화하는 과정을 반복하여 이진트리 형태를 형성함으로써 분류를 수행하는 알고리즘
  • 가장 성취도가 좋은 변수 및 수준을 찾는 것에 집중
  • 가장 많이 활용되는 의사결정나무 알고리즘으로 불순도의 측도로 출력 (목적)변수가 범주형일 경우 지니지수를 이용, 연속형인 경우 분산을 이용한 이진분리(binary split)를 사용한다.
  • 연속형 타깃변수 (또는 목표변수)를 예측하는 의사결정나무
  • 개별 입력변수 뿐만 아니라 입력변수들의 선형결합들 중에서 최적의 분리를 찾을 수 있다.
  • 이산형 변수는 지니지수, 연속형 변수는 분산감소량

C4.5 와 C5.0

  • CART와는 다르게 각 마디에서 다지분리(multiple split)가 가능하며 범주형 입력변수에 대해서는 범주의 수만큼 분리가 일어난다.
  • 종속변수(y)가 이산형이며, 불순도의 척도로 엔트로피 지수(Entropy index) 사용

CHAID(다지분할; CHi-squared Automatic Interaction Detection)

  • 가지치기를 하지 않고 적당한 크기에서 나무모형의 성장을 중시한다
  • 분석 전에 척도가 독립변수(x)가 이산형 변수이어야 함
  • 분리기준으로는 카이제곱 통계량을 사용하고, 분리 방법은 다지 분리를 사용한다.

QUEST

  • 변수의 선택에서 범주의 개수가 만은 범주형 변수로의 편향이 심각한 CART의 문제점을 개선한 알고리즘
  • 변수 선택 편향(Bias)이 거의 없음
  • 분리 규칙은 분리 변수 선택과 분리점 선택의 두 단계로 나누어 시행
  • 불순도의 척도로 카이제곱 통계량을 사용
  • 분리 방법은 이진 분리(Binary Split) 사용

편향(Bias)

  • 편향은 학습 알고리즘에서 잘못된 가정을 했을 때 발생하는 오차이다
  • 높은 편향값은 알고리즘의 데이터의 특징과 결과물과의 관계를 잘못 판단할 수 있는 과소 적합(Underfitting) 문제를 일으킨다.

0개의 댓글