Decision Tree

서현·2024년 9월 11일
0

파이썬

목록 보기
19/19

각각을 node, 위에서 밑 방향으로 Root node, internal node, leaf node(terminal node)로 부름

여기서 Disease가 타겟,
Hypertension, chestPain, Cholesterol이 피쳐가 됨

위의 3개로 나누는 기준 : Gini index(Gini impurity, 불순도)

####Gini index 예시

  • Disease
    Disease만 봤을때 yes : 6/10, no : 4/10
G(D) = 1 = ((6/10)**2) - ((4/10)**2) = 0.48
bad => 5 : 5 인 경우
  • Hypertension
    Hypertension와 Disease를 봤을때
    *yes, yes인 경우 : 2/5

0.5는 각 5명씩 나눠뒀기때문

=> 0.385 : hypertension은 도움이 됨

  • chestPain
    chestPain과 Disease를 봤을때
    *yes, yes인 경우 : 4/6

결론 : 숫자가 낮은 Hypertension 사용할 때 정보량 증가

사진으로 보는 Gini index


=> 0.5인 부분이 가장 불순도가 높음
*연속형이라면 모든 경우의 수를 해봐야합니다

Decision Tree


knn에서 overfiting은 k가 결정하고
Decision tree에서는 depth가 결정

Properties of decision tree

앙상블 : random 포레스트 : 여러개의 트리를 섞어서 사용함
해석도 용이함

To prevent overfitting (in tree)

overfitting -> training : ok, test : not ok
방법 : early , punning

Random forest(RF)

가장 일반적인 알고리즘

DT와 비슷함, random만큼 가져와 진행함

Tree와 RF의 차이점
Tree는 feature = 100이라면, 100개를 모두 사용
RF는 100개 중 feature 중 ~~개씩 랜덤샘플링을 진행

앙상블(조화가 좋음)

illustration of RF


두 데이터가 다른 이유
: 데이터도 다르고, Featurer도 다름
(2번) 과정이 featurer를 만드는 과정

gbn

ex
여기서 feature는 wt,vs,cyl

참고

랜덤 포레스트(Random Forest)의 GBN은 "Gradient Boosting Network"의 줄임말로, 쉽게 말해 여러 개의 작은 결정 트리(decision tree)를 모아 더 강력한 예측 모델을 만드는 기법 중 하나예요. 여기서 중요한 개념들을 중학생도 이해할 수 있도록 쉽게 설명해볼게요.
1. 결정 트리란?
결정 트리는 나무처럼 생긴 구조로, 질문과 답을 반복하면서 결론을 찾는 방법이에요. 예를 들어, "날씨가 맑은가?" -> "우산을 쓸 건가?" 같은 식으로 질문을 던지면서 답을 찾는 과정을 생각해볼 수 있어요.

  1. 랜덤 포레스트란?
    랜덤 포레스트는 여러 개의 결정 트리를 모아서 하나의 큰 숲을 만드는 방법이에요. 여러 트리가 조금씩 다른 질문과 답을 가지고 있고, 각 트리가 내린 결론을 모아서 최종 답을 찾아요. 이렇게 하면 한 가지 트리가 잘못된 결론을 내리더라도, 다른 트리들이 도와주어 더 정확한 결과를 얻을 수 있어요.

  2. GBN (Gradient Boosting Network)이란?
    GBN은 랜덤 포레스트와 비슷하지만 조금 다른 방법이에요. GBN에서는 트리들을 차례차례 만들면서, 앞서 만들어진 트리들의 실수를 고쳐나가는 방식이에요. 각 트리가 조금씩 더 나은 답을 찾으려고 노력하고, 마지막에 모든 트리의 답을 합쳐서 최종 결론을 만들어요.

비유를 들어 설명하자면:
결정 트리는 한 사람이 문제를 풀려고 열심히 생각하는 것과 같아요.
랜덤 포레스트는 여러 사람이 각자 다른 방법으로 문제를 푼 다음, 그 답들을 모아서 가장 많이 나온 답을 선택하는 것과 같아요.
GBN은 여러 사람이 차례대로 문제를 풀고, 앞사람이 실수한 부분을 뒷사람이 고치면서 점점 더 좋은 답을 찾아가는 것과 비슷해요.
결론적으로, GBN은 트리들이 협력하여 점점 더 좋은 답을 찾는 방법이라고 생각하면 돼요!

profile
서현이의 코드 생활 ദ്ദി ( ᵔ ᗜ ᵔ )

0개의 댓글