[데이터사이언스] Diary -16

Pream·2022년 3월 14일
0

  • Ada Boost : 잘못 분류되는 관측치에 가중치를 준다.
  • 그래디언트부스팅: 샘플의 관측치를 조정하는 대신 잔차를 학습한다.

랜덤포레스트와 AdaBoost의 차이점 4가지:

  1. 랜덤포레스트는 많은 결정트리 But Ada는 하나의 노드와 두개의 잎이 있는 결정트리(결정스텀프)를 사용한다.

  2. 배깅 vs 부스팅
    랜덤포레스트는 배깅방식이고 Ada는 부스팅방식이다.

  3. Equal Weights vs Variable Weights
    랜덤포레스트에서 각 트리 결정은 동일한 가중치를 갖지만 Ada는 일부 결정스텀프가 최종 결정에서 더 높은 발언권을 갖는다.

  4. 트리의 순서
    랜덤포레스트의 각 결정트리는 모두 독립적이다. 결정트리가 생성되는 순서는 전혀 중요하지 않는다. 그러나 Ada는 결정트리의 생성순서가 매우 중요하다. 첫번째의 결정 스텀프에서 만든 오류가 두번째의 결정 스텀프에 영향을 미치고 두번쨰는 또 세번째에 영향을 미친다.

AdaBoost 와 그래디언트 부스팅의 차이 :

Ada 의 처음 스텀프 오류 가 다음 스텀프 오류에 영향을 줌.
Gradient Boost는 stump나 tree가 아닌 하나의 leaf (single leaf)부터 시작.

중요도(Feature importance) 3가지의 적용범위:

  • Feature importance = 트리기반모델만 적용가능
  • Drop-column = 전부 사용 가능
  • Permutation = 전부 사용 가능
profile
예비 데이터개발자

0개의 댓글