[혼자 공부하는 머신러닝+딥러닝] - CH.5-3 Tree Ensemble

Jeonghwan Kim·2022년 11월 15일
0

주요 개념

  • 앙상블 학습: 더 좋은 예측 결과를 만들기 위해 여러 개의 모델을 훈련하는 머신러닝 알고리즘

  • 랜덤 포레스트: 대표적인 결정 트리 기반의 앙상블 학습 방법, 부트스트랩 샘플을 사용하고 랜덤하게 일부 특성을 선택하여 트리를 만듦

  • 엑스트라 트리: 랜덤포레스트와 비슷하게 결정 트리를 사용하여 앙상블 모델을 만들지만 부트스트랩 샘플을 사용하지 않음, 랜덤하게 노드를 분할해 과대적합을 감소시킴

  • 그레디언트 부스팅: 결정트리를 연속적으로 추가하여 손실 함수를 최소화하는 앙상블 방법, 훈련속도가 느리지만 성능이 더 좋음

  • 히스토그램 기반 그레디언트 부스팅: 그레디언트 부스팅의 속도를 개선, 높은 성능을 가짐

랜덤 포레스트

엑스트라 트리

  • 랜덤포레스트와 유사하나 부트스트랩 샘플을 사용하지 않고 각 결정 트리를 만들 때 전체 훈련 세트를 사용함

  • 노드를 분할할 때 가장 좋은 분할을 찾는 것이 아니라 무작위로 뿐할함

  • 특성을 무작위로 분할한다면 성능이 낮아이지만 많은 트리를 앙상블 하기에 오버피팅을 막고 검증 세트의 점수를 높이는 효과가 있음

그레디언트 부스팅

  • 깊이가 얕은 결정트리를 사용하기에 오버피팅에 강하고 높은 일반화 성능

히스토그램 기반 그레디언트 부스팅

  • 그레디언트 부스팅의 속도와 성능을 개선한 히스토그램 기반 그레디언트 부스팅

  • 입력 특성을 256개의 구간으로 나누어 노드를 분할할 때 최적의 분할을 빠르게 찾음

XGBoost, LightGBM

  • tree_method 매개변수를 'hist'로 지정하여 히스토그램 기반 그레디언트 부스팅 가용

colab 링크: https://colab.research.google.com/drive/1f40IyLf17SSGRUJL8uHkdLgCmQKThK30?usp=sharing

참고: 혼자 공부하는 머신러닝+딥러닝

0개의 댓글