Random Forest vs Extra Trees

woozins·2022년 7월 4일
0
post-thumbnail

이 두개의 차이는 크게 두가지다.

  1. Bootstrap 이용 여부
  • random forest 는 부트스트랩 샘플링을 사용하지만, extra trees는 이를 사용하지 않고 original dataset을 사용함
  1. 트리 분할 시 변수 선택 과정
  • 각각의 알고리즘에서 만들어지는 다수의 트리 중 하나의 트리를 생각하자.

    random forest의 경우, 각각의 트리에서, bootstrap 샘플링된 데이터를 바탕으로 랜덤한 features들을 사용하여 만들 수 있는 최적의 트리를 생성한다.

-반면, extra tree의 각각의 트리에서는, original data를 바탕으로(차이점 1) 랜덤한 feature들을 사용하지만, (랜덤포레스트와 동일) 최적의 트리를 만드는 것이 아니라, 각각 split 지점에서 무작위의 feature을 선택하여 그 feature에 대한 최적의 partition을 찾아 split을 진행한다.(랜덤성과 최적성)

extra tree는 random forest에 비해 randomness가 더 가미된 모델이지만, 역시 optimization 도 포함된 모델이다.

extra tree는 random forest 에 비해..

  1. 연산량이 적다

  2. 일반적으로 랜덤성이 증가하면, 모델의 bias가 증가하지만 variance는 감소함

그러나 일반적으로는 random forest가 더 선호된다.

profile
통계학과 대학원생입니다.

0개의 댓글