랜덤 포레스트란?
결정 트리의 앙상블. 간단한 방법이지만 오늘날 가장 강력한 머신러닝 알고리즘 중 하나
랜덤포레스트는 노드를 분할할 때 전체 특성 중 최선의 특성을 찾는 대신 무작위로 선택한 특성 후보 중 최적의 특성을 찾는 식으로 무작위성을 더 주입한다.
극단적으로 무작위한 트리의 랜덤 포레스트를 익스트림 랜덤 트리 앙상블이라고 부른다. 일반적으로 랜덤 포레스트보다 훨씬 빠르다.
예를 들어 데이터셋을 5개로 나눠서 1개는 검증용 데이터셋, 나머지는 학습용 데이터셋으로 사용하는데 이것을 5번 실시한다.
그리고 평균을 내는 것이 교차 검증의 평균 정확도이다.
예측을 하기 위해 샘플링을 할 때 전혀 선택되지 않은 나머지 37%를 oob 샘플이라고 부른다. 훈련을 하는 동안 oob샘플은 사용하지 않으므로 별도의 검증 세트를 사용하지 않고 oob샘플을 이용해 평가할 수 있다. 앙상블의 평가는 각 예측기의 oob 평가를 평균하여 얻는다.