[TIL] 2021.05.03

hyelimchoi1223·2021년 5월 3일
0

[TIL] 2021년

목록 보기
36/44

랜덤 포레스트

랜덤 포레스트란?
결정 트리의 앙상블. 간단한 방법이지만 오늘날 가장 강력한 머신러닝 알고리즘 중 하나

랜덤포레스트는 노드를 분할할 때 전체 특성 중 최선의 특성을 찾는 대신 무작위로 선택한 특성 후보 중 최적의 특성을 찾는 식으로 무작위성을 더 주입한다.

극단적으로 무작위한 트리의 랜덤 포레스트를 익스트림 랜덤 트리 앙상블이라고 부른다. 일반적으로 랜덤 포레스트보다 훨씬 빠르다.

교차검증

예를 들어 데이터셋을 5개로 나눠서 1개는 검증용 데이터셋, 나머지는 학습용 데이터셋으로 사용하는데 이것을 5번 실시한다.
그리고 평균을 내는 것이 교차 검증의 평균 정확도이다.

장점

  • 모든 데이터를 활용할 수 있기 때문에 데이터셋의 크기가 작을 때 단점을 보완해준다.
  • 다섯 개의 모델이 나오기 때문에 앙상블 기법을 활용할 수 있다.

단점

  • 데이터셋이 크다면 시간이 오래 걸린다.
  • 만약 무작위 검증용 데이터셋이 적절하지 않은 문제라면, 교차 검증을 할 필요가 없다. 왜냐하면 다섯 개의 검증용 데이터셋은 모두 무작위이기 때문이다.

OOB 평가

예측을 하기 위해 샘플링을 할 때 전혀 선택되지 않은 나머지 37%를 oob 샘플이라고 부른다. 훈련을 하는 동안 oob샘플은 사용하지 않으므로 별도의 검증 세트를 사용하지 않고 oob샘플을 이용해 평가할 수 있다. 앙상블의 평가는 각 예측기의 oob 평가를 평균하여 얻는다.

참고자료

  • 핸즈온 머신러닝 2판
  • edwith : 프로그래머를 위한 머신러닝
profile
git blog로 이사중입니다.

0개의 댓글