Random forest

素人·2022년 1월 9일
0

Data

목록 보기
5/30

여러 개의 의사 결정 나무를 만들어서 이들의 평균으로 예측의 성능을 높이는 방법

: 앙상블 기법 (Ensemble), 주어진 하나의 데이터로부터 여러 개의 랜덤 데이터셋을 추출해, 각 데이터셋을 통해 모델을 여러 개 만들 수 있음

배깅(Bagging) / 부스팅(Boosting)

(1) 배깅(Bagging) : bootstrap aggregating 의 준말로 하나의 주어진 데이터에서 여러 개의 모델을 만들어 각 모델들 결과값으리 평균을 통해 성능을 높이는 기법,
주어진 데이터에 대해 복원추출을 여러 번 함으로써(Bootstrap) 여러 개의 데이터 셋이 생성 가능함

<복원추출 기법>

  • 첫번째 시행: 주머니에서 공을 랜덤하게 하나 꺼냄
  • 두번째 시행: 그 공을 주머니에 넣고, 다시 랜덤하게 뽑는 것
    부트스트랩을 B번 반복하면 B개의 데이터가 생성되며, 총 B개의 모델이 생성되는 것

5개의 각 모델에서 예측결과에 따라 분류는 다수결로 결과를 결정하고 회귀라면 평균으로 결과를 결정함

(2)부스팅(Boosting)
매 번 학습을 할 때 마다 오분류된 확률변수에 대해 가중치를 부여한 후, 다시 학습을 하며, 이 과정을 반복하면서 매 번 결과들을 앙상블하는 것,
대표적으로 AdaBoost 알고리즘과 Gradient Boost 알고리즘이 있다.

AdaBoost 알고리즘은 오분류 관찰치에 가중치를 올리고, Gradient Boost는 직전 단계의 오차를 학습하는 방법

profile
매일 조금씩:)

0개의 댓글