Gradient Boosting Model

HKK·2023년 2월 26일
0

그래디언트 부스팅

그래디언트 부스팅 모델은 의사결정나무를 반복함으로써 의사결정나무의 예측 결과 잔차(residual)를 줄여가며 잔차를 최소화 하는 모델이다.

과정

  1. 종속변수 yy의 평균값 yˉ=Σi=1Nyi/N\bar{y} = \Sigma_{i=1}^N y_i / N 를 구한다.
  2. 종속변수의 실제값과 평균값의 차이인 최초의 잔차 r1i=yiyˉr_{1i} = y_i - \bar{y}를 각각 구한다. (i=1,2,3,,N)i = 1,2,3, \cdots , N)
  3. 설명변수로 결정트리를 만든다.
  4. 결정트리 마지막 leaf의 r1ir_{1i}yˉ\bar{y}를 합산하여 두번째 잔차인 pseudo residual r2ir_{2i} 계산한다.
    1. 이때, 과적합을 예방하기 위해 학습률(learing rate, η\eta)을 설정한다. (학습률: 0.1 ~ 0.001)
    2. r2i=yiηr1ir_{2i} = y_i - \eta r_{1i}
  5. 최초에 설정한 반복수(iteration) 또는 residual이 더이상 작아지지 않을때까지 4-5번을 반복한다.

Reference
https://bkshin.tistory.com/entry/머신러닝-15-Gradient-Boost

profile
Dept. of Urban Bigdata Convergence at University of Seoul

0개의 댓글