Gradient Boosting Model

HKK·2023년 2월 26일

그래디언트 부스팅

그래디언트 부스팅 모델은 의사결정나무를 반복함으로써 의사결정나무의 예측 결과 잔차(residual)를 줄여가며 잔차를 최소화 하는 모델이다.

종속변수 $y$ 의 평균값 $\bar{y} = \Sigma_{i=1}^N y_i / N$ 를 구한다.
종속변수의 실제값과 평균값의 차이인 최초의 잔차 $r_{1i} = y_i - \bar{y}$ 를 각각 구한다. ( $i = 1,2,3, \cdots , N)$
설명변수로 결정트리를 만든다.
결정트리 마지막 leaf의 $r_{1i}$ 와 $\bar{y}$ 를 합산하여 두번째 잔차인 pseudo residual $r_{2i}$ 계산한다.
1. 이때, 과적합을 예방하기 위해 학습률(learing rate, $\eta$ )을 설정한다. (학습률: 0.1 ~ 0.001)
2. $r_{2i} = y_i - \eta r_{1i}$
최초에 설정한 반복수(iteration) 또는 residual이 더이상 작아지지 않을때까지 4-5번을 반복한다.

Dept. of Urban Bigdata Convergence at University of Seoul