머신러닝 앙상블, GBM 등 - 4월 17일

조준수·2023년 4월 18일

앙상블 기법
(1) 앙상블은 전통적으로 Voting, Bagging, Boosting, Stacking 등으로 나눔
(2) 보팅과 배깅은 여러 개의 분류기가 투표를 통해 최종 예측 결과를 결정하는 방식
(3) 보팅과 배깅의 차이점은 보팅은 각각 다른 분류기, 배깅은 같은 분류기를 사용
(4) 대표적인 배깅 방식이 랜덤 포레스트
부스팅
(1) 여러 개의 약한 분류기가 순차적으로 학습을 하면서, 앞에서 학습한 분류기가 예측이 틀린 데이터에 대해 다음 분류기가 가중치를 인가해서 학습을 이어 진행하는 방식
(2) 예측 성능이 뛰어나서 앙상블 학습을 주도하고 있음

GBM
(1) 부스팅 알고리즘은 여러 개의 약한 학습기를 순차적으로 학습-예측하면서 잘못 예측한 데이터에 가중치를 부여해서 오류를 개선해가는 방식
(2) GBM은 가중치를 업데이트할 때 경사 하강법을 이용하는 것이 큰 차이
XGBoost
(1) GBM의 느린 속도를 다양한 규제를 통해 해결
(2) 병렬 학습이 가능하도록 설계
(3) 반복 수행 시마다 내부적으로 학습데이터와 검증데이터를 교차검증을 수행
(4) 교차검증을 통해 최적화되면 반복을 중단하는 조기 중단 기능을 가지고 있음
XGBoost의 주요 파라미터
(1) nthread : CPU의 실행 스레드 개수 조정
(2) eta : GBM 학습률
(3) num_boost_rounds : n_estimators
(4) max_depth
LGBM
(1) 속도가 장점
(2) 적은 수의 데이터에는 어울리지 않음
(3) 일반적으로 10000건 이상의 데이터가 필요