[ML] 앙상블 (Ensemble)

HanSol Choi·2024년 6월 18일

앙상블 (Ensemble)

-여러 개의 개별 모델을 생성하고 조합하여 최적의 모델로 일반화하는 기법
-weak learner들을 결합하여 strong learner를 만드는 방식

weak learner (약한 학습기)

혼자서는 데이터의 패턴을 완벽하게 학습하지 못하지만 여러 개를 조합함으로써 강한 예측 성능을 낼 수 있는 모델

Diversty of Base Learners

Manipulating the training data (데이터셋 조정)
→ bootstrap sampling, cross-validation, AdaBost algorithm
Manipulating the input features (입력 변수 조정)
→ Random Forest
Manipulating the output features (출력 타겟 조정)
→ Label Transformation, Target Smoothing, Class Imbalance Adjustment
Injecting randomness (무작위성 부여) ⇒ 모델이 데이터의 복잡성을 더 잘 포착, 과적합 방지, 일반화 성능 향상
→ Neural Networks

배깅 (Bagging)

-Bootstrap Aggregating의 약자
-훈련 데이터셋에서 여러 번의 복원 추출(Bootstrap)을 통해 다양한 모델을 생성하고 각각 독립적으로 학습시킨 후 결과를 통합하는 방법 ex) Random Forest
-Categorical Data(분류)는 투표 방식으로 집계, Continuous Data(회귀)는 평균으로 집계

부스팅 (Boosting)

weak learner들을 하나씩 연결하여 strong learner를 만드는 방법

에이다 부스트 (Ada boost)
weak learner를 순차적으로 적용해 나가는 과정에서 잘 분류된 샘플의 가중치는 낮추고 잘못 분류된 샘플의 가중치는 상대적으로 높여주면서 샘플 분포를 변화
그레디언트 부스트 (Gradient boost)
잘못 분류된 샘플의 error를 최적화하는 방식으로 진행