-여러 개의 개별 모델을 생성하고 조합하여 최적의 모델로 일반화하는 기법
-weak learner들을 결합하여 strong learner를 만드는 방식
혼자서는 데이터의 패턴을 완벽하게 학습하지 못하지만 여러 개를 조합함으로써 강한 예측 성능을 낼 수 있는 모델
Manipulating the training data (데이터셋 조정)
→ bootstrap sampling, cross-validation, AdaBost algorithm
Manipulating the input features (입력 변수 조정)
→ Random Forest
Manipulating the output features (출력 타겟 조정)
→ Label Transformation, Target Smoothing, Class Imbalance Adjustment
Injecting randomness (무작위성 부여) ⇒ 모델이 데이터의 복잡성을 더 잘 포착, 과적합 방지, 일반화 성능 향상
→ Neural Networks
-Bootstrap Aggregating의 약자
-훈련 데이터셋에서 여러 번의 복원 추출(Bootstrap)을 통해 다양한 모델을 생성하고 각각 독립적으로 학습시킨 후 결과를 통합하는 방법 ex) Random Forest
-Categorical Data(분류)는 투표 방식으로 집계, Continuous Data(회귀)는 평균으로 집계
weak learner들을 하나씩 연결하여 strong learner를 만드는 방법
서로 다른 모델들의 예측을 새로운 데이터로 사용하여 최종적인 예측을 위한 또 다른 모델(메타 학습기)을 학습시키는 방법
핵심 요소
스태킹 과정
Hard Voting
다수결 원칙과 유사, 예측한 결과값 중 다수의 분류기가 결정한 예측값을 최종 결과값으로 선정
Soft Voting
분류기들의 레이블 값 결정 확률을 모두 더한 후 평균을 내서 확률이 가장 높은 레이블 값을 최종 결과값으로 선정