hard: class를 0, 1로 분류 예측하는 이진 분류일 때 결과 값에 대한 다수 class를 사용
예) 분류를 예측한 값이 1,0,0,1,1 이였다면 1이 3표, 0이 2표이므로 1이 최종값으로 예측 결과가 됨
soft: 각각의 확률의 평균값을 계산한 다음 가장 확률이 높은 값으로 확정
예) class0이 나올 확률이 (0.4,0.9,0.9,0.4,0.4)이고, class1이 나올 확률이 (0.6,0.1,0.1,0.6,0.6)이라면 -> class0이 나올 최종 확률은 (0.4+0.9+0.9+0.4+0.4)/5 = 0.6이며 class1이 나올 최종 확률은 (0.6+0.1+0.1+0.6+0.6)/5 = 0.4가 되기 때문에 class0이 최종적으로 확률이 높은 것으로 판정
배깅(Bagging): 샘플 중복 생성을 통해 결과를 도출
같은 알고리즘 내에서 다른 sample 조합을 사용
Bagging은 Bootstrap Aggregating의 줄임말
Bootstrap은 여러개의 dataset을 중첩을 허용하여 샘플링하고 분할하는 방식을 뜻함
예) 데이터셋의 구성이 [1,2,3,4,5]로 되어있다면
group1 = [1,2,3]
group2 = [1,3,4]
group3 = [2,3,5]
대표적인 Bagging 앙상블 모델은 Random Forest, Bagging 등
부스팅(Boosting): 이전 오차를 보완해가면서 가중치를 부여
장점: 성능이 매우 우수함
단점: 잘못된 레이블이나 아웃라이어에 대해 필요 이상으로 민감. 다른 앙상블 대비 학습시간이 오래걸릴 수 있음
대표적인 부스팅 모델은 lightGBM, XGBoost 등
스태킹(Stacking): 여러 모델을 기반으로 예측된 결과를 통해 meta 모델이 다시 한 번 예측