👉 앙상블이란?
여러개의 분류기(모델)을 생성하고, 그 예측을 결합함으로써 정확한 예측을 도출하는 기법
하나의 강력한 모델 대신 약한 모델 여러개를 조합해 더 정확한 예측에 도움을 주는 방식이다
👉 배깅와 부스팅을 이해하기 위해서는 부트스트랩이라는 개념을 알아두면 좋다
Bootstrapping
부트스트래핑은 교체와 함께 무작위 샘플링을 사용하는 모든 테스트 또는 메트릭이다.
bootstrap의 기원
The Adventures of Baron Munchausen(바론의 대모험)이라는 책을 보면 주인공 바론이 늪에 빠지게 되는데 이때 자신의 장화 끝 단(bootstrap)을 잡아 올라 스스로 늪에서 빠져나오는 장면이 나온다. 사실 작용 반작용의 법칙에 따라 불가능한 일이지만 논리는 차치하고, 이 일화처럼 스스로를 구해낸다는 뜻으로 bootstrap이라는 단어가 사용되었다
👉 즉. bootstrap 샘플링을 하면 샘플 데이터셋을 n개의 샘플 데이터셋을 가지고 있는 효과를 누릴 수 있게 된다
👉 부트스트랩이라는 개념을 알아보았으니 배깅가 부스팅에 대해 알아보자
Bagging (Bootstrapping aggregating)
부트스트래핑 샘플링을 이용하여 여러 모델을 훈련하고 각 모델의 예측 결과를 투표방식 또는 평균 방식으로 집계한다
즉. 주어진 하나의 데이터로 학습된 모델보단 더 좋은 모델을 만들 수 있는 앙상블 기법이다
Boosting
분류하기 어려운 특정 교육 샘플에 중점을 두는 방법으로, 여러 개의 약한 학습모델이 순차적으로 학습-예측하는 과정에서 이전의 학습 모델의 잘못 예측한 데이터에 가중치를 부여함 으로 써 오류를 개선해 강력한 모델을 구축하는 방법이다
👉 즉. 배깅과 부스팅은 여러 개의 모델을 학습시키므로써 하나의 모델에서는 얻을 수 없는 성능과 안정성을 이끌어 내어 최적화된 모델을 만든다고 생각하면 된다
👉 두 모델의 차이점은 여러개의 모델을 어떻게 학습시키고 학습된 모델을 예측에 어떻게 활용하는지에 대한 접근 방법 차이가 있다.