앙상블 (Ensemble) 머신러닝

Jace·2023년 1월 4일
0

앙상블

본래 프랑스어로 '함께, 동시에, 한꺼번에, 협력하여' 등을 의미하는 부사이며, 영어로는 소규모의 합주단/무용단/극단을 의미하는 단어이다.
이 때문에 뮤지컬에서 조연으로 합창과 군무를 맡는 코러스 배우들을 앙상블이라고 칭하기도 한다. 소규모 연극에서는 멀티 배우(멀티남/멀티녀)가 앙상블에 가까운 역을 맡으니, 앙상블은 멀티의 복수형이라 할 만 하다.

앙상블의 뜻은 여러 가지를 통해서 협력을 한다는 의미가 크다. 머신러닝에서는 앙상블 학습, 즉 여러 개의 분류기를 생성하고, 그 예측을 결합함으로써 보다 정확한 예측을 도출하는 기법을 말한다.

강력한 하나의 모델을 사용하는 대신 보다 약한 모델 여러개를 조합하여 더 정확한 예측을 도움을 주는 방식

앙상블 학습 유형

보팅(Voting), 배깅(Bagging), 부스팅(Boosting) 세 가지 유형이 있다.

보팅(Voting)

  • 여러 개의 분류기가 투표를 통해 최종 예측 결과를 결정하는 방식
  • 서로 다른 알고리즘을 여러 개 결합하여 사용

배깅(Bootstrap AGGregatING, Bagging)

데이터 샘플링(Bootstrap) 을 통해 모델을 학습시키고 결과를 집계(Aggregating) 하는 방법
모두 같은 유형의 알고리즘 기반의 분류기를 사용
데이터 분할 시 중복을 허용
Categorical Data : 다수결 투표 방식으로 결과 집계
Continuous Data : 평균값 집계
과적합(Overfitting) 방지에 효과적
대표적인 배깅 방식 : 랜덤 포레스트 알고리즘

부스팅(Boosting)

여러개의 분류기가 순차적으로 학습을 수행
이전 분류기가 예측이 틀린 데이터에 대해서 올바르게 예측할 수 있도록 다음 분류기에게 가중치(weight)를 부여하면서 학습과 예측을 진행
계속하여 분류기에게 가중치를 부스팅하며 학습을 진행하기에 부스팅 방식이라고 불림
예측 성능이 뛰어나 앙상블 학습을 주도
대표적인 부스팅 모듈 – XGBoost, LightGBM
보통 부스팅 방식은 배깅에 비해 성능이 좋지만, 속도가 느리고 과적합이 발생할 가능성이 존재하므로 상황에 따라 적절하게 사용해야 함.

흔히 사람들은 기회를 기다리고 있지만 기회는 기다리는 사람에게 잡히지 않는 법이다. 우리는 기회를 기다리는 사람이 되기 전에 기회를 얻을 수 있는 실력을 갖춰야 한다. 일에 더 열중하는 사람이 되어야한다. -안창호

profile
오늘한줄.

0개의 댓글