[내가 헷갈려서 하는 정리: Ensemble & PCA]

HI,HYEN·2022년 11월 22일

KMOOC 실습으로 배우는 머신러닝 강의 정리 내용

7 -1,2,3

Ensemble Learning

: 대중의 지혜(집단지성)

앙상블 학습은 여러 개의 결정 트리(Decision Tree)를 결합하여 하나의 결정 트리보다 더 좋은 성능을 내는 머신러닝 기법이다. 앙상블 학습의 핵심은 여러 개의 약 분류기 (Weak Classifier)를 결합하여 강 분류기(Strong Classifier)를 만드는 것이다. 그리하여 모델의 정확성이 향상된다.

일련의 분류나 회귀 모델로부터 예측을 수집하면 가장 좋은 모델 하나보다 더 좋은 예측 성능을 얻을 수 있음.
-> 앙상블 학습
일반적으로 다양한 머신러닝 기법들을 Ensemble 시켜주면 성능이 향상되는 효과를 얻을 수 있음
랜덤 포레스트는 Decision Tree의 Ensemble을 의미하고, 일반적으로 굉장히 Robust하고 좋은 예측 성능을 보이는 것으로 알려져 있음.
데이터의 작은 변화에 민감한 Decision Tree의 한계점을 ensemble을 이용해 극복 가능
앙상블 학습법
- 배깅(Bootstrap Aggregation)
  (복원추출) <-> Pasting (비복원추출)
  : 샘플을 여러 번 뽑아(Bootstrap) 각 모델을 학습시켜 결과물을 집계(Aggregration)하는 방법
  ✓ 간단하면서도 파워풀한 방법
  ✓ 배깅 기법을 활용한 모델 : 랜덤 포레스트
- 부스팅
  : 가중치를 활용하여 약 분류기를 강 분류기로 만드는 방법
  
  ✓ 에이다부스트 (Ada Boost)
  ✓ 그래디언트부스트 (Gradient Boosting)