7. 앙상블(Ensemble) - Bagging, Random Forest

앙상블이란?

업로드중..

Bagging
- 모델을 다양하게 만들기 위해 데이터를 재구성
- 동일 데이터를 반복 복원추출을 통해 다양한 데이터셋을 만들고 학습시켜
- voting을 통해 결과를 도출
Boosting
- 맞추기 어려운 데이터에 가중치를 두어 학습을 하는 것
- 즉, 정확도가 낮은 데이터를 집중적으로 학습
- Adaboost, Xgboost, LightGBM, Catboost 등
Random Forest
- 모델을 다양하게 만들기 위해 데이터 및 변수 재구성
- 즉, Bagging 처럼 데이터를 반복 복원 추출하지만 변수의 조합 또한 랜덤 추출을 진행
- 특정 변수만 사용하는 형상이 될 수 있음
Stacking
- 모델의 Output을 새로운 독립변수로 하여 다른 학습 모델의 input으로 넣는 것
Bagging
복원 추출한 데이터들을 합치는 것 (=Bootstrap Aggregating)
Bootstrap
- 반복 복운 추출을 통해 데이터를 N번 반복해서 뽑는 것
- 복원이 가능하기에 중복도 가능
- ex) dataset = [1,2,3,4,5,6,7]
  Bootstrap_sample_1 = [1,2,3]
  Bootstrap_sample_2 = [4,2,6]
  Bootstrap_sample_3 = [1,7,5]
  Bootstrap_sample_N = [2,7,3]

장점
편향은 유지하되 분산을 감소시킴으로써 학습 데이터의 Noise에 영향을 덜 받게된다.
기존 Decision Tree의 경우 Depth가 커지면 편향은 감소하지만, 분산은 증가가 유발됨
과적합에 대한 강점을 가지고 있다.
단점
- 과정을 해석하기 어렵다
- 복원 추출을 진행하기 때문에 독립이라는 보장이 없음
- 공분산이 0이라는 조건을 만족하지 않아 비슷한 Tree가 만들어질 가능성이 크다.

Bagging의 경우 복원 추출을 하기 때문에 중복 데이터가 존재하게 된다.

그렇기 때문에 독립이 아니게 되고, base learner간의 공분산이 발생하게 된다.
(비슷한 Tree가 만들어질 가능성이 높다)

공분산을 줄이기 위해 나온 방법이 random forest이다.

장점
- 분류, 회귀 문제에 모두 사용 가능
- 결측치를 다루기 쉽다.
- 대용량 데이터 처리에 용이하다.
- 과적합 문제에 강점이 있다,
- 특성별 중요도를 구할 수 있다.
단점
- 데이터 크기에 비례해서 수 많은 트리를 형성하기에 시간이 오래 걸린다.
- 모든 트리 모델을 다 확인하기 어렵기에 해석 가능성이 떨어진다.

딥러닝 지식의 백지에서 깜지까지