앙상블 분석 Ensemble Analysis

: ) YOUNG·2021년 11월 13일

ADsP 빅데이터분석기사 빅분기

빅분기

목록 보기

2/20

앙상블 분석

앙상블(Ensemble) 개념 및 특징

주어진 자료로부터 여러 개의 예측모형들을 만든 후 예측모형들을 조합하여 하나의 최종 예측 모형을 만드는 방법으로 다중 모델 조합, 분류기 조합이 있다.
다수 모델의 예측을 관리하고 조합하는 기술을 메타 학습이라 한다. 여러 분류기법들의 예측을 조합함으로써 분류 정확성을 향상시키는 기법
교사학습법(Supervised Learning), 지도학습법이다
이상값에 대한 대응력이 높다
전체적인 예측값의 분산을 감소시켜 정확도를 높일 수 있다.
모형의 투명성이 떨어져 원인 분석에는 적합하지 않다. (정확한 현상의 원인 분석에는 적합하지 않음)
각 모형의 상호 연관성이 높을수록 정확도가 떨어진다.

앙상블의 특징


보다 높은 신뢰성 확보	다양한 모형의 예측 결과를 결합함으로써 단일 모형으로 분석했을 때 보다 높은 신뢰성
정확도(Accuracy) 상승	이상값에 대한 대응력이 높아지고, 전체 분산을 감소시킴
원인분석에 부적합	모형의 투명성이 떨어지게 되어 정확한 현상의 원인분석에는 부적합

앙상블의 알고리즘

주어진 자료로부터 여러 개의 예측 모형을 만든 후 예측 모형들을 조합하여 하나의 최종 예측 모형을 만드는 방법으로 다중 모델 조합(Combining Multiple Models), 분류기 조합(Classifier Combination)이 있다.

학습방법의 불안전성

학습자료의 작은 변화에 의해 예측모형이 크게 변하는 경우, 그 학습방법은 불안정하다.
가장 안정적인 학습방법으로는 1-nearest nighbor, 선형회귀모형이 존재한다.
가장 불안정한 방법으로는 의사결정나무가 있다.

앙상블 기법의 종류 ★★★★★★★★(중요)

1) 배깅(Bagging)

✔ Breinman에 의해 제안된 배깅은 주어진 자료에서 여러 개의 부트스트랩 자료를 생성하고 각 부트스트랩 자료에 예측모형을 만든 후 결합하여 최종 예측모형을 만드는 방법이다.

✔ 일반적으로 성능 향상에 효과적이고, 결측값이 존재 할 때 강하다.

✔ 데이터 집합에서 크기가 같은 표본(부트스트랩) 여러 개를 단순 임의복원 추출하여 분류기를 생성하고 결과를 앙상블(Ansemble)하는 방법

✔ 최적 모델 결정은 독립수행 후 다수결로 결정한다.

✔ 소량의 데이터(데이터 세트의 관측값의 수)일수록 유리하다

✔ 배깅 기법의 주요 알고리즘은 랜덤 포레스트이다.

✔ 최적의 의사결정나무를 구축할 때 가장 어려운 부분이 가지치기(pruning)이지만 배깅에서는 가지치기를 하지 않고 최대로 성장한 의사결정나무들을 활용한다.

2) 부스팅(Boosting)

✔ 예측력이 약한 모형(week learner)들을 결합하여 강한 예측모형을 만드는 방법이다.

✔ 새로운 분류 규칙을 만들고, 이 과정을 반복해 최종모형을 만드는 알고리즘

✔ 부트스트랩 표본을 구성하는 재표본과정에서 분류가 잘못된 데이터에 더 큰 가중치를 주어 표본을 추출하는 기법

✔ 훈련오차를 빠르고 쉽게 줄일 수 있다.

✔ 배깅에 비해 성능은 좋지만, 속도가 느리고 과대 적합 발생 가능성이 있음

✔ 부스팅 기법의 주요 알고리즘은 AdaBoost와 GBM 이다.

3) 랜덤 포레스트(random forest)

✔ 약한 학습기들을 생성한 후 이를 선형 결합하여 최종 학습기를 만드는 방법이다.

✔ 전체 변수 집합에서 부분 변수 집합을 선택하여 각각의 데이터 집합에 대해 모형을 생성한 후 결합하는 방식

✔ 수천 개의 변수를 통해 변수제거 없이 실행되므로 정확도 측면에서 좋은 성과를 보인다.

✔ 이론적 설명이나 최종 결과에 대한 해석이 어렵다는 단점이 있지만 예측력이 매우 높은 것으로 알려져 있다.

✔ 입력변수가 많은 경우, 배깅과 부스팅과 비슷하거나 좋은 예측력을 보인다.

✔ 다수의 나무들로부터 투표(Voting)를 통해 분류 결과를 도출한다.

✔ 분류기를 여러 개 쓸수록 성능이 좋아진다.

✔ 트리의 개수가 많을수록 과대적합(Overfitting) 문제를 피할 수 있다.

✔ 여러 개의 의사결정 트리가 모여서 랜덤 포레스트 구조가 된다.

✔ 변수 제거 없이 실행되므로 정확도 측면에서 좋은 성과를 보인다.

부트스트랩(Bootstrap)
부트스트랩(bootstrap)은 주어진 자료에서 동일한 크기의 표본을 랜덤 복원 추출법으로 뽑은 자료를 의미한다.

보팅(Voting)
보팅(voting)은 여러 개의 모형으로부터 산출된 결과를 다수결에 의해서 최종 결과를 선정 하는 과정이다.

복원추출(Sampling with Replacement)
복원추출은 한번 뽑은 표본을 모집단에 다시 넣고 다른 표본을 추출하는 방법이다.

: ) YOUNG

이전 포스트

고급 분석 기법 Advanced Analytics

다음 포스트