모델의 편향과 분산, 배깅과 부스팅

Ryu Jihoon·2024년 9월 24일
post-thumbnail

모델의 편향과 분산, 배깅과 부스팅

1. 편향 (Bias)

  • 편향(Bias)은 모델이 데이터의 복잡한 패턴을 충분히 학습하지 못할 때 발생하는 오류입니다.
  • 즉, 편향이 높으면 모델이 과소적합(underfitting) 상태에 있는 것입니다. 데이터의 특성을 충분히 학습하지 않아 훈련 데이터와 테스트 데이터 모두에서 성능이 좋지 않습니다.
  • 예시: 매우 단순한 모델(예: 선형 회귀 모델)이 복잡한 데이터를 처리하려고 할 때, 패턴을 제대로 파악하지 못하는 경우가 있습니다.

편향이 높은 모델의 특징

  • 모델이 너무 단순하여 데이터의 중요한 패턴을 캐치하지 못함.
  • 학습 데이터와 테스트 데이터 모두에서 성능이 낮음.

2. 분산 (Variance)

  • 분산(Variance)은 모델이 데이터의 노이즈까지 학습하여 훈련 데이터에는 매우 잘 맞지만, 새로운 데이터(테스트 데이터)에서는 성능이 떨어질 때 발생하는 오류입니다.
  • 즉, 분산이 높으면 모델이 과적합(overfitting) 상태에 있는 것입니다. 훈련 데이터의 복잡한 패턴과 노이즈를 과도하게 학습하여 테스트 데이터에서는 성능이 좋지 않습니다.

분산이 높은 모델의 특징

  • 학습 데이터에서는 성능이 매우 좋지만, 테스트 데이터에서는 성능이 크게 떨어짐.
  • 데이터의 노이즈까지 학습하는 경향이 있음.

3. 편향-분산 트레이드오프 (Bias-Variance Tradeoff)

  • 편향-분산 트레이드오프는 모델이 너무 단순하면 편향이 커지고, 너무 복잡하면 분산이 커지는 현상을 의미합니다.
  • 즉, 모델이 복잡해질수록 편향은 줄어들지만 분산은 커지고, 반대로 모델이 단순해질수록 편향은 커지지만 분산은 줄어듭니다.
  • 목표는 편향과 분산 사이의 균형을 맞춰 모델이 훈련 데이터와 테스트 데이터 모두에서 잘 동작하도록 만드는 것입니다.

4. 배깅 (Bagging: Bootstrap Aggregating)

개념

  • 배깅(Bagging)은 고분산 모델에서 분산을 줄이기 위해 사용하는 앙상블 학습 기법입니다.
  • 다수의 모델을 독립적으로 학습시키고, 그 결과를 평균 또는 다수결로 결합하여 최종 예측을 만듭니다.
  • 일반적으로 결정 트리(Decision Tree)와 같은 고분산 모델에 적용되어 모델의 성능을 향상시킵니다.

과정

  1. 원본 데이터에서 중복을 허용하는 샘플링(bootstrap sampling)을 통해 여러 개의 데이터를 생성.
  2. 각 샘플 데이터를 사용하여 독립적인 모델을 학습.
  3. 모든 모델의 결과를 평균(회귀의 경우) 또는 다수결(분류의 경우) 방식으로 결합하여 최종 예측을 만듦.

특징

  • 분산을 줄임: 각 모델의 결과를 결합함으로써 전체적인 분산을 줄일 수 있습니다.
  • 과적합 방지: 개별 모델이 과적합하더라도, 다수의 모델을 결합하는 방식으로 과적합을 방지할 수 있습니다.

대표적인 알고리즘

  • 랜덤 포레스트(Random Forest): 배깅을 적용한 대표적인 알고리즘으로, 여러 개의 결정 트리를 결합하여 성능을 향상시킵니다.

5. 부스팅 (Boosting)

개념

  • 부스팅(Boosting)은 약한 학습기(weak learner)를 순차적으로 학습시켜 점진적으로 모델 성능을 향상시키는 앙상블 기법입니다.
  • 이전 모델이 잘못 예측한 데이터에 더 높은 가중치를 부여하여, 다음 모델이 해당 데이터를 잘 예측하도록 합니다.
  • 각 모델은 이전 모델의 오류를 수정하는 방식으로 학습하여 최종적으로 강한 학습기(strong learner)를 만듭니다.

과정

  1. 첫 번째 모델을 학습하고, 해당 모델의 예측 결과에서 잘못 예측된 데이터에 높은 가중치를 부여.
  2. 두 번째 모델을 학습할 때는 첫 번째 모델에서 잘못 예측된 데이터에 더 집중하여 학습.
  3. 이런 방식으로 순차적으로 모델을 학습시켜 최종 예측을 만듦.

특징

  • 편향을 줄임: 부스팅은 주로 편향이 높은 약한 모델을 개선하여 성능을 향상시킵니다.
  • 노이즈에 민감: 이전 모델의 오류에 집중하기 때문에, 노이즈에도 가중치를 줄 수 있어 과적합의 위험이 있습니다.

대표적인 알고리즘

  • AdaBoost: 잘못 예측된 데이터에 가중치를 부여하여 약한 학습기를 개선하는 부스팅 기법.
  • Gradient Boosting: 잔차(residual)를 최소화하는 방식으로 학습하는 부스팅 기법. XGBoost, LightGBM, CatBoost가 대표적입니다.

6. 배깅과 부스팅의 차이점

배깅(Bagging)부스팅(Boosting)
목표분산 감소 (과적합 방지)편향 감소 (과소적합 방지)
모델 학습 방식독립적으로 병렬 학습순차적으로 모델 학습
샘플링 방식중복을 허용한 샘플링오류에 더 높은 가중치 부여
대표 알고리즘랜덤 포레스트AdaBoost, XGBoost, LightGBM
과적합 위험낮음다소 높음 (학습률 조정 필요)
profile
CSE Junior

0개의 댓글