앙상블

조은별·2025년 5월 10일
post-thumbnail

앙상블 보팅 & 피처 스케일링 정리

이 문서는 머신러닝 수업 중 학습한 앙상블(Ensemble) 기법
하드 보팅 / 소프트 보팅의 차이, 그리고 피처 스케일링(Feature Scaling)의 필요성에 대해 정리
핵심 개념뿐 아니라, 실제 예시와 비교 표를 통해 보다 명확하게 이해할 수 있도록 정리하였다.


1. 앙상블 학습 (Ensemble Learning)

앙상블 학습이란 여러 개의 머신러닝 모델을 조합하여 더 나은 예측 결과를 도출하는 방법입니다.
단일 모델보다 더 안정적이고 정확한 예측 성능을 가질 수 있습니다.

예시:

  • 모델 A 단독 예측 정확도: 80%
  • 모델 A + B + C 앙상블 → 예측 정확도 85% 이상

2. 보팅(Voting)

여러 모델의 예측을 취합해 최종 결과를 결정하는 방식입니다.

(1) 하드 보팅 (Hard Voting)

  • 각 모델이 예측한 클래스 중 다수결 투표로 최종 예측값 결정
  • 가장 많이 선택된 클래스가 최종 결과가 됩니다.

예:

  • 모델 A → Class 1
  • 모델 B → Class 2
  • 모델 C → Class 2
    → 최종 예측: Class 2

특징: 간단하지만 모델의 확신 정도는 고려하지 않음


(2) 소프트 보팅 (Soft Voting)

  • 각 모델이 예측한 확률(probability)을 평균 낸 후, 확률이 가장 높은 클래스를 선택합니다.
  • 확률 기반으로 더 정밀한 예측이 가능함.

예:

  • 모델 A → Class 1: 0.6 / Class 2: 0.4
  • 모델 B → Class 1: 0.2 / Class 2: 0.8
  • 모델 C → Class 1: 0.3 / Class 2: 0.7

→ 평균: Class 1 = 0.367, Class 2 = 0.633 → 최종 예측: Class 2

특징: 모델의 확신도를 반영하여 예측 성능이 더 높을 수 있음


비교 요약

구분하드 보팅소프트 보팅
기준클래스 투표예측 확률 평균
필요 조건predict() 메서드predict_proba() 메서드
장점구조가 간단예측 성능이 우수할 수 있음
단점확률 무시확률 지원 모델만 사용 가능

3. 피처 스케일링 (Feature Scaling)

개요

  • 대부분의 분류 알고리즘은 수치 간 거리 계산을 기반으로 작동합니다.
  • 피처 간 숫자 범위가 다를 경우, 거리 계산에 영향을 주어 모델 성능에 왜곡을 줄 수 있습니다.

예:

  • 키: 160 ~ 190 (30 차이)
  • 연봉: 3천만 ~ 1억 (수천만 차이)
    → 연봉의 영향이 훨씬 커짐 → 모델이 중요하지 않은 피처에 더 민감해질 수 있음

주요 스케일링 기법

스케일링 방식설명
Min-Max Scaling모든 값을 0~1 범위로 정규화
Standard Scaling평균 0, 표준편차 1로 정규화
Robust Scaling중앙값 기준 정규화 → 이상치 영향 적음

거리 기반 모델에서의 필요성

알고리즘스케일링 필요 여부
KNN, SVM, 로지스틱 회귀필수
의사결정트리, 랜덤포레스트불필요
신경망 (딥러닝)필수

4. 정리

항목요약
앙상블여러 모델의 예측을 조합하여 정확도 향상
하드 보팅다수결 방식
소프트 보팅예측 확률을 기반으로 평균
피처 스케일링거리 기반 알고리즘에서 수치 왜곡 방지를 위해 필요
적용 시점학습 전 데이터 전처리 단계에서 적용

5. 학습 소감

하드 보팅은 구조는 단순하지만 확률 정보를 반영하지 못해 아쉬운 부분이 있었고,
소프트 보팅은 확률 기반으로 보다 정밀한 예측이 가능하다는 점이 인상 깊었다.
또한 피처 스케일링은 단순한 정규화 개념 이상으로,
모델 전체 성능과 공정성에 매우 중요한 요소라는 점을 다시 느꼈다.

profile
기록과 회고를 통해 성장하는 데이터, AI 엔지니어 지망생입니다.

0개의 댓글