앙상블

조은별·2025년 5월 10일

ICT 기초 인강 독학 - 머신러닝

목록 보기

10/18

앙상블 보팅 & 피처 스케일링 정리

이 문서는 머신러닝 수업 중 학습한 앙상블(Ensemble) 기법과
하드 보팅 / 소프트 보팅의 차이, 그리고 피처 스케일링(Feature Scaling)의 필요성에 대해 정리
핵심 개념뿐 아니라, 실제 예시와 비교 표를 통해 보다 명확하게 이해할 수 있도록 정리하였다.

1. 앙상블 학습 (Ensemble Learning)

앙상블 학습이란 여러 개의 머신러닝 모델을 조합하여 더 나은 예측 결과를 도출하는 방법입니다.
단일 모델보다 더 안정적이고 정확한 예측 성능을 가질 수 있습니다.

예시:

모델 A 단독 예측 정확도: 80%
모델 A + B + C 앙상블 → 예측 정확도 85% 이상

2. 보팅(Voting)

여러 모델의 예측을 취합해 최종 결과를 결정하는 방식입니다.

(1) 하드 보팅 (Hard Voting)

각 모델이 예측한 클래스 중 다수결 투표로 최종 예측값 결정
가장 많이 선택된 클래스가 최종 결과가 됩니다.

예:

모델 A → Class 1
모델 B → Class 2
모델 C → Class 2
→ 최종 예측: Class 2

특징: 간단하지만 모델의 확신 정도는 고려하지 않음

(2) 소프트 보팅 (Soft Voting)

각 모델이 예측한 확률(probability)을 평균 낸 후, 확률이 가장 높은 클래스를 선택합니다.
확률 기반으로 더 정밀한 예측이 가능함.

예:

모델 A → Class 1: 0.6 / Class 2: 0.4
모델 B → Class 1: 0.2 / Class 2: 0.8
모델 C → Class 1: 0.3 / Class 2: 0.7

→ 평균: Class 1 = 0.367, Class 2 = 0.633 → 최종 예측: Class 2

특징: 모델의 확신도를 반영하여 예측 성능이 더 높을 수 있음

비교 요약

구분	하드 보팅	소프트 보팅
기준	클래스 투표	예측 확률 평균
필요 조건	`predict()` 메서드	`predict_proba()` 메서드
장점	구조가 간단	예측 성능이 우수할 수 있음
단점	확률 무시	확률 지원 모델만 사용 가능

3. 피처 스케일링 (Feature Scaling)

개요

대부분의 분류 알고리즘은 수치 간 거리 계산을 기반으로 작동합니다.
피처 간 숫자 범위가 다를 경우, 거리 계산에 영향을 주어 모델 성능에 왜곡을 줄 수 있습니다.

예:

키: 160 ~ 190 (30 차이)
연봉: 3천만 ~ 1억 (수천만 차이)
→ 연봉의 영향이 훨씬 커짐 → 모델이 중요하지 않은 피처에 더 민감해질 수 있음

주요 스케일링 기법

스케일링 방식	설명
Min-Max Scaling	모든 값을 0~1 범위로 정규화
Standard Scaling	평균 0, 표준편차 1로 정규화
Robust Scaling	중앙값 기준 정규화 → 이상치 영향 적음

거리 기반 모델에서의 필요성

알고리즘	스케일링 필요 여부
KNN, SVM, 로지스틱 회귀	필수
의사결정트리, 랜덤포레스트	불필요
신경망 (딥러닝)	필수

4. 정리

항목	요약
앙상블	여러 모델의 예측을 조합하여 정확도 향상
하드 보팅	다수결 방식
소프트 보팅	예측 확률을 기반으로 평균
피처 스케일링	거리 기반 알고리즘에서 수치 왜곡 방지를 위해 필요
적용 시점	학습 전 데이터 전처리 단계에서 적용

5. 학습 소감

하드 보팅은 구조는 단순하지만 확률 정보를 반영하지 못해 아쉬운 부분이 있었고,
소프트 보팅은 확률 기반으로 보다 정밀한 예측이 가능하다는 점이 인상 깊었다.
또한 피처 스케일링은 단순한 정규화 개념 이상으로,
모델 전체 성능과 공정성에 매우 중요한 요소라는 점을 다시 느꼈다.

조은별

기록과 회고를 통해 성장하는 데이터, AI 엔지니어 지망생입니다.

앙상블