
이 문서는 머신러닝 수업 중 학습한 앙상블(Ensemble) 기법과
하드 보팅 / 소프트 보팅의 차이, 그리고 피처 스케일링(Feature Scaling)의 필요성에 대해 정리
핵심 개념뿐 아니라, 실제 예시와 비교 표를 통해 보다 명확하게 이해할 수 있도록 정리하였다.
앙상블 학습이란 여러 개의 머신러닝 모델을 조합하여 더 나은 예측 결과를 도출하는 방법입니다.
단일 모델보다 더 안정적이고 정확한 예측 성능을 가질 수 있습니다.
예시:
여러 모델의 예측을 취합해 최종 결과를 결정하는 방식입니다.
예:
특징: 간단하지만 모델의 확신 정도는 고려하지 않음
예:
→ 평균: Class 1 = 0.367, Class 2 = 0.633 → 최종 예측: Class 2
특징: 모델의 확신도를 반영하여 예측 성능이 더 높을 수 있음
| 구분 | 하드 보팅 | 소프트 보팅 |
|---|---|---|
| 기준 | 클래스 투표 | 예측 확률 평균 |
| 필요 조건 | predict() 메서드 | predict_proba() 메서드 |
| 장점 | 구조가 간단 | 예측 성능이 우수할 수 있음 |
| 단점 | 확률 무시 | 확률 지원 모델만 사용 가능 |
예:
| 스케일링 방식 | 설명 |
|---|---|
| Min-Max Scaling | 모든 값을 0~1 범위로 정규화 |
| Standard Scaling | 평균 0, 표준편차 1로 정규화 |
| Robust Scaling | 중앙값 기준 정규화 → 이상치 영향 적음 |
| 알고리즘 | 스케일링 필요 여부 |
|---|---|
| KNN, SVM, 로지스틱 회귀 | 필수 |
| 의사결정트리, 랜덤포레스트 | 불필요 |
| 신경망 (딥러닝) | 필수 |
| 항목 | 요약 |
|---|---|
| 앙상블 | 여러 모델의 예측을 조합하여 정확도 향상 |
| 하드 보팅 | 다수결 방식 |
| 소프트 보팅 | 예측 확률을 기반으로 평균 |
| 피처 스케일링 | 거리 기반 알고리즘에서 수치 왜곡 방지를 위해 필요 |
| 적용 시점 | 학습 전 데이터 전처리 단계에서 적용 |
하드 보팅은 구조는 단순하지만 확률 정보를 반영하지 못해 아쉬운 부분이 있었고,
소프트 보팅은 확률 기반으로 보다 정밀한 예측이 가능하다는 점이 인상 깊었다.
또한 피처 스케일링은 단순한 정규화 개념 이상으로,
모델 전체 성능과 공정성에 매우 중요한 요소라는 점을 다시 느꼈다.