[ML상품화 | 모델] 3. Model Selection_ Ensembles & AutoML

정원석·2025년 4월 10일

MLOps로 배우는 머신러닝 상품화

목록 보기

5/5

Bootstrap Aggregating의 줄임말
여러 개의 모델이 서로 다른 데이터 샘플에 대해 학습하고, 그 결과를 통합하는 방식
Random Forest가 대표적 : 다수의 Decision Trees를 학습시키고, 각 트리의 예측을
평균내거나 다수결로 결정하여 최종 예측을 도출
모델의 variance을 감소시키고 overfitting을 방지하는데 유용

출처: kr.mathworks.com

머신러닝 모델을 개발하는 과정을 자동화하기 위한 도구와 기술의 집합
전통적인 머신러닝 프로젝트는 데이터 전처리, Feature engineering, HyperParameter Tuning 등 다양한 단계를 필요로 하며, 각 단계는 상당한 전문 지식과 시간을 요구
AutoML은 이러한 복잡성을 줄이고, 사용자가 빠르고 효율적으로 모델을 구축할 수 있게 도움
ML 전문가가 아닌 사용자도 머신러닝 모델을 개발하고 배포할 수 있게 함으로써, 머신러닝 접근성을 크게 향상시킴

데이터 전처리 : 결측치를 처리하고, 변수를 변환하는 등의 Data Cleansing과 준비 과정을 자동화
Feature Engineering : 가장 유용한 변수를 선택하고, 새로운 feature를 생성하여 모델의 예측력을 향상
Model Selection : 다양한 머신러닝 알고리즘을 자동으로 시험해보고, 문제에 가장 적합한 모델을 찾음
Model Learning Hyper Parameter Tuning : Grid Search, Random Search, Bayesian Optimization과 같은 전략을 사용하여 모델의 HyperParameter를 자동으로 조정
Model Evaluation : Cross Validation과 같은 방법을 사용해 모델을 평가하고, 가장 성능이 좋은 모델을 자동으로 선택

Google Cloud AutoML : 사용자가 구글 클라우드의 강력한 인프라를 활용하여 자신의 데이터에 적합한 머신러닝 모델을 자동으로 생성하고 배포할 수 있게 해주는 서비스. 비전, 언어, 번역 등의 다양한 API를 제공하여 구체적인 문제에 적용할 수 있음
H20 AutoML : 오픈 소스 기반으로, 다양한 알고리즘을 자동으로 시도해보고 Stacking 기법을 사용하여 최종 모델을 생성. 사용이 간편하고 여러 알고리즘을 지원하여 뛰어난 성능의
모델을 생성할 수 있음
Auto sklearn : Scikit learn 기반의 AutoML 도구로, 특히 분류와 회귀 문제에 적합. Bayesian Optimization을 통해 Model과 Hyper parameter를 선택하여 Pipeline 구성 요소를
자동으로 조합하여 최적의 Solution을 제공

https://automl.github.io/auto-sklearn/master/

이기적이타주의자