머신러닝 정리(2) - 앙상블 기법

hyun-jin·2025년 4월 11일

데이터 분석

목록 보기
41/100

데이터 분석 37일

1. 😮 앙상블 기법 (Ensemble)

- 💪 여러 모델을 합치면 더 똑똑해진다!


✔️ 쉽게 말하면?

  • 친구 한 명보다 여러 명이 모여 문제를 풀면 더 정확할 수 있잖아?
  • 머신러닝도 같은 원리 → 여러 모델을 모아서 성능을 높이는 방법

1) 배깅(Bagging) = 투표 모으기

  • 예시) 🌳 랜덤포레스트(Random Forest)
    - 여러 명이 같은 문제 풀어보고, 다수결로 답 정하기!

  • 각각 랜덤으로 데이터를 나눠서 따로 학습시킨 뒤
    → 결과를 평균내거나 다수결로 결정

👍 장점

  • 여러 모델이 독립적으로 학습 → 빠르고 안정적

👎 단점

  • 메모리 사용량 많아짐
  • 해석 어려움

2) 부스팅(Boosting) = 틀린 거 고치기

  • 예시) XGBoost, LightGBM, CatBoost
    - 첫 번째 친구가 문제 풀고, 틀린 문제를 두 번째 친구가 다시 풀어봄

  • 계속 틀린 부분을 고쳐가며 모델 학습 → 점점 정답에 가까워짐

👍 장점

  • 예측력 최고

👎 단점

  • 시간이 오래 걸림
  • 파라미터 튜닝 어렵

2. 🏋️ 과적합 vs 과소적합

  • 🤷 공부할 때 생기는 두 가지 문제!
구분예시해결 방법
과적합 (Overfitting)시험문제 예상만 죽어라 외운 경우 → 실제 시험 보면 틀림정규화, 드롭아웃, 데이터 늘리기, 앙상블
과소적합 (Underfitting)기초 개념조차 모르는 상태모델 복잡도 증가, 더 오래 학습, 구조 변경

3. 🕹️ 하이퍼파라미터 튜닝

- 공부법을 설정하는 느낌!

  • 예시)
    "몇 번 복습할까?" → n_estimators
    "얼마나 깊게 공부할까?" → max_depth
    "틀린 문제 다시 몇 번 볼까?" → learning_rate

  • 튜닝 방법

방법특징
Grid Search전부 다 해보기
Random Search랜덤으로 해보기
Bayesian Optimization똑똑하게 중요한 부분만 해보기

4. 머신러닝 심화개념

- 실무에서 진짜 쓰려면 이런 것도 중요!

  • 최적화 (Optimization)
    - 좋은 공부법 찾기 (튜닝, 피처 엔지니어링)

  • 배포 (Deployment)
    - 배운 내용 발표하기 (모델 실제 서비스에 적용)

  • MLOps
    - 공부-발표-피드백 자동화 시스템
    - 계속 성능 관리하는 과정


5. 모델 해석 가능성 (Explainable AI, XAI)

- "왜 이 답이 나왔는지 설명할 수 있어야!"

  • 예시)
    - 트리모델 → 어떤 특징(Feature)이 중요한지 알려줌
    - ex) 유방암 예측 → 가장 영향 큰 특징 = cell size or shape

  • 한줄 요약
개념핵심정리
앙상블친구들 모아서 문제 풀기 (배깅 = 독립적으로 / 부스팅 = 틀린 거 고치며)
과적합/과소적합공부 열심히만 해선 안 되고, 전략이 중요
하이퍼파라미터 튜닝좋은 공부법 찾기
MLOps공부-발표-피드백 자동화 시스템
XAI"왜 맞췄는지" 설명 가능하게

💭 머신러닝 깊이 들어갈수록 어렵네;;

0개의 댓글