머신러닝 정리(2) - 앙상블 기법

hyun-jin·2025년 4월 11일

TIL 머신러닝 스파르타

데이터 분석

목록 보기

41/100

데이터 분석 37일

1. 😮 앙상블 기법 (Ensemble)

- 💪 여러 모델을 합치면 더 똑똑해진다!

✔️ 쉽게 말하면?

친구 한 명보다 여러 명이 모여 문제를 풀면 더 정확할 수 있잖아?
머신러닝도 같은 원리 → 여러 모델을 모아서 성능을 높이는 방법

1) 배깅(Bagging) = 투표 모으기

예시) 🌳 랜덤포레스트(Random Forest)
- 여러 명이 같은 문제 풀어보고, 다수결로 답 정하기!
각각 랜덤으로 데이터를 나눠서 따로 학습시킨 뒤
→ 결과를 평균내거나 다수결로 결정

👍 장점

여러 모델이 독립적으로 학습 → 빠르고 안정적

👎 단점

메모리 사용량 많아짐
해석 어려움

2) 부스팅(Boosting) = 틀린 거 고치기

예시) XGBoost, LightGBM, CatBoost
- 첫 번째 친구가 문제 풀고, 틀린 문제를 두 번째 친구가 다시 풀어봄
계속 틀린 부분을 고쳐가며 모델 학습 → 점점 정답에 가까워짐

👍 장점

예측력 최고

👎 단점

시간이 오래 걸림
파라미터 튜닝 어렵

2. 🏋️ 과적합 vs 과소적합

🤷 공부할 때 생기는 두 가지 문제!

구분	예시	해결 방법
과적합 (Overfitting)	시험문제 예상만 죽어라 외운 경우 → 실제 시험 보면 틀림	정규화, 드롭아웃, 데이터 늘리기, 앙상블
과소적합 (Underfitting)	기초 개념조차 모르는 상태	모델 복잡도 증가, 더 오래 학습, 구조 변경

3. 🕹️ 하이퍼파라미터 튜닝

- 공부법을 설정하는 느낌!

예시)
"몇 번 복습할까?" → n_estimators
"얼마나 깊게 공부할까?" → max_depth
"틀린 문제 다시 몇 번 볼까?" → learning_rate
튜닝 방법

방법	특징
Grid Search	전부 다 해보기
Random Search	랜덤으로 해보기
Bayesian Optimization	똑똑하게 중요한 부분만 해보기

4. 머신러닝 심화개념

- 실무에서 진짜 쓰려면 이런 것도 중요!

최적화 (Optimization)
- 좋은 공부법 찾기 (튜닝, 피처 엔지니어링)
배포 (Deployment)
- 배운 내용 발표하기 (모델 실제 서비스에 적용)
MLOps
- 공부-발표-피드백 자동화 시스템
- 계속 성능 관리하는 과정

5. 모델 해석 가능성 (Explainable AI, XAI)

- "왜 이 답이 나왔는지 설명할 수 있어야!"

예시)
- 트리모델 → 어떤 특징(Feature)이 중요한지 알려줌
- ex) 유방암 예측 → 가장 영향 큰 특징 = cell size or shape

한줄 요약

개념	핵심정리
앙상블	친구들 모아서 문제 풀기 (배깅 = 독립적으로 / 부스팅 = 틀린 거 고치며)
과적합/과소적합	공부 열심히만 해선 안 되고, 전략이 중요
하이퍼파라미터 튜닝	좋은 공부법 찾기
MLOps	공부-발표-피드백 자동화 시스템
XAI	"왜 맞췄는지" 설명 가능하게

💭 머신러닝 깊이 들어갈수록 어렵네;;

이전 포스트

통계(5) - 분포&상관계수... 헷갈려서 다시 정리

다음 포스트

머신러닝 정리(3) - 클러스터링

0개의 댓글