데이터 분석 37일
- 💪 여러 모델을 합치면 더 똑똑해진다!
✔️ 쉽게 말하면?
예시) 🌳 랜덤포레스트(Random Forest)
- 여러 명이 같은 문제 풀어보고, 다수결로 답 정하기!
각각 랜덤으로 데이터를 나눠서 따로 학습시킨 뒤
→ 결과를 평균내거나 다수결로 결정
👍 장점
👎 단점
예시) XGBoost, LightGBM, CatBoost
- 첫 번째 친구가 문제 풀고, 틀린 문제를 두 번째 친구가 다시 풀어봄
계속 틀린 부분을 고쳐가며 모델 학습 → 점점 정답에 가까워짐
👍 장점
👎 단점
| 구분 | 예시 | 해결 방법 |
|---|---|---|
| 과적합 (Overfitting) | 시험문제 예상만 죽어라 외운 경우 → 실제 시험 보면 틀림 | 정규화, 드롭아웃, 데이터 늘리기, 앙상블 |
| 과소적합 (Underfitting) | 기초 개념조차 모르는 상태 | 모델 복잡도 증가, 더 오래 학습, 구조 변경 |
- 공부법을 설정하는 느낌!
예시)
"몇 번 복습할까?" → n_estimators
"얼마나 깊게 공부할까?" → max_depth
"틀린 문제 다시 몇 번 볼까?" → learning_rate
튜닝 방법
| 방법 | 특징 |
|---|---|
| Grid Search | 전부 다 해보기 |
| Random Search | 랜덤으로 해보기 |
| Bayesian Optimization | 똑똑하게 중요한 부분만 해보기 |
- 실무에서 진짜 쓰려면 이런 것도 중요!
최적화 (Optimization)
- 좋은 공부법 찾기 (튜닝, 피처 엔지니어링)
배포 (Deployment)
- 배운 내용 발표하기 (모델 실제 서비스에 적용)
MLOps
- 공부-발표-피드백 자동화 시스템
- 계속 성능 관리하는 과정
- "왜 이 답이 나왔는지 설명할 수 있어야!"
| 개념 | 핵심정리 |
|---|---|
| 앙상블 | 친구들 모아서 문제 풀기 (배깅 = 독립적으로 / 부스팅 = 틀린 거 고치며) |
| 과적합/과소적합 | 공부 열심히만 해선 안 되고, 전략이 중요 |
| 하이퍼파라미터 튜닝 | 좋은 공부법 찾기 |
| MLOps | 공부-발표-피드백 자동화 시스템 |
| XAI | "왜 맞췄는지" 설명 가능하게 |