1️⃣ 부스팅 알고리즘 (Boosting Algorithms)
부스팅(Boosting)은 약한 학습기(weak learner)를 여러 개 결합하여 성능이 좋은 강한 학습기(strong learner)를 만드는 앙상블 학습 기법입니다.
💡 대표 알고리즘
🔸 AdaBoost (Adaptive Boosting)
- 아이디어: 이전 모델이 틀린 샘플에 가중치를 더 부여하여 다음 모델이 이를 잘 학습하도록 함
- 기반 모델: 보통 의사결정나무 (Depth=1)
- 특징:
🔸 Gradient Boosting Machine (GBM)
- 아이디어: 잔여 오차(residual)를 줄이는 방향으로 새로운 모델을 반복적으로 추가
- 장점:
- 단점:
🔸 XGBoost
- GBM의 확장판
- 기능:
- 정규화(Regularization)
- 빠른 학습 속도 및 높은 정확도
- 결측값 자동 처리
🔸 LightGBM
- Microsoft에서 개발한 XGBoost 대체재
- 장점:
- 대용량 데이터에 매우 빠름
- Leaf-wise 방식으로 더 낮은 손실 가능
- 카테고리형 변수 자동 처리
2️⃣ 이상탐지 (Anomaly Detection)
이상탐지(Anomaly Detection)는 데이터에서 비정상적(outlier)인 샘플을 탐지하는 방법입니다.
📌 주요 기법
🔹 Elliptic Envelope
- 가정: 데이터가 가우시안 분포를 따름
- 기법: 중심에서 벗어난 데이터를 이상치로 판단
- 적합도: 정규분포형 데이터에 적합
🔹 Local Outlier Factor (LOF)
- 기법: 국지적 밀도를 기반으로 이상치 판단
- 특징:
- 비선형 분포에서 효과적
- K-NN 기반 접근 방식
🔹 Isolation Forest
- 아이디어: 이상치는 고립되기 쉽다
- 방법: 무작위 분할을 통해 이상치가 빨리 고립되는지를 측정
- 장점:
✅ Isolation Forest에서의 고립 깊이 기대값
c(n)=2H(n−1)−n2(n−1),H(i):n번째 조화수
3️⃣ 교차검증 (Cross Validation)
교차검증은 모델의 일반화 성능을 평가하기 위한 기법입니다.
🔹 K-Fold
- 데이터를 K개로 나눠서 K번 학습/검증 수행
- 모든 샘플이 테스트셋에 한 번 포함됨
✅ K-Fold 평균 정확도
Accuracyavg=K1i=1∑KAccuracyi
🔹 Stratified K-Fold
- 클래스 비율이 불균형한 경우 사용
- 각 Fold에 클래스 비율을 동일하게 유지
🔹 LOOCV (Leave-One-Out Cross Validation)
- 데이터 하나만 테스트셋으로 사용하고 나머지로 학습
- 계산 비용 큼
✅ LOOCV 평균 오차
Erroravg=n1i=1∑nErrori
🔹 Repeated K-Fold / Shuffle Split
- K-Fold를 여러 번 반복하거나 무작위 분할하여 더 다양한 평가 가능
RepeatedStratifiedKFold는 불균형 분류에 유용
📌 이상치 탐지와 부스팅 기법은 실제 산업에서도 많이 활용되며, 교차검증은 모든 머신러닝 프로젝트에서 필수적으로 사용하는 검증 기법입니다.