34일차 머신러닝7

차지예·2025년 7월 1일

Anomaly Detection Boosting Algorithms cross validation 개발자 머신러닝 생성형AI

생성AI

목록 보기

28/56

1️⃣ 부스팅 알고리즘 (Boosting Algorithms)

부스팅(Boosting)은 약한 학습기(weak learner)를 여러 개 결합하여 성능이 좋은 강한 학습기(strong learner)를 만드는 앙상블 학습 기법입니다.

💡 대표 알고리즘

🔸 AdaBoost (Adaptive Boosting)

아이디어: 이전 모델이 틀린 샘플에 가중치를 더 부여하여 다음 모델이 이를 잘 학습하도록 함
기반 모델: 보통 의사결정나무 (Depth=1)
특징:
- 과적합에 민감하지 않음
- 이상치에 민감함

🔸 Gradient Boosting Machine (GBM)

아이디어: 잔여 오차(residual)를 줄이는 방향으로 새로운 모델을 반복적으로 추가
장점:
- 회귀/분류 모두 가능
- 높은 예측 성능
단점:
- 학습 시간 김, 병렬화 어려움

🔸 XGBoost

GBM의 확장판
기능:
- 정규화(Regularization)
- 빠른 학습 속도 및 높은 정확도
- 결측값 자동 처리

🔸 LightGBM

Microsoft에서 개발한 XGBoost 대체재
장점:
- 대용량 데이터에 매우 빠름
- Leaf-wise 방식으로 더 낮은 손실 가능
- 카테고리형 변수 자동 처리

2️⃣ 이상탐지 (Anomaly Detection)

이상탐지(Anomaly Detection)는 데이터에서 비정상적(outlier)인 샘플을 탐지하는 방법입니다.

📌 주요 기법

🔹 Elliptic Envelope

가정: 데이터가 가우시안 분포를 따름
기법: 중심에서 벗어난 데이터를 이상치로 판단
적합도: 정규분포형 데이터에 적합

🔹 Local Outlier Factor (LOF)

기법: 국지적 밀도를 기반으로 이상치 판단
특징:
- 비선형 분포에서 효과적
- K-NN 기반 접근 방식

🔹 Isolation Forest

아이디어: 이상치는 고립되기 쉽다
방법: 무작위 분할을 통해 이상치가 빨리 고립되는지를 측정
장점:
- 고차원, 대용량 데이터에 적합
- 속도 빠름

✅ Isolation Forest에서의 고립 깊이 기대값

c(n) = 2H(n - 1) - \frac{2(n - 1)}{n}, \quad H(i): \text{n번째 조화수}

3️⃣ 교차검증 (Cross Validation)

교차검증은 모델의 일반화 성능을 평가하기 위한 기법입니다.

🔹 K-Fold

데이터를 K개로 나눠서 K번 학습/검증 수행
모든 샘플이 테스트셋에 한 번 포함됨

✅ K-Fold 평균 정확도

\text{Accuracy}_{avg} = \frac{1}{K} \sum_{i=1}^{K} \text{Accuracy}_i

🔹 Stratified K-Fold

클래스 비율이 불균형한 경우 사용
각 Fold에 클래스 비율을 동일하게 유지

🔹 LOOCV (Leave-One-Out Cross Validation)

데이터 하나만 테스트셋으로 사용하고 나머지로 학습
계산 비용 큼

✅ LOOCV 평균 오차

\text{Error}_{avg} = \frac{1}{n} \sum_{i=1}^{n} \text{Error}_i

🔹 Repeated K-Fold / Shuffle Split

K-Fold를 여러 번 반복하거나 무작위 분할하여 더 다양한 평가 가능
RepeatedStratifiedKFold는 불균형 분류에 유용

📌 이상치 탐지와 부스팅 기법은 실제 산업에서도 많이 활용되며, 교차검증은 모든 머신러닝 프로젝트에서 필수적으로 사용하는 검증 기법입니다.

차지예

이전 포스트

33일차 머신러닝6

다음 포스트