34일차 머신러닝7

차지예·2025년 7월 1일

생성AI

목록 보기
28/56
post-thumbnail

1️⃣ 부스팅 알고리즘 (Boosting Algorithms)

부스팅(Boosting)은 약한 학습기(weak learner)를 여러 개 결합하여 성능이 좋은 강한 학습기(strong learner)를 만드는 앙상블 학습 기법입니다.

💡 대표 알고리즘

🔸 AdaBoost (Adaptive Boosting)

  • 아이디어: 이전 모델이 틀린 샘플에 가중치를 더 부여하여 다음 모델이 이를 잘 학습하도록 함
  • 기반 모델: 보통 의사결정나무 (Depth=1)
  • 특징:
    • 과적합에 민감하지 않음
    • 이상치에 민감함

🔸 Gradient Boosting Machine (GBM)

  • 아이디어: 잔여 오차(residual)를 줄이는 방향으로 새로운 모델을 반복적으로 추가
  • 장점:
    • 회귀/분류 모두 가능
    • 높은 예측 성능
  • 단점:
    • 학습 시간 김, 병렬화 어려움

🔸 XGBoost

  • GBM의 확장판
  • 기능:
    • 정규화(Regularization)
    • 빠른 학습 속도 및 높은 정확도
    • 결측값 자동 처리

🔸 LightGBM

  • Microsoft에서 개발한 XGBoost 대체재
  • 장점:
    • 대용량 데이터에 매우 빠름
    • Leaf-wise 방식으로 더 낮은 손실 가능
    • 카테고리형 변수 자동 처리

2️⃣ 이상탐지 (Anomaly Detection)

이상탐지(Anomaly Detection)는 데이터에서 비정상적(outlier)인 샘플을 탐지하는 방법입니다.

📌 주요 기법

🔹 Elliptic Envelope

  • 가정: 데이터가 가우시안 분포를 따름
  • 기법: 중심에서 벗어난 데이터를 이상치로 판단
  • 적합도: 정규분포형 데이터에 적합

🔹 Local Outlier Factor (LOF)

  • 기법: 국지적 밀도를 기반으로 이상치 판단
  • 특징:
    • 비선형 분포에서 효과적
    • K-NN 기반 접근 방식

🔹 Isolation Forest

  • 아이디어: 이상치는 고립되기 쉽다
  • 방법: 무작위 분할을 통해 이상치가 빨리 고립되는지를 측정
  • 장점:
    • 고차원, 대용량 데이터에 적합
    • 속도 빠름

✅ Isolation Forest에서의 고립 깊이 기대값

c(n)=2H(n1)2(n1)n,H(i):n번째 조화수c(n) = 2H(n - 1) - \frac{2(n - 1)}{n}, \quad H(i): \text{n번째 조화수}

3️⃣ 교차검증 (Cross Validation)

교차검증은 모델의 일반화 성능을 평가하기 위한 기법입니다.


🔹 K-Fold

  • 데이터를 K개로 나눠서 K번 학습/검증 수행
  • 모든 샘플이 테스트셋에 한 번 포함됨

✅ K-Fold 평균 정확도

Accuracyavg=1Ki=1KAccuracyi\text{Accuracy}_{avg} = \frac{1}{K} \sum_{i=1}^{K} \text{Accuracy}_i

🔹 Stratified K-Fold

  • 클래스 비율이 불균형한 경우 사용
  • 각 Fold에 클래스 비율을 동일하게 유지

🔹 LOOCV (Leave-One-Out Cross Validation)

  • 데이터 하나만 테스트셋으로 사용하고 나머지로 학습
  • 계산 비용 큼

✅ LOOCV 평균 오차

Erroravg=1ni=1nErrori\text{Error}_{avg} = \frac{1}{n} \sum_{i=1}^{n} \text{Error}_i

🔹 Repeated K-Fold / Shuffle Split

  • K-Fold를 여러 번 반복하거나 무작위 분할하여 더 다양한 평가 가능
  • RepeatedStratifiedKFold는 불균형 분류에 유용

📌 이상치 탐지와 부스팅 기법은 실제 산업에서도 많이 활용되며, 교차검증은 모든 머신러닝 프로젝트에서 필수적으로 사용하는 검증 기법입니다.

0개의 댓글