[Classification Problem] Ensemble

jayce·2024년 6월 29일
post-thumbnail

Ensemble Overview


Ensemble (앙상블)

  • 어떤 데이터를 학습할 때, 여러 개의 모델을 조화롭게 학습 시켜 그 모델들의 예측 결과들을 이용하여 더 정확한 예측 값을 구할 수 있음

증명

✔️ Ensembles almost always work better

Why Ensemble works?

  • True functions, estimations, and the expected error

    ym(x)=f(x)+ϵm(x).Ex[(ym(x)f(x))2]=Ex[ϵm(x)2]y_m(x) = f(x) + \epsilon_m(x). \quad \mathbb{E}_x \left[ \left( y_m(x) - f(x) \right)^2 \right] = \mathbb{E}_x \left[ \epsilon_m(x)^2 \right]
  • The average error made by M individual models
    vs. Expected error of the ensemble

    EAvg=1Mm=1MEx[ϵm(x)2]E_{Avg} = \frac{1}{M} \sum_{m=1}^{M} \mathbb{E}_x \left[ \epsilon_m(x)^2 \right]
    EEnsemble=Ex[(1Mm=1Mym(x)f(x))2]E_{Ensemble} = \mathbb{E}_x \left[ \left( \frac{1}{M} \sum_{m=1}^{M} y_m(x) - f(x) \right)^2 \right]
    =Ex[(1Mm=1Mϵm(x))2]= \mathbb{E}_x \left[ \left( \frac{1}{M} \sum_{m=1}^{M} \epsilon_m(x) \right)^2 \right]
    EEnsemble=1MEAvgE_{Ensemble} = \frac{1}{M} E_{Avg}
  • In reality (errors are correlated), by the Cauchy's inequality

    [m=1Mϵm(x)]2Mm=1Mϵm(x)2[1Mm=1Mϵm(x)]21Mm=1Mϵm(x)2\left[ \sum_{m=1}^{M} \epsilon_m(x) \right]^2 \leq M \sum_{m=1}^{M} \epsilon_m(x)^2 \Rightarrow \left[ \frac{1}{M} \sum_{m=1}^{M} \epsilon_m(x) \right]^2 \leq \frac{1}{M} \sum_{m=1}^{M} \epsilon_m(x)^2
    EEnsembleEAvgE_{Ensemble} \leq E_{Avg}

실험 결과


  • 2014년 179개 알고리즘을 121개 Data Set에 적용하여 실험을 진행함

MLConf SF 2016 주요 내용 ⭐️⭐️⭐️⭐️⭐️


MLConf SF(샌프란시스코 머신러닝 컨퍼런스, 2016) – Top 10 main takeaways

  • It’s (still) not all about Deep Learning (딥러닝이 전부가 아니다)
  • Choose the right problem to solve, with the right metric (상황에 맞는 평가 지표를 활용해라)
  • Fine tuning your models in 5% of a project (Model tuning 하는데 있어서 시간을 많이 투자하지 마라)
  • “Ensembles almost always work better”
  • The trend towards personalization (개인화 혹은 초개인화가 트랜드)
  • Manual curation of content is still used in practice (널리 알려진 컨텐츠들은 아직도 잘 먹힌다)
  • Avoid the curse of complexity (차원의 저주를 피해라, Overfitting)
  • Learn the best practices from established players (잘 알려진 혹은 유명한 BP 사례를 배워라)
  • Everybody is using open source (오픈 소스를 잘 활용해라)
  • Make sure you have support from the executives (프로젝트를 진행하기 전 경영진의 지원이 있는지 확인해라)

알고리즘 선택의 중요성


  • 어떤 알고리즘도 모든 상황에서 다른 알고리즘보다 우월하다는 결론을 내릴 순 없음
  • 문제의 목적, 데이터 형태 등을 종합적으로 고려하여 최적의 알고리즘을 선택할 필요가 있음

0개의 댓글