[기계학습] XGBoost

공부·2022년 12월 6일
0

glasses box model

의사결정모델은

판별에 사용하는 변수 선택이 중요하다.
변수를 나눌 때 변수 복잡도를 이용한다. 가장 중요한 변수는 가장 높이 있다. 그러나 의사 결정 트리는 계산량이 많을 뿐더러, 변수와 데이터 수가 작아야 사용할 수 있다. 이런 한계 때문에 잘 쓰이지 않다가, 중요한 요소로 설명성이 대두되며 의사 결정 트리가 다시금 주목받기 시작했다.

그렇다면 데이터가 큰 현재 모델에 의사 결정 트리를 어떻게 사용할 수 있을까? 답은 여러 개의 트리를 혼합

  • Bagging
    랜덤으로 트리 여러 개를 만들어보고(앙상블 학습), 각각 트리 모델로 도출해 낸 값들 중 가장 좋은 값을 골라낸다.

  • XGBoost
    오분류된 데이터를 가중치를 넣어 트리에 집어 넣는다.

  • Stacking
    모델 여러 개를 사용하여 나온 값들 중 가장 많이 예측값을 정답값으로 생각한다.

XGBoost vs SHAP

XGBoost는 제일 중요한 변수만 고려하지 부정적인 영향을 고려하지 못 한다. 변수들 간의 상호작용은 고려하지 못 한다.

profile
리액트

0개의 댓글