특성을 추가했을 때, 결과값이 더 안좋아지는 경우가 있다.
다중공선성: 추가된 특성들이 서로 상관관계가 높은 경우, 모델은 이들 간의 차이를 명확히 구별하지 못할 수 있다. 이는 모델이 데이터의 노이즈를 캡처하게 되어 오버피팅을 초래할 수 있다.
차원의 저주: 특성의 수가 많아질 수록, 모델은 더 많은 차원에서 패턴의 학습해야 하고, 이는 더 많은 데이터를 필요로 하게된다. 이를 만족시키지 못할 때, 모델의 성능을 저하시킬 수 있다.
RandomForest와 XGBoost는 둘 다 앙상블 트리 방법이지만 근본적으로 다른 방식으로 작동한다. RandomForest는 독립적인 의사결정 트리의 숲을 구성하고 이러한 트리의 예측을 '평균'하여 예측한다. 반면에 XGBoost는 순차적인 방식으로 앙상블을 구성하며 각각의 새로운 트리는 기존 앙상블에서 발생한 오류를 수정하려고 시도한다.
RandomForest는 분할 시 모든 특성을 고려하기 때문에 특성 간의 상호작용 효과를 보다 자연스럽게 모델링할 수 있다. 반면에 XGBoost는 한 번에 하나의 기능을 기반으로 분할한다. 따라서 기능의 중요성이 다른 기능과의 상호작용으로 인해 발생하는 경우 랜덤포레스트는 해당 기능을 XGBoost보다 더 중요하게 간주할 수 있다.
XGBoost는 리지와 라쏘 정규화를 사용하여 과적합을 방지한다. 이는 본질적으로 너무 많은 기능을 사용하여 모델에 불이익을 준다. 기능이 그다지 유익하지 않은 경우 XGBoost의 정규화 프로세스로 인해 그 중요성이 줄어들 수 있다.
평균 절대 백분율 오류, MAPE는 실제 값과 예측 값 간의 절대 차이의 평균을 실제 값으로 나누어 계산된다. 그런 다음 결과에 100을 곱하여 백분율을 얻는다. MAPE의 문제는 실제 값이 0에 가까울 때 오류가 극도로 커지거나 정의되지 않을 수 있기 때문에 문제가 발생할 수 있다.
대칭 평균 절대 백분율 오류, SMAPE는 MAPE의 일부 문제를 처리하도록 설계된 MAPE의 변형이다. 그 분모는 실제 값과 예측값의 평균으로, 0에 가까운 문제를 완화시킵니다. 또한 과소 예측과 과잉 예측을 동일하게 처리하여 대칭으로 만든다.