동일한 데이터가 반복되면 모델이 학습할 수 있는 새롭거나 유용한 정보를 제공하지 않는다.
또한 모델에서 해당 컬럼에 대해 가중치를 주는 방법은 존재하지 않음
pca는 데이터 세트의 차원을 줄이고 정보 손실을 최소화하면서 해석가능성을 높이는 데 사용되는 기술이다. 하지만 xgboost에서 기능 중요도는 일반적으로 손실함수의 감소로 측정된다. 즉 개별 기능의 해석 가능성이 손실되기 때문에 특정 기능이 모델의 예측에 어떤 영향을 미치는지 이해하기가 어려워진다.
또한 특정 열의 값을 10%에서 100% 증가나 감소 시키는 것이 기계 학습 알고리즘의 기능 중요도를 변경시키지 않는다(서포트 벡터 머신, knn 제외). 기능 중요도는 크기가 아니라 기능과 대상 변수 간의 관계에 더 관련이 있기 때문이다.
데이터 프레임의 각 컬럼에 10~ n% 값을 증가시키거나 감소시키는 방법은 아래와 같다.
columns_to_multiply = df.columns[:10]
df[columns_to_multiply] = df[columns_to_multiply] * 1.1