Feature_Importance 에 대해서

행동하는 개발자·2023년 7월 12일

목록 보기

40/43

동일한 컬럼을 여러 개 추가하면 해당 컬럼의 중요도가 증가할까?

동일한 데이터가 반복되면 모델이 학습할 수 있는 새롭거나 유용한 정보를 제공하지 않는다.

또한 모델에서 해당 컬럼에 대해 가중치를 주는 방법은 존재하지 않음

pca는 데이터 세트의 차원을 줄이고 정보 손실을 최소화하면서 해석가능성을 높이는 데 사용되는 기술이다. 하지만 xgboost에서 기능 중요도는 일반적으로 손실함수의 감소로 측정된다. 즉 개별 기능의 해석 가능성이 손실되기 때문에 특정 기능이 모델의 예측에 어떤 영향을 미치는지 이해하기가 어려워진다.

또한 특정 열의 값을 10%에서 100% 증가나 감소 시키는 것이 기계 학습 알고리즘의 기능 중요도를 변경시키지 않는다(서포트 벡터 머신, knn 제외). 기능 중요도는 크기가 아니라 기능과 대상 변수 간의 관계에 더 관련이 있기 때문이다.

데이터 프레임의 각 컬럼에 10~ n% 값을 증가시키거나 감소시키는 방법은 아래와 같다.

columns_to_multiply = df.columns[:10]
df[columns_to_multiply] = df[columns_to_multiply] * 1.1

행동하는 개발자

끊임없이 뭔가를 남기는 사람

이전 포스트

상관관계 확인

다음 포스트

Feature_Importance 에 대해서

PHM

동일한 컬럼을 여러 개 추가하면 해당 컬럼의 중요도가 증가할까?

상관관계 확인

optuna에 대하여

0개의 댓글