feature importance
는 feature를 제거하고 모델을 재학습하여 중요도를 파악하고, permutation importance
는 특정 feature를 random하게 섞어, 섞인 feature를 noise로 만들어 생기는 예측값과 실제값의 차이로 해당 feature의 중요도를 파악함. 특정 feature를 넣었을 때 성능이 떨어지면 중요도가 높고, 성능이 떨어지지 않으면 중요도가 낮은 feature라고 볼 수 있음.
GPT답변 :
"Permutation importance"와 "feature importance"는 머신러닝에서 중요한 특징(Feature)을 평가하는 두 가지 다른 방법입니다. 이 두 방법은 특징의 중요성을 측정하는 방식에서 차이가 있습니다.
정의: Feature Importance는 주로 결정 트리 기반 알고리즘(예: 랜덤 포레스트, 그래디언트 부스팅 머신)에서 사용되는 방법입니다. 이 방법은 모델의 학습 과정에서 각 특징이 얼마나 중요한 역할을 하는지를 평가합니다.
계산 방식: 이 방법은 각 특징이 모델의 예측에 기여하는 정도를 측정합니다. 예를 들어, 랜덤 포레스트에서는 각 트리에서 특징이 분할에 기여하는 정보의 양(정보 이득, 지니 불순도 감소 등)을 기반으로 중요도를 계산합니다.
장점과 단점:
정의: Permutation Importance는 모델이 학습된 후에 적용되는 방법으로, 모델의 성능에 대한 특징의 영향을 평가합니다.
계산 방식: 이 방법은 특정 특징의 값들을 무작위로 섞어(permutate) 모델의 성능이 얼마나 변화하는지를 관찰합니다. 특징을 섞었을 때 모델의 성능이 크게 감소하면 그 특징이 중요하다고 간주합니다.
장점과 단점:
Feature Importance는 모델 학습 과정에서 계산되며, 결정 트리 기반 모델에서 주로 사용됩니다. 이 방법은 빠르고 직관적이지만, 모델의 내부 메커니즘에 의존적이며 특징 간 상호 작용을 완전히 반영하지 못할 수 있습니다.
Permutation Importance는 학습된 모델을 기반으로 하며, 모델의 성능에 대한 특징의 영향을 평가합니다. 이 방법은 보다 일반적이고, 특징 간 상호 작용을 더 잘 반영하지만, 계산 비용이 더 많이 들고 특정 상황에서 정확도가 떨어질 수 있습니다.