permutation / feature importances 차이

jun hyeon·2023년 11월 28일
0

Machine Learning

목록 보기
5/5

출처

feature importance는 feature를 제거하고 모델을 재학습하여 중요도를 파악하고, permutation importance는 특정 feature를 random하게 섞어, 섞인 feature를 noise로 만들어 생기는 예측값과 실제값의 차이로 해당 feature의 중요도를 파악함. 특정 feature를 넣었을 때 성능이 떨어지면 중요도가 높고, 성능이 떨어지지 않으면 중요도가 낮은 feature라고 볼 수 있음.

장점

  1. 모델을 재학습 시키지 않아도 됨.

단점

  1. random하게 feature를 투입하기 때문에, 실행마다 feature importance 결과가 매우 달라질 수 있음. - 적절한 횟수를 선택해야 하는 과제가 남음.
  2. random하게 섞다보면 매우 비현실적인 데이터 조합이 생성될 가능성이 있음. feature간 상관관계가 높은 경우에는 적절하지 않은 데이터로 feature importance를 믿기 어려운 상황이 올 수 있다.(e.g. 키가 2m인데 몸무게가 20kg인 셋)

GPT답변 :

"Permutation importance"와 "feature importance"는 머신러닝에서 중요한 특징(Feature)을 평가하는 두 가지 다른 방법입니다. 이 두 방법은 특징의 중요성을 측정하는 방식에서 차이가 있습니다.

Feature Importance

  1. 정의: Feature Importance는 주로 결정 트리 기반 알고리즘(예: 랜덤 포레스트, 그래디언트 부스팅 머신)에서 사용되는 방법입니다. 이 방법은 모델의 학습 과정에서 각 특징이 얼마나 중요한 역할을 하는지를 평가합니다.

  2. 계산 방식: 이 방법은 각 특징이 모델의 예측에 기여하는 정도를 측정합니다. 예를 들어, 랜덤 포레스트에서는 각 트리에서 특징이 분할에 기여하는 정보의 양(정보 이득, 지니 불순도 감소 등)을 기반으로 중요도를 계산합니다.

  3. 장점과 단점:

    • 장점: 직관적이고 계산이 빠릅니다.
    • 단점: 특징 간 상호 작용을 반영하지 않을 수 있고, 고차원 데이터나 상관 관계가 있는 특징에 대해 잘못된 중요도를 부여할 수 있습니다.

Permutation Importance

  1. 정의: Permutation Importance는 모델이 학습된 후에 적용되는 방법으로, 모델의 성능에 대한 특징의 영향을 평가합니다.

  2. 계산 방식: 이 방법은 특정 특징의 값들을 무작위로 섞어(permutate) 모델의 성능이 얼마나 변화하는지를 관찰합니다. 특징을 섞었을 때 모델의 성능이 크게 감소하면 그 특징이 중요하다고 간주합니다.

  3. 장점과 단점:

    • 장점: 모델 유형에 덜 의존적이며, 특징 간의 상호 작용을 더 잘 반영할 수 있습니다.
    • 단점: 계산 비용이 더 많이 들고, 높은 상관 관계를 가진 특징들 사이에서 정확도가 떨어질 수 있습니다.

결론

  • Feature Importance는 모델 학습 과정에서 계산되며, 결정 트리 기반 모델에서 주로 사용됩니다. 이 방법은 빠르고 직관적이지만, 모델의 내부 메커니즘에 의존적이며 특징 간 상호 작용을 완전히 반영하지 못할 수 있습니다.

  • Permutation Importance는 학습된 모델을 기반으로 하며, 모델의 성능에 대한 특징의 영향을 평가합니다. 이 방법은 보다 일반적이고, 특징 간 상호 작용을 더 잘 반영하지만, 계산 비용이 더 많이 들고 특정 상황에서 정확도가 떨어질 수 있습니다.

0개의 댓글

관련 채용 정보