논문 Review (Machine Learning based mortality prediction of patients undergoing resynchronization therapy: the SEMMELWEIS-CRT score)

Hoya Jaeho Lee·2022년 4월 4일
0

Review

목록 보기
4/4


이번 시리즈도 논문에서 활용한 간단한 ML 방법 위주로 정리 진행 하겠습니다:)

Randomforest의 Feature Importances

Gini importance의 한계 지적

-Gini importance, 즉 mean decrease in impurity (지니 평균 감소량, 불순물)이 클수록 중요 변수라고 판단:)

불순도를 가장 많이 감소시켜주는 독립변수가 좋은 변수라는 것을 의미!!
하지만 연속형 변수나 high cardinality의 범주형 변수에 대한 부풀기 (inflation)가 다소 크기 때문에 한계가 지적됨:)

즉, 대안점으로 사용한 Permutation Importance!
Permutation Importance는 모델 예측에 가장 큰 영향을 미치는 Feature 를 파악하는 방법으로, 모델 훈련이 끝난 후 특정 feature를 사용하지 않았을 때 decrease in model's performance 계산을 통해 성능 손실 비교하여 중요도 판단하는 기법.

Brier score: 관측되고 예측된 결과 값에 대한 mean squared differences 라고 정의됨
0에 근접할수록 better calibration:)

profile
Biostatistics researcher Github: https://github.com/hoyajhl

0개의 댓글