논문 Review (Biostat Approaches using ML)

Hoya Jaeho Lee·2022년 1월 9일
0

Review

목록 보기
3/4

이번 시리즈 역시 논문에서 활용한 통계 분석 방법 위주로 정리 하겠습니다:)

본 논문은 심부전 환자의 데이터 세트를 분석하여 ML 분류기를 사용하여 환자의 생존을 예측하고 가장 중요한 feature의 순위를 지정하였습니다. Traditional biostatistics method를 활용하여 대체가능한 feature rank를 또한 진행하였다는 점을 주목해야합니다. 두 가지 다른 접근 방법에서 선택한 혈청 크레아티닌과 ejection fraction 두 변수가 높은 관련성을 가지는 변수로 나와 두 가지 요인에 대한 ML 생존 예측 모델을 진행하였습니다.

A traditional univariate Biostatistics analysis

본 논문에서는 Mann-Whitney U 검정, Pearson 상관 계수 및 카이 제곱 검정으로 두 그룹 간의 각 특성 분포를 비교합니다. Shapiro-Wilk test로 각각의 features들이 normal distribution을 따르는지 검정도 진행하였습니다.
각 테스트에서 적용되는 의미는 다르지만 각 테스트에서 활용하는 지표들로 점수를 산출합니다. Coefficient for PCC, p-value의 값 제공은 타겟 변수와의 연관 가능성을 나타내는 주요 지표여서 이를 이용하여 features들을 list하여 나타낼 수 있습니다.

Randomforest model feature selection

(a) Accuracy reduction을 통한 feature selection
(b) Gini Impurity을 통한 feature selection

Mann-Whitney U 검정

The Mann-Whitney U test is often considered a nonparametric alternative to an independent sample t-test

References

https://stat-methods.com/home/mann-whitney-u-r/#:~:text=Mann-Whitney%20U%20Test%20Annotated%20R%20Output%201%20Descriptive,Test%20Results%20and%20Hodges-Lehmann%20Estimate%20in%20R.%20

profile
Biostatistics researcher Github: https://github.com/hoyajhl

0개의 댓글