논문에서 활용한 통계 분석 방법 위주로 정리 하겠습니다:)
Figure for Survival Analysis algorithm
Traditional version of statitical methods in survival analysis (Kaplan Meier, Cox ph, Coxnet) 외에도 ML기법으로 Support Vector Machines과 Ensemble Methods를 활용한 것을 본 논문에서는 중요한 포인트라고 할 수 있습니다.
Traditional version of statistical survival analysis
-Kaplan Meier Estimator: 비모수적(Non-parametric) 방법으로 특정 시점에서 이벤트의 사건 확률이 첫번째로 관측되고 이러한 연속적인 확률들이 곱해져서 최종 survival estimation에 도달하게 됩니다. 하지만 단점도 분명 존재하게 되는데, 다수의 공변량(covariates)을 동시에 설명하기 적합하지 않고, 불규칙한 헬스케어 문제들의 사건을 충분히 반영하지 못합니다.
-Cox proportional Hazard: 카플란 마이어가 다수의 피쳐들을 동시에 처리하지 못한다는 단점을 보완하여 cox ph의 경우 다수의 피쳐들을 동시에 처리합니다. 선형적이고 반모수적(semi-parametric) 기법이고 몇가지 가정 사항들을 따르게 됩니다. 독립변수들이 종속변수에 대한 exponential impact를 가지고 다른 개인들이 동시에 같은 hazard functions을 가진다는 전제가 있습니다. Baseline hazard function이 불분명하다는점에서 현실 세계 문제에는 적용이 다소 어렵다는 제한 사항이 있습니다.
-Coxnet: a regularized version of Cox ph by adding L1 (Lasso), L2 (Ridge), or a combination of L1 and L2 (Elastic net).
본 논문에서는 충분한 Covid-19 환자들의 clinical data가 활용되지 않았다는 점과 covariates의 제한된 갯수는 차원 축소 방법을 적용하기에 큰 효과가 존재하지 않아서 Coxph와 Coxnet에서 비슷한 결과가 나올것이 기대되었습니다.
-Accelerated Failure Time Model: 모수적(parametric) 방법으로 다른 타입의 회귀 선형 모델입니다. 표본들이 inverse probability of censoring 기법에 의해 가중치되었고 censoring status는 공변량에 대해 독립적입니다.
ML models
-Stagewise Gradient Boosting: hazard function을 추정하는 앙상블 부스팅 ml 기법
-Componetwise Gradient Boosting: coefficients를 추정하는 앙상블 부스팅 ml 기법
-SVM (Support Vector ML)
예상하는 것과 같이 본 논문에서는 Gradient Boosting 계열의 모델에서 prediction에서 더 좋은 결과가 나왔습니다.
활용 코드 참고:
GitHub (https://github.com/Mnemati/Machine-Learning-Approaches-in-COVID19-Survival-Analysis)