생존분석 -2

정지현·2022년 11월 30일

인턴정리

목록 보기

2/2

1. 생존분석에 나오는 다양한 Function

보통은 생존함수로 부터 생존률을 예측하는데 , 내가 사용하고 있는 CoxPH 모델에서는. hazard function을 이용한다. 공부하고 보니 두 함수는 다른 게 아니라 1-survival_function() = hazard_function() 이라는 것..

1. survival function

생존 함수는 관찰 대상이 특정 시간보다 더 오래 생존할 확률을 나타낸다.
시작 시점에는 모두 살아있으니 1에서 시작하고, 시간이 흐르면서 대상 중 일부가 사망(이탈)할 것이고 다시 살아나지는 않는다.
따라서 생존함수는 시간이 갈수록 감소만 하는 단조 감소 함수이다.

관찰 종료시점을 두지 않고 시간을 무한대로 늘리면 결국 모두가 사망하게 된다.
하지만 중도 절단 되었을 경우 마지막 시점에서 생존 확률이 0 이 아닐 수도 있다는 점!

2.hazard function

hazard function의 정의는 다음과 같다

3. cumulative hazard function

이 위험함수를 0부터 t까지 적분하면 cumulative hazard function(누적위험함수)

2. Continuous-Time vs Discrete-Time

continuous-time model은 생존시간을 연속적으로 보고 종료 시점까지 모든 시점에 대해서 생존률을 예측하는 반면,
discrete-time model은 시간을 일정 간격으로 자르고 multi-task bonary classification에 적용한다.

continuous model에서는 통계학 특성상(??) 데이터가 만족해야할 가정이 있는데 이는 실제 데이터를 통해서 보면 위배될 수 밖에 없는 것 같다...
discrete model에서는 생존 시간을 이산화해서 이런 가정을 약화시켰다고 한다.

시간을 얼마의 간격으로 discretize 하느냐가 정확도에 많은 영향을 주기 때문에 hyperparameter tuning이 필요하다.

3. CoxPH

1. Cox Proportional hazard assumption

CoxPH 모델은 변수의 영향이 시간과 무관하다고 가정한다. => 어떤 변수의 hazard ratio는 시간에 관계없이 일정

쉽게 말하면, 흡연자는 비흡연자보다 사망위험이 높지만 담배를 갓 피우기 시작한 사람이나 30년 넘게 피운 사람이나 동일하게 위험하다고 가정하는 것이다.

또한 관측치(observed data)는 서로 독립적이며, 공변량이 위험 함수에 선형 곱셈 효과를 갖는 지수함수를 따라 특정 시점의 생존함수가 위험비에 대한 지수함수로 나타난다고 가정한다.

CoxPH에서 사용하는 Baseline Hazard Function

Cox 모델의 장점은 계수(식에서 베타)의 해석능력에 있다.
$x_i$ : 흡연 여부 (1: 흡연 , 0 : 비흡연)
흡연할 경우 위험도 : $h_0(t)\exp(\beta * 1)=h_0(t)\exp(\beta)$
비흡연 경우 위험도 : $h_0(t)\exp(\beta * 0)=h_0(t)$
Hazard Ratio : $h_0(t)\exp(\beta) \ / \ h_0(t) = exp(\beta)$

=> 흡연할 경우 비흡연에 비해 $exp(\beta)$ 배 위험하다

참고
https://www.theteams.kr/teams/2764/post/71113
https://velog.io/@jeromecheon/생존-분석-Survival-Analysis-탐구-1편
논문 Empirical Comparison of Continuous and Discrete-time Representations for Survival Prediction

정지현

이전 포스트