논문 모수 추정량

choyunjeong·2025년 1월 17일

1. 상대위험도를 선택한 이유

  1. 관심 있는 결과 변수가 이분형일 때, 노출의 위험이나 치료 효과를 평가하는 측도로 오즈비와 함께 많이 사용됩니다.

  2. 오즈비는 non - collapsible\text{non - collapsible} [1,2] 성질이 있어 교란 변수를 추가하거나 사건의 확률이 커지면, 추정값이 선형으로 증가하는 것이 아니라 비선형적으로 증가한다. 반면, 상대위험도는 collapsible\text{collapsible} 성질이 있어 선형으로 증가하기 때문에 사건의 확률이 커지거나 다양한 이유에서 두 값의 차이는 점점 더 증가할 수 있다. 오즈비는 시뮬레이션에서 모집단의 모수를 지정하더라도 하위 집단에서 그 모수가 달라 두 집단의 차이를 비교하는 시뮬레이션에서 좀 더 복잡해집니다.

  3. 결과 발생의 확률이 낮고 하위 그룹간 기저 위험이 상대적으로 일정할 때 두 값은 거의 비슷해지지만 [3], 단순히 오즈비를 상대위험도로 잘못 동일 시 한다면 과장된 결과를 초래할 수 있습니다. 그럼에도 로지스틱 회귀를 무비판적으로 적용하여 조정된 오즈비를 상대위험도로 단순 변환하는 것은 잘못된 신뢰구간을 제공할 뿐만 아니라 [4], 가장 중요한 것은 상대위험도의 일관되지 않은 추정값을 생성한다는 점입니다. 즉, 표본 크기가 증가해도 편향이 감소하지 않습니다.

\\[40pt]

2. 상대위험도를 직접 추정하는 이항, 포아송 모형의 단점

(1) 이항 회귀

첫째, 로그-이항 모델로 계산된 조정된 상대위험도의 신뢰구간이 실제보다 좁을 수 있습니다 [4, 5].

  • 다른 논문의 시뮬레이션 연구 결과에 따르면 이러한 편향은 미미한 편이긴 합니다.

둘째, 특정 상황에서는 로그-이항 모델이 수렴하지 않아 모수 추정치를 제공하지 못할 수 있습니다 [4, 5].

  • 이항 회귀의 관심있는 모수는 확률로 공간 경계 (0과 1사이)에 최대가능도 추정값이 있는 상황에서 프로그램이 올바른 추정치를 계산하지 못하는 경우가 있습니다. 이 경우 반복 과정이 경계에서 멈추게 될 수 있으며, 경계에서 약간 벗어나도록 중간 적합값을 조정하여 반복이 가능도를 극대화하는 값으로 계속 진행하도록 해야 할 수 있습니다.

  • 이 모형은 Xβ<0X\beta<0 조건에서만 정의되며 이 조건을 만족한 경우에 최대가능도 추정량의 최댓값을 얻을 수 있습니다. 그러나 초기 모수 값이 적절하지 못할 때 Xβ>0X\beta>0인 경우가 있는데 이때는 수렴하지 못합니다. 이 문제는 모델 적합 과정에서 추가 반복(iteration)을 요구함으로써 해결할 수 있습니다.

\\[30pt]

(2) 포아송 회귀

포아송 회귀는 일반적으로 피험자들이 가변적인 시간 동안 추적될 때 (발생이 적은) 사건을 분석하는 데 적합하므로 이항 데이터에서 적용할 때, 추정된 상대위험도의 오차 (error for the estimated relative risk)는 과대 추정될 수 있기 때문에 보수적인 결과가 나오는 경향이 있습니다 [4, 6].

\\[40pt]

3. 수정된 포아송 회귀

위에 설명한 것처럼 포아송 회귀는 일반적으로 피험자들이 가변적인 시간 동안 추적될 때 희귀 사건을 분석하는 데 적합하므로 포아송 회귀가 이항 데이터를 적용할 때, 추정된 상대위험도의 오차 (error for the estimated relative risk)는 과대 추정될 수 있습니다. 그러나 이 문제는 샌드위치 추정법(sandwich estimation)이라고 알려진 로브스트 오차 분산 절차 (robust error variance procedure)를 사용하여 수정할 수 있으며 [7], 이를 통해 수정된 포아송 회귀(modified Poisson regression)라는 기법이 탄생하게 됩니다 [6].

(1) 수정된 포아송 회귀

  • 기본 포아송 회귀모형

: 단위 시간 안에 어떤 사건이 몇 번 발생할 것인지를 표현하는 이산 확률 분포로, 정해진 시간 안에 어떤 사건이 일어날 횟수에 대한 기댓값을 λ\lambda라고 했을 때, 그 사건이 yy회 일어날 확률은 다음과 같다.

f(y,λ)=λyeλy!,yPoisson(λ)f(y, \lambda)=\dfrac{\lambda^{y}e^{-\lambda}}{y!},\quad y\sim Poisson(\lambda)

이 때 π(xi)\pi(x_i)로 표현되는 xix_i의 함수로 기초 위험을 가지고 있다고 가정합니다. π(xi)\pi(x_i)는 항상 양수여야 하므로, 로그 링크 함수는 π(xi)\pi(x_i)를 모델링하기 위한 자연스러운 선택입니다. 따라서,

log[π(xi)]=α+βxiλ=π(xi)=exp(α+βxi)f(y,λ)={exp(α+βxi)}yie{exp(α+βxi)}y!\begin{aligned} \log[\pi(x_i)] &= \alpha + \beta x_i \\[10pt] \lambda = \pi(x_i) &= \exp(\alpha + \beta x_i) \\[10pt] f(y, \lambda) &= \dfrac{\{\exp(\alpha + \beta x_i)\}^{y_i}e^{-\{\exp(\alpha + \beta x_i)\}}}{y!} \end{aligned}

주어진 데이터를 가장 잘 설명하는 α, β\alpha,\ \beta를 추정하기 위해 가능도 함수를 이용합니다.

L(α,β; yi)=i=1nf(yi; α,β)=i=1nexp(α+βxi)yieexp(α+βxi)yi!\begin{aligned} L(\alpha, \beta;\ y_i) & = \prod_{i=1}^{n} f(y_i ;\ \alpha, \beta) \\ & =\prod_{i=1}^{n} \dfrac{\exp(\alpha + \beta x_i)^{y_i}e^{-\exp(\alpha + \beta x_i)}}{y_i!} \end{aligned}

계산의 편리성을 위해 로그 가능도로 변환합니다.

l(α,β)=log L(α,β)=i=1nlog f(yi; α,β)=i=1n[yi(α+βxi)exp(α+βxi)log(yi!)]=C+i=1n[yi(α+βxi)exp(α+βxi)]\begin{aligned} l(\alpha, \beta)=\text{log }L(\alpha, \beta) &=\sum_{i=1}^{n}\text{log } f(y_i ;\ \alpha, \beta) \\[10pt] &=\sum_{i=1}^{n}[y_i(\alpha + \beta x_i) - \exp(\alpha + \beta x_i)-\text{log}(y_i!)]\\[10pt] &=C+\sum_{i=1}^{n}[y_i(\alpha + \beta x_i) - \exp(\alpha + \beta x_i)] \end{aligned}

로그가능도의 편미분 값이 0일 때 로그가능도가 최대가 됩니다.

α\alpha에 대한 미분:

lα=i=1n[yiexp(α+βxi)]=0i=1nyi=i=1nexp(α+βxi)\begin{aligned} \frac{\partial l}{\partial \alpha} &= \sum_{i=1}^n \left[ y_i - \exp(\alpha + \beta x_i) \right]= 0 \\[15pt] \sum_{i=1}^n y_i &= \sum_{i=1}^n \exp(\alpha + \beta x_i) \end{aligned}

β\beta에 대한 미분:

lβ=i=1nxi[yiexp(α+βxi)]=0i=1nxiyi=i=1nxiexp(α+βxi)\begin{aligned} \frac{\partial l}{\partial \beta} &= \sum_{i=1}^n x_i \left[ y_i - \exp(\alpha + \beta x_i) \right] = 0 \\[15pt] \sum_{i=1}^n x_i y_i &= \sum_{i=1}^n x_i \exp(\alpha + \beta x_i) \end{aligned}

두 식은 동치이므로 어느 값에 관계없치 최적의 α,β\alpha, \beta의 값을 찾는게 쉽지 않다. 임상연구에서 보통 대조군과 처치군을 대상으로 하기 때문에 x=0, 1x=0,\ 1대입하여 최적의 α,β\alpha, \beta의 값 계산.

기준 집단 (x=0)(x = 0):

i:xi=0yi=i:xi=0exp(α^)c=n0exp(α^)exp(α^)=cn0\begin{aligned} \sum_{i: x_i = 0} y_i &= \sum_{i: x_i = 0} \exp(\hat{\alpha}) \\[15pt] c &= n_0 \cdot \exp(\hat{\alpha}) \\[5pt] \exp(\hat{\alpha}) &= \frac{c}{n_0} \end{aligned}

비교 집단 (x=1)(x = 1):

i:xi=1yi=i:xi=1exp(α+β)a=n1exp(α^+β^)exp(β^)=an0cn1=a/(a+b)c/(c+d)\begin{aligned} \sum_{i: x_i = 1} y_i &= \sum_{i: x_i = 1} \exp(\alpha + \beta) \\[15pt] a &= n_1 \cdot \exp(\hat{\alpha} + \hat{\beta}) \\[5pt] \exp(\hat{\beta}) &= \frac{a \cdot n_0}{c \cdot n_1} = \frac{a/(a+b)}{c/(c+d)} \end{aligned}

상대위험비는 RR^=exp(β^)\hat{\text{RR}}=\exp(\hat{\beta})입니다. 또한 RR^\hat{\text{RR}}의 분산은

var^(RR^)=1a+1c\hat{\text{var}}(\hat{RR}) = \frac{1}{a} + \frac{1}{c}

입니다. 이제, 기본 데이터가 이항 분포를 따르므로 포아송 회귀 모형의 오차 항 (error term)이 잘못 지정되었으므로 분산을 과대 추정없이 수행하기 위해 샌드위치 추정법(sandwich estimator)을 사용합니다. 포아송 분포가 옳은 모형일 때 피셔의 정보량을 사용하여 점근적으로 정규분포를 따르는 것을 알 수 있습니다.

n(λ^λ)dN(0,1I(θ))\sqrt{n}(\hat{\lambda}-\lambda)\xrightarrow{d} N\left(0,\dfrac{1}{I(\theta)}\right)

하지만 포아송 분포를 따르지 않은 데이터는 위 방법을 사용하여도 점근적으로 정규분포를 따르지 않습니다. 샌드위치 추정법은 I(θ)I(\theta)대신 λ^\hat{\lambda}를 대입하여 점근적 정규분포 따르게 할 수 있습니다.

λ^=(yyˉ)2n,Var=λ^n\hat{\lambda}=\sum\dfrac{(y-\bar{y})^2}{n}, \quad \text{Var}=\dfrac{\hat{\lambda}}{n}

따라서 수정된(correct) 분산은 다음과 같이 쉽게 표현될 수 있습니다.

var(RR^)=1a2i=1n1[yiexp(α+β)]2+1c2i=1n0[yiexp(α)]2,\text{var}(\hat{RR}) = \frac{1}{a^2} \sum_{i=1}^{n_1}[y_i-\exp(\alpha + \beta)]^2 + \frac{1}{c^2} \sum_{i=1}^{n_0}[y_i-\exp(\alpha)]^2,

그리고 다음 식은 분산을 일관되게 추정합니다.

var^(RR^)=1a1n1+1c1n0\quad \hat{\text{var}}(\hat{RR}) = \frac{1}{a}-\frac{1}{n_1} + \frac{1}{c}-\frac{1}{n_0}

\\[30pt]

(2) 수정된 포아송 회귀 결과

수정된 포아송 회귀는 상대위험(relative risk)을 일관되고 효율적으로 추정하기 위해 샌드위치 오차 항 (sandwich error term)을 포함한 포아송 회귀(Poisson regression)를 사용할 것을 제안하였습니다. 이 방법을 구현하는 데 추가적인 프로그래밍 작업은 필요하지 않습니다. 이항 회귀(binomial regression)와 비교했을 때, 수정된 포아송 회귀 절차는 수렴 문제를 겪지 않으며, 공변량이 범주형인 경우에도 매우 유사한 결과를 제공합니다. 이항 회귀 절차도 만족스러운 결과를 제공하지만, 시작값(starting values)을 선택할 때 특별한 주의가 필요합니다.

상대위험을 직접 추정할 수 있는 많은 대체 모델이 존재합니다. 그 대안 중 하나로, 본 논문에서는 최소한 이항 회귀만큼 유연하고 강력한 수정된 포아송 회귀 절차를 제안했습니다. 로그 링크(logarithm link)를 사용해 상대위험을 추정하는 추가적인 장점은, 로지스틱 회귀와는 달리 생략된 공변량에 대해 상대적으로 강건하다는 점입니다.

강건한 오차 추정(robust error estimate)은 포아송 회귀가 이진 데이터에 적용될 때 발생하는 분산의 과대 추정을 처리하기 위해 이 접근법을 적용했습니다.


Reference

  1. Greenland S, Robins JM, Pearl J. Confounding and collapsibility in causal inference. Statist Sci. 1999;14:29–46.

  2. The Relative Merits of Risk Ratios and Odds Ratios(번역본)

  3. Greenland S. Interpretation and choice of effect measures in epidemiologic analyses. Am J Epidemiol 1987;125:761–8.

  4. Estimating the relative risk in cohort studies and clinical trials of common outcomes (번역본)

  5. Prevalence proportion ratios: estimation and hypothesis testing (번역본)

  6. A Modified Poisson Regression Approach to Prospective Studies with Binary Data (번역본)

  7. Model Robust Confidence Intervals Using Maximum Likelihood Estimators(번역본)

0개의 댓글