Estimating the Relative Risk in Cohort Studies and Clinical Trials of Common Outcomes 번역본.

choyunjeong·2025년 1월 15일

Reference sentences

- A Modified Poisson Regression Approach to Prospective Studies with Binary Data (번역본)

  • 그럼에도 불구하고 최근 의학 문헌에서는 종종 전향적 연구에 로지스틱 회귀를 무비판적으로 적용하는 경우가 많았습니다. 쉽게 접근할 수 있는 대안이 없다는 인식과 결합하여, 조정된 오즈비를 상대위험도로 단순 변환하는 것이 문제를 더욱 복잡하게 만들었습니다. 이러한 변환 방법은 잘못된 신뢰구간을 제공할 뿐만 아니라, 가장 중요한 것은 상대위험도의 일관되지 않은 추정값을 생성한다는 점입니다. 즉, 표본 크기가 증가해도 편향이 감소하지 않습니다.

  • 상대위험도를 직접 추정하려면 일반적으로 이항 회귀 (8)와 포아송 회귀가 권장됩니다.

  • 이항 회귀 모델에서는 수렴 문제로 인해 상대위험도를 추정하지 못할 수도 있습니다.

  • 반면, 포아송 회귀를 사용할 경우 보수적인 결과가 나오는 경향이 있습니다.

\\[40pt]

Abstract

로지스틱 회귀는 질병 발생률이 드문 경우(10% 미만) 잠재적 교란 변수를 보정하면서 보정된 상대위험도(adjusted relative risk)를 근사화한 보정된 오즈비(adjusted odds ratio)를 제공합니다. 그러나 더 흔한 결과에서 오즈비는 항상 상대위험도를 과대평가하며, 때로는 그 정도가 매우 큽니다. 이 논문의 목적은 보정된 오즈비로부터 보정된 상대위험도를 추정하기 위해 제안된 방법의 잘못된 적용에 대해 논의하고, 의료 및 공중보건 연구에서 빠르게 인기를 얻은 이 방법의 대안을 제시하는 것입니다. 또한, 결과가 흔한 경우 보정된 상대위험도를 추정하기 위한 대체 통계 방법을 설명합니다. 가상의 데이터를 사용하여 접근 가능한 통계 소프트웨어를 통해 이러한 통계 방법을 설명합니다.

\\[40pt]

Introduction

흔한 결과에 대한 연구는 의학 및 공중보건 분야에서 점점 더 빈번하게 이루어지고 있습니다. 증상, 건강 행동, 의료 서비스 이용, 심지어 고위험 집단에서의 희귀 질환 연구까지도 연구 집단에서 빈번히 발생할 가능성(10% 이상)을 가지고 있습니다. 이 사실은 연구를 위한 적절한 통계 분석 방법을 결정할 때 중요한 고려사항이 됩니다. 일반적으로 연구자들은 흔히 희귀 질환 연구를 위해 설계된 통계 방법을 사용하며, 때로는 이를 흔한 결과 연구에 잘못 적용하기도 합니다. 이러한 문제의 예로는 로지스틱 회귀를 사용하여 보정된 오즈비(adjusted odds ratio)를 추정하고, 이 추정치를 상대위험도(relative risk)로 해석하는 경우를 들 수 있습니다. 결과 발생률이 10% 미만일 때 이 관계는 대략적으로 성립하지만, 결과가 더 흔한 경우에는 보통 그렇지 않습니다. 로지스틱 회귀는 흔한 결과 연구에 올바르게 적용될 수 있지만, 공중보건에서는 한 노출군에서의 결과 발생 확률을 기준군과 비교하여 상대위험도를 추정하는 데 더 관심이 있는 경우가 많습니다. 그러나 이 추정치의 해석은 문제가 될 수 있습니다. 흔한 결과 연구에서는 추정된 오즈비가 상대위험도를 과대평가하는 경우가 많습니다.

Zhang과 Yu가 1998년에 제안한 방법은 흔한 결과에 대한 코호트 연구에서 보정된 오즈비를 수정하기 위한 방법으로, 의료 및 공중보건 연구에서 인기를 끌었습니다 (1). 2001년 5월 15일에 접근한 Journal Citation Reports에 따르면, 이 논문은 74회의 인용을 받았으며, 그중 56건의 연구가 Zhang과 Yu의 방법을 데이터 분석에 활용했습니다. 그러나 대부분의 경우 이 방법은 잘못 적용되었습니다. 2003년 3월 28일까지 Zhang과 Yu의 논문은 214건의 과학 출판물에서 인용되었습니다.

이 논문의 목적은 Zhang과 Yu 방법이 많은 연구자들에 의해 적용된 방식의 한계를 논의하고, 질병 발생률이 흔하고 혼란 변수(confounding)가 존재할 때 보정된 상대위험도와 신뢰구간을 추정하기 위한 대체 방법을 간략히 검토하는 것입니다. 우리가 초점을 맞춘 연구 설계는 코호트 연구와 임상시험으로, 연구 대상자의 추적 기간이 동일하며, 최소한 한 노출군 또는 치료군에서의 누적 발생률이 10%를 초과하는 경우입니다.

우리는 의료 및 공중보건 연구에서 널리 사용되는 통계 프로그램과 호환되는 방법에 중점을 둡니다. 여기에는 1) 층화 분석 (stratified analysis), 2) 포아송 회귀 (Poisson regression), 그리고 3) 로그-이항 (log-binomial) 모델이 포함됩니다. 보정된 상대위험도의 신뢰구간을 추정하기 위한 다른 방법 (예: 델타 방법, 부트스트랩)은 매력적인 특성을 가지고 있으나 (2,3), 이러한 방법을 지원하는 사용자 친화적인 소프트웨어는 아직 개발 중이며 연구자들에게 널리 사용 가능하지 않습니다. 본 논문은 상대위험도의 효과 수정(effect modification, 다른 요인들과의 상호작용)이 존재하지 않는 상황에 중점을 둡니다.

\\[40pt]

COMPARISON OF AVAILABLE METHODS

예를 들기 위해 몇 가지 가상의 연구를 설계하였습니다. 각 연구는 특정 위험 요인(E)과 질병(D) 간의 연관성을 조사하며, 교란 변수(C)를 보정해야 합니다. 검토된 방법의 보정된 상대위험도와 비조정된 상대위험도를 계산한 데이터는 표 1에 제시되어 있습니다. 또한, Zhang과 Yu의 보정 방법에서 발생할 수 있는 잠재적 편향을 강조하는 시뮬레이션 연구 결과를 표 2에 제공합니다.

\\[40pt]

MODEL SELECTION: STUDYING ASSOCIATION VERSUS PREDICTION

데이터에 적합한 통계 모델이 단 하나만 존재하는 경우는 드뭅니다. 오히려 연구자들은 데이터를 공정하게 요약하는 여러 모델 중에서 선택해야 하는 상황에 처합니다. 데이터에 적합한 모델 간 선택은 다양한 기준에 따라 이루어지며, 그중 하나는 연구 질문입니다. 노출/위험 요인과 결과 간 연관성을 측정하는 연구에서는 상대위험도(relative risk)가 계산됩니다. 예측 모델에서 간결함(parsimony)이 중시되는 것과 달리, 연관성을 연구하기 위한 회귀 모델에서는 결과의 분산을 크게 설명하지 못하는 요인이라 하더라도 분석에서 보정해야 할 만큼 노출과 결과 간 연관성을 교란하는 요인들을 포함하는 경우가 많습니다 (4, 5). 모델 선택 시 고려해야 할 다른 기준으로는 영향을 미치는 개인(특이치), 극단적인 이상값(outlier), 및 모델 적합성과 관련된 기타 요인들이 포함됩니다 (4).

\\[40pt]

ZHANG AND YU’S PROPOSED METHOD

Zhang과 Yu는 로지스틱 회귀분석에서 도출된 오즈비(odds ratio)를 상대위험도(relative risk)로 변환하는 간단하면서도 흥미로운 공식을 제안했습니다(1):

RR=OR(1P0)+(P0×OR)\text{RR} = \dfrac{\text{OR}}{(1-P_0)+(P_0\times \text{OR})}

이 공식에서 P0P_0는 비노출(nonexposed) 집단에서의 결과 발생률, OR\text{OR}은 로지스틱 회귀 방정식에서 도출된 오즈비, 그리고 RR\text{RR}은 추정된 상대위험도를 의미합니다. 대부분의 연구자들은 조정된 오즈비(adjusted odds ratio)에 이 공식을 적용하여 조정된 상대위험도를 추정하려고 합니다. 하지만, 이러한 방식은 부적절하며, 교란(confounding)이 존재할 경우 편향된 추정치를 초래합니다. 교란이 없는 경우라면 회귀분석이 필요하지 않으며, 단순 계산을 통해 상대위험도를 추정할 수 있습니다 (6).

로지스틱 회귀분석을 사용할 때, 각 공변량 패턴 (i)(i)에 대해 추정된 상대위험도를 계산할 수 있습니다: 여기서 YY는 관심 있는 결과 요인(종속 변수), EE는 관심 있는 노출 요인, x2,,xkx_2, \ldots, x_k는 교란 변수들입니다.

RR=P(YE,x2i,,xki)P(YEˉ,x2i,,xki)=1+eβ0+β1Eˉ+β2x2i++βkxki1+eβ0+β1E+β2x2i++βkxki\text{RR}=\dfrac{P(Y|E,x_{2i},\ldots,x_{ki})}{P(Y|\bar{E},x_{2i},\ldots,x_{ki})} =\dfrac{1+e^{\beta_0+\beta_1\bar{E}+\beta_2x_{2i}+\cdots+\beta_kx_{ki}}}{1+e^{\beta_0+\beta_1E+\beta_2x_{2i}+\cdots+\beta_kx_{ki}}}

이 공식은 복잡해 보이지만, 통계 프로그램에서 일반적으로 제공하는 예측값에 불과합니다. 단, 이 공식은 고전적(case-control) 환자-대조군 연구에서는 사용할 수 없습니다. 왜냐하면 절편(intercept)을 유효하게 추정할 수 없기 때문입니다.

우리 연구에서 폭력이 건강에 미치는 영향을 조사한 데이터에 따르면, Zhang과 Yu의 교정식을 조정된 오즈비(adjusted odds ratio)에 적용하고 전체 샘플의 비노출군에서의 발생률을 사용하는 경우, 일반적으로 결과가 영가설(null)로부터 멀어지게 편향되는 경향이 있습니다. 이는 연관성의 강도가 실제보다 더 크다고 시사합니다. 이러한 편향은 해당 공식을 하나의 요약 값으로 사용할 때, 각 공변량 패턴에서 노출과 관련된 질병 발생률의 더 복잡한 관계를 고려하지 않기 때문에 발생합니다. 이러한 결과는 Zhang과 Yu의 시뮬레이션 연구에서도 관찰되었습니다 (1). 공식을 특정 공변량 패턴에 적용할 수는 있지만, 예측 확률의 비율을 취하는 방법이 공변량 패턴별 상대위험도를 구하는 더 간단한 방법입니다. 또한, 일반적으로 결과가 흔한 경우, 오즈비의 균질성(homogeneity)은 상대위험도의 균질성과 공존할 수 없다는 점을 주목해야 합니다. 데이터를 적절히 설명할 수 있는 통계 모델이 하나 이상 있을 수 있으나, 효과 수정(effect modification)을 고려할지 여부는 선택한 모델에 따라 달라질 것입니다.

흔한 결과에 대한 연구에서 조정된 상대위험도를 추정하는 데 있어 가장 어려운 문제는 점 추정치(아래에서 논의할 예정)가 아니라 신뢰구간(confidence interval)입니다. Zhang과 Yu가 제안한 조정된 상대위험도의 신뢰구간은 위 공식을 조정된 오즈비 신뢰구간의 경계에 적용하여 계산되는데, 이 역시 편향될 수 있으며, 상대위험도의 추정치가 실제보다 더 정밀하다고 믿게 만들 수 있습니다 (7).

이러한 편향은 제안된 계산법이 추정된 발생률과 추정된 오즈비 간의 공분산(covariance)을 고려하지 않기 때문에 발생합니다. Yu와 Zhang은 그들의 방법에서 “단순성과 정밀성 간의 절충(trade-off)”이 문제라고 언급했지만(8, p. 529), 특히 정책적 함의가 있는 경우에는 정밀성을 과장하지 않는 것이 중요하다고 믿습니다.

표 2에 제시된 시뮬레이션 연구 결과에 따르면, 계산된 95% 신뢰구간의 포괄률(coverage)은 63%에 불과하며(95%가 되어야 함), 이는 일부 일반적인 상황에서 정밀성의 실질적 왜곡이 발생할 가능성을 시사합니다.

\\[40pt]

STRATIFIED ANALYSIS

가장 간단하고 잘 알려진 조정된 상대위험도를 계산하는 방법 중 하나는 층화 분석(stratified analysis)입니다 (9). 층화 분석을 사용하면 관심 있는 위험 요인(E)과 질병(D) 간의 상대위험도를 교란 변수의 각 수준에 대해 계산할 수 있습니다. 이렇게 산출된 층별(stratum-specific) 상대위험도를 통합하여 하나의 조정된 상대위험도를 생성할 수 있으며, 일반적으로 층별 상대위험도의 가중 평균(weighted average)을 취하는 방식으로 이루어집니다. 보통 가중치는 더 많은 개체가 있는 층에서는 더 크게, 적은 개체가 있는 층에서는 더 작게 설정됩니다 (4).

\\[40pt]

LOG-BINOMIAL MODEL

로그-이항(log-binomial) 모델은 조정된 상대위험도를 계산하는 유용한 접근법으로 제안되었습니다. 로지스틱 회귀와 마찬가지로, 로그-이항 모델은 이분형 결과를 분석하는 데 사용됩니다. 두 모델 모두 노출과 교란 변수를 고려한 결과(예: 질병 발생 확률)의 확률을 모델링하며, 오차 항이 이항 분포(binomial distribution)를 따른다고 가정합니다. 로지스틱 모델과 로그-이항 모델의 차이는 독립 변수와 결과 확률 간의 연결 방식에 있습니다. 로지스틱 회귀에서는 로짓(logit) 함수를 사용하는 반면, 로그-이항 모델에서는 로그(log) 함수를 사용합니다. 일반적으로 로그-이항 모델은 조정된 상대위험도의 편향되지 않은 추정치를 제공합니다. 몇 가지 단점이 있지만, 많은 교란 변수를 조정해야 하는 경우를 제외하고는 이 모델의 유용성에 큰 제한을 주지 않는 것으로 보입니다.

  • 첫째, 로그-이항 모델로 계산된 조정된 상대위험도의 신뢰구간이 실제보다 좁을 수 있습니다 (10, 11). 그러나 표 2에 나타난 바와 같이, 시뮬레이션 연구 결과에 따르면 이러한 편향은 미미하며, 층화 분석에서 관찰된 편향과 유사합니다. 다양한 상대위험도와 교란 패턴을 시뮬레이션한 결과에서도 유사한 포괄률이 관찰되었습니다(데이터 미제공).

  • 둘째, 특정 상황에서는 로그-이항 모델이 수렴하지 않아 모수 추정치를 제공하지 못할 수 있습니다 (10, 12). 수렴 실패는 단순히 소프트웨어 프로그램이 기본적으로 설정한 수렴 기준이 충분하지 않기 때문 (예; 초기값 설정)일 수 있습니다. 이 문제는 모델 적합 과정에서 추가 반복(iteration)을 요구함으로써 해결할 수 있습니다. 또 다른 이유로는 최대가능도 추정치(maximum likelihood estimate)가 매개변수 공간의 경계에 가까이 위치할 수 있기 때문입니다. 이 경우 반복 과정이 경계에서 멈추게 될 수 있으며, 경계에서 약간 벗어나도록 중간 적합값을 조정하여 반복이 가능도를 극대화하는 값으로 계속 진행하도록 해야 할 수 있습니다.

\\[40pt]

POISSON REGRESSION AND THE CONCEPT OF PLACING BOUNDS ON THE CONFIDENCE INTERVAL

포아송 회귀(Poisson regression)는 일반적으로 환자들이 서로 다른 시간 동안 추적될 수 있는 드문 질병에 대한 연구에서 사용됩니다. 예를 들어, 몇몇 환자들이 추적을 놓친 채로 수년 동안 수행된 드문 결과를 다룬 코호트 연구에서 사용됩니다. 반면, 비조건적 로지스틱 회귀(unconditional logistic regression)는 모든 환자가 동일한 기간 동안 추적되거나 일정한 기간 동안 동등한 추적을 받는 연구에서 일반적으로 사용됩니다. 모든 환자가 동일한 추적 기간을 가지는 코호트 연구에서는, 포아송 회귀를 로지스틱 회귀와 유사하게 사용할 수 있으며, 각 대상에 대해 위험 시간(time-at-risk) 값을 1로 지정합니다. 모델이 데이터에 적합하다면, 이 접근법은 조정된 상대위험도의 정확한 추정치를 제공합니다.

일반적인 결과를 다룬 연구에서, 포아송 회귀는 신뢰구간(confidence interval)을 더 보수적으로 계산하는 경향이 있으며, 이는 실제보다 덜 정밀하다는 것을 시사합니다(표 1 및 2 참조). 포아송 회귀가 로그-이항 모델(log-binomial model) 및 층화 분석(stratified analysis)보다 더 넓은 신뢰구간을 생성하는 이유는, 결과가 흔할 때 포아송 오차가 이항 오차(binomial errors)를 과대 추정하기 때문입니다(포아송 오차는 결과(질병)가 드물 때 이항 오차와 거의 동일합니다). 표 1의 예시에서 보듯이, 신뢰구간은 더 보수적이지만, 층화 분석과 비교한 실제 차이는 중간 정도입니다. 개념적으로 이 신뢰구간은 실제 신뢰구간을 한정하는 것으로 생각할 수 있습니다.

로그-이항 및 포아송 회귀 분석을 위한 컴퓨터 프로그램은 널리 제공됩니다. 예를 들어, 많은 일반화된 선형 모델(generalized linear models) 프로그램(예: SAS의 PROC GENMOD; SAS Institute, Cary, North Carolina)은 로그-이항 및 포아송 회귀 분석 모두에 사용될 수 있습니다. 모델의 적합도를 확인하는 것은 표준 방법을 사용하여 수행할 수 있습니다.

\\[40pt]

CROSS-SECTIONAL STUDIES

횡단면 연구에서는 두 가지 일반적인 연관성 척도가 유병률 비율(prevalence ratio)과 유병률 오즈비(prevalence odds ratio)입니다(Am J Epidemiol 2003;157:940-943) (13). 이들 척도의 수학적 계산은 각각 상대위험도(relative risk)와 오즈비(odds ratio)와 동일합니다. 따라서 본 논문에서 제시한 방법들은 횡단면 연구에도 적용될 수 있습니다. 그러나 위험 요인과 "결과" 간의 시간적 연관성은 평가할 수 없습니다.

\\[40pt]

CONCLUSIONS

조정된 오즈비를 사용하여 드문 결과를 다룬 연구에서 조정된 상대위험도를 추정하는 것은 적합할 수 있지만, 결과가 흔한 경우에는 오해를 불러일으킬 수 있습니다. 과대 추정은 임상 의사결정이나 정책 개발에 부적절한 영향을 미칠 수 있습니다. 또한, 위험 요인의 중요성에 대한 과대 추정은 잠재적인 개입 프로그램이나 치료에 대한 경제 분석에서 의도치 않은 오류를 초래할 수 있습니다. 흔한 결과에 대한 연구에서 편향되지 않은 상대위험도 추정치를 얻을 수 있는 방법들이 존재합니다. 널리 사용 가능한 사용자 친화적인 소프트웨어와 종종 통계적으로 적합한 두 가지 방법은 층화 분석과 로그-이항 모델링입니다.

0개의 댓글