Collapsibility

choyunjeong·2025년 1월 26일

1. (Non) collapsibility

1.1 An overview

이상적인 무작위 대조군 시험 (RCT; randomized controlled trial)(\text{RCT; randomized controlled trial})에서 표본 크기가 아무리 크더라도 모델에 기저 공변량을 포함할 때 치료받은 집단과 치료받지 않은 집단을 비교하는 추정량이 변한다면 그 모수 측도는 non-collapsible\text{non-collapsible} 성질을 가지고 있습니다. 즉, confounding\text{confounding}이 없더라도 결과 변수와 연관되어있는 기저 공변량을 모델에 포함시킬지 여부가 치료 효과의 크기와 관련이 있다는 뜻입니다. 로지스틱 회귀의 오즈비는 non-collapsible\text{non-collapsible}이라는 것이 잘 알려져 있습니다. 따라서 조건부 (conditional)(\text{conditional}), 주변부 (marginal)(\text{marginal}) 오즈비 차이는 샘플링 변동성이 아닌 non-collapsible\text{non-collapsible} 성질에 의해 초래됩니다. 참고로 비무작위 연구에서 non-collapsible\text{non-collapsible}인 모수를 사용하는 모델을 분석할 때, 모델에 potential confounders\text{potential confounders}을 추가하거나 제거할 경우, 노출 효과 추정값의 변화는 non-collapsible\text{non-collapsible}, confounding\text{confounding}, 유한 표본 변동 (finite sample variation)\text{(finite sample variation)}이 결합된 결과라는 점에 유의해야 합니다. 이는 공변량이 confounding\text{confounding}인지 여부를 결정하기 위해 추정값 변화(change-in-estimate)\text{(change-in-estimate)} 절차를 사용하는 것을 복잡하게 만듭니다.

\\[30pt]

1.2 Collapsibility in Contingency Tables

다음은 세 개의 이산 변수 X, Y, ZX,\ Y,\ Z의 결합 분포를 나타내는 분포표를 통해 collapsibility\text{collapsibility}을 간단히 이해해 보겠습니다.

  1.  I×J×K\ I \times J \times K 분할표

  2. XXYY의 결합 분포를 나타내는  I×J\ I \times J 주변부 분할표

  3. ZZ 수준 내에서 XXYY의 결합 분포를 나타내는 조건부  I×J\ I \times J 소(계층) 분할표

계층 ZZ에서 strictly collapsible\text{strictly collapsible}하다는 것은 "XXYY의 연관성 (association)\text{(association)} 측도가 각 계층별에서 일정하고 그 값이 주변부 분할표에서 얻은 값과 동일할 때"를 의미합니다.

Table 1\text{Table 1}은 단순한 예제를 제공합니다. Y=1Y = 1risk difference\text{risk difference}strictly collapsible\text{strictly collapsible}합니다. 그러나 Y=1Y = 1risk ratio\text{risk ratio}strictly collapsible\text{strictly collapsible}하지 않은데, 이는 risk ratio\text{risk ratio}가 계층 ZZ별로 다르기 때문입니다. 또한, odds ratio\text{odds ratio} 역시 strictly collapsible\text{strictly collapsible}하지 않은데, 이는 marginal\text{marginal} 값이 일정한 conditional (stratum-specific)\text{conditional (stratum-specific)}값과 같지 않기 때문입니다. 그러므로, collapsibility\text{collapsibility} 여부는 선택된 association\text{association} 척도에 따라 달라집니다.

이제 측정값이 계층별로 일정하지 않지만 특정 conditional\text{conditional} 측정값들의 요약치가 marginal\text{marginal} 측정값과 동일한 경우를 가정해 봅시다. 이를 ZZ에 대해 collapsible\text{collapsible}하다고 합니다. 예를 들어, Table 1\text{Table 1}에서 ZZ의 주변부 분포에 표준화된 risk ratio\text{risk ratio}

Pr(Z=1)Pr(Y=1X=1,Z=1)Pr(Z=1)Pr(Y=1X=0,Z=1)+Pr(Z=0)Pr(Y=1X=1,Z=0)Pr(Z=0)Pr(Y=1X=0,Z=0)=0.500.800.500.60+0.500.400.500.20=1.50\begin{aligned} &\dfrac{\Pr(Z = 1)\cdot\Pr(Y = 1 | X = 1, Z = 1)}{\Pr(Z = 1)\cdot\Pr(Y = 1 | X = 0, Z = 1)} + \dfrac{\Pr(Z = 0)\cdot\Pr(Y = 1 | X = 1, Z = 0)}{\Pr(Z = 0)\cdot\Pr(Y = 1 | X = 0, Z = 0)} \\[25pt] &= \dfrac{0.50 \cdot 0.80}{0.50 \cdot 0.60} + \dfrac{0.50 \cdot 0.40}{0.50 \cdot 0.20} = 1.50 \end{aligned}

marginal (crude) risk ratio\text{marginal (crude) risk ratio}와 동일합니다. 따라서 이 측정값은 Table 1\text{Table 1}에서 collapsible\text{collapsible}하다고 할 수 있습니다.

\\[30pt]

1.3 characteristic collapsibility function

이제 RCT\text{RCT}에서 이진 결과에 대한 모델에서의 (non)collapsibility\text{(non)collapsibility}에 대해 수학적으로 논의를 해보겠습니다. 그러나 다음 섹션 2의 논리를 따르면, 지금 다루는 모든 내용은 관찰 연구에서 조건부 및 주변부 인과 모수 간의 비교에도 동일하게 적용됩니다.

만약 f()f(\cdot)가 어떤 링크 함수 (예:  identity, log, logit\text{ identity,\ log,\ logit})이고, ν\nu는 선형 예측자 척도에서 XXYY의 조건부 연관성 (conditional association)\text{(conditional association)}으로 정의한다면, Pr(Y=1X=0,C)\Pr(Y = 1|X=0,C)에서 Pr(Y=1X=1,𝐶)\Pr(Y = 1|X=1,𝐶)로 매핑을 조정하는 함수 gν()g_{\nu}(\cdot)non-collapsibility\text{non-collapsibility}을 결정하며, 이 함수는 characteristic collapsibility function (CCF)\text{characteristic collapsibility function (CCF)} 라고 정의되며 다음과 같습니다.

gν()=f1{f()+ν}g_{\nu}(\cdot) = f^{-1}\{f(\cdot) + \nu\}

CCF\text{CCF}의 적용 과정을 간단하게 설명하면 다음과 같다.

  1. 먼저 링크 함수를 적용하여 CC의 함수로서 치료 받지않은 상태 (X=0)(X=0)에서의 확률(probability)(\text{probability})을 선형 예측기의 척도로 변환.

  2. 변환된 선형 예측기 척도에서 XXYY의 조건부 연관성 (conditional association) ν(\text{conditional association)}\ \nu (=조건부 처리 효과) 을 추가

  3. 링크 함수의 역함수를 적용하여 (X=1)(X=1)의 확률 척도로 역변환.

Neuhaus와 Jewell (1993)이 보여주었듯이, 효과 측도의 collapsibility\text{collapsibility} 여부는 본질적으로 이러한 척도의 변화(및 역변화)와 연관되며, 이는 CCF\text{CCF}의 성질에 의해 결정됩니다. 이에 대한 자세한 내용은 부록 A.1A.1에서 검토하였습니다. 이 논의는 C=cC = c가 주어졌을 때 XXYY의 조건부 연관성이 CC에 의존하지 않는다는 (강한) 가정을 전제로 하고 있음을 유의하시기 바랍니다.

다음 두 단계 (즉, 평균화,와 gνg_{\nu} 적용)는 주변부 효과와 조건부 효과 간의 관계를 정의합니다.

  1. Pr(Y=1X=0,C)\Pr(Y = 1 | X = 0, C)CCFgν\text{CCF}_{g_{\nu}}를 통해 Pr(Y=1X=1,C)\Pr(Y = 1 | X = 1, C)로 변환합니다.

  2. Pr(Y=1X=x)\Pr(Y = 1 | X = x)Pr(Y=1X=x,C) (x=0,1)\Pr(Y = 1 | X = x, C)\ (x = 0, 1)로부터 CC에 대해 평균값을 계산합니다.

이번에는 RCT\text{RCT}에서 이진 결과에 대한 주변부 모델과 조건부 모델을 사용하여 고려해보겠습니다.

주변부 모델은 다음과 같습니다:

f{Pr(Y=1X=x)}=α+βxf\{\Pr(Y = 1|X=x)\} = \alpha + \beta x

기초 공변량 CC가 주어졌을 때 조건부 모델은 다음과 같습니다:

f{Pr(Y=1X=x,C}=μ(C)+νxf\{\Pr(Y = 1|X=x, C\} = \mu(C) + \nu x
  • f()f(\cdot): identity, log, logit\text{identity, log, logit}과 같은 링크 함수

  • XX는 이진 처치

  • μ(C)\mu(C): 기저 공변량 CC의 함수로, XX와 독립.

Pr(Y=1X=x,C)\Pr(Y = 1|X=x, C)를 간단히 px(C)p_x(C)로 쓰면, p1(C)p_1(C)p0(C)p_0(C)가 함수 gνg_\nu를 통해 다음과 같이 관련됨을 쉽게 알 수 있습니다:

p1(C)=gν{p0(C)}(gν()=f1{f()+ν})p_1(C) = g_\nu\{p_0(C)\} \\[10pt] \quad (g_\nu(\cdot) = f^{-1}\{f(\cdot) + \nu\})

Pr(Y=1X=x)\Pr(Y = 1|X=x)를 간단히 pxp_x로 쓰면, XXCC의 독립성에 의해

p1=E{p1(C)}=E[gν{p0(C)}]p_1 = E\{p_1(C)\} = E[g_\nu\{p_0(C)\}]

알 수 있습니다. 일반적인 링크 함수의 경우, ν>0\nu > 0일 때 gνg_\nu는 오목하고 ν<0\nu < 0일 때 볼록합니다. 이는 ν>0\nu > 0일 때 gν()g_\nu''(\cdot)가 음수이고 ν<0\nu < 0일 때 양수임을 보임으로써 쉽게 확인할 수 있습니다. 이때 Jensen\text{Jensen}의 부등식은 gνg_\nu(E)(E)의 순서를 뒤바꿨을 때 일어나는 현상을 설명합니다: Jensen\text{Jensen}의 부등식에 따르면, CCF\text{CCF}가 선형일 경우에만 이 두 단계의 순서를 변경하여도 값이 일정하며 (interchangeable)(\text{interchangeable}), CCF\text{CCF}가 볼록 (convex)(\text{convex})한 경우 증가하고 오목 (concave)(\text{concave})일 경우 감소합니다. 일반적인 링크 함수에서 CCF\text{CCF}의 형태는 다음과 같다.

  • gνg_\nu가 오목 (concave)\text{(concave)}하면 p1gν(p0)p_1 \leq g_\nu(p_0) (=gν[E{p0(C)}])(=g_\nu[E\{p_0(C)\}])
  • gνg_\nu가 볼록 (convex)\text{(convex)}하면 p1gν(p0)p_1 \geq g_\nu(p_0)
  • gνg_\nu가 선형 (linear)\text{(linear)}이면, p1=gν(p0)p_1 = g_\nu(p_0)

이는 non-collapsibility\text{non-collapsibility} 성질인 "조건부(conditional)(\text{conditional}) 효과와 주변부(marginal)(\text{marginal}) 효과 간의 차이" 뿐 아니라, "조건부 효과에 비해 주변부 효과가 감소하는 이유도 설명합니다". Figure 2\text{Figure 2}는 다양한 링크 함수와 ν\nu 값에 대한 CCF\text{CCF}를 보여줍니다.

특정 링크 함수를 확인해보면 identity\text{identity}log-link\text{log-link} 함수의 경우 f(p)=p, f(p)=log(p)f(p) = p,\ f(p) = \log(p)으로 ν\nu에 상관없이 gν(p)g_\nu(p)pp에 대해 선형입니다. 그러나

logit=[f(p)=log{p/(1p)}]probit=[f(p)=Φ1(p)],(Φ():CDF)complementary log - log=[f(p)=log{log(1p)}]\begin{aligned} \text{logit} &= [f(p) = \log\{p/(1-p)\}] \\[10pt] \text{probit} &= [f(p) = \Phi^{-1}(p)],\quad (\Phi(\cdot): \text{CDF}) \\[10pt] \text{complementary log - log} &= [f(p) = \log\{-\log(1-p)\}] \end{aligned}

비선형입니다.

따라서 β=f(p1)f(p0)\beta = f(p_1) - f(p_0)이며, f{gν(p0)}f(p0)=νf\{g_\nu(p_0)\} - f(p_0) = \nu입니다. ff가 증가 함수일 경우(일반적인 링크 함수는 모두 증가 함수), gνg_\nu가 오목일 때 βν\beta \leq \nu, 볼록일 때 βν\beta \geq \nu, 선형일 때는 β=ν\beta = \nu 입니다. 이는 주변부 모수 β\beta가 항상 조건부 모수 ν\nu보다 null\text{null}에 더 가깝다는 것을 의미합니다 (βν)(|\beta| \leq |\nu|). 이는 non-collapsibility\text{non-collapsibility}가 조건부 효과에 비해 주변부 효과를 "감소"시키는 원인으로 자주 언급되는 이유입니다.

요약하면 선형 CCF\text{CCF}identity\text{identity}와 같은 선형 링크 함수 뿐만 아니라 log-link\text{log-link} 함수에 의해서도 도출됩니다. 따라서 위험 차이(risk difference)\text{(risk difference)}와 위험비(risk ratio)\text{(risk ratio)}collapsibility\text{collapsibility} 입니다. 오즈비는 logit link\text{logit link} 함수의 비선형성 (non-linear CCF)(\text{non-linear CCF})으로 인해 non-collapsible\text{non-collapsible}성질을 가집니다. Figure 2\text{Figure 2}에서 볼 수 있듯이, 이항 결과에 흔히 사용되는 대부분의 링크 함수는 비선형 CCF\text{CCF}를 내포하며, 따라서 non-collapsibility\text{non-collapsibility} 효과 측정값을 초래합니다. 일반적으로 Figure 2(c) - (e)\text{Figure 2(c) - (e)}에 있는 세 개의 곡선이 0011에서 만나는 것은 올바른 특성입니다. 이러한 특성은 (a)(a)(b)(b)와 달리, 해당 모델이 확률 범위 [0,1][0,1]을 벗어나는 값을 예측하지 않도록 방지합니다. 따라서, non-collapsibility는 확률이 [0,1][0,1] 범위를 벗어나지 않도록 하는 함수의 굽힘(bending) 현상으로 인해 발생하는 결과이다.

Figure A.1\text{Figure A.1}은 일반적으로 non-collapsibility\text{non-collapsibility}을 초래하는 링크 함수에서도 두 가지 중요한 예외를 보여줍니다.

  1. 첫째, 치료 효과가 없을 때 (ν=0)(\nu = 0), gνg_{\nu}ff와 관계없이 항등 (identity)\text{(identity)} 함수가 되며, 따라서 모든 효과 측정치는 영가설 하에서 collapsible\text{collapsible} 입니다 (이는 영가설 유의성 검정이 non-collapsibility\text{non-collapsibility}에 의해 영향을 받지 않는 이유입니다).

  2. 둘째, XX가 주어졌을 때 CCYY의 조건부 연관이 약해질수록, Figure A.1\text{Figure A.1}의 그래프에서 관련된 점들이 점점 더 가까워지고, 비선형성의 정도가 감소합니다. 만약 XX를 조건로 CCYY의 (조건부) 연관이 없다면, 관련 지점은 하나만 남게 되며, 기대값 계산 단계 (CC에 대한)가 제거되고, 모든 측정치는 collapsible\text{collapsible} 됩니다. 우리는 Figure A.1\text{Figure A.1}에서 XX가 주어졌을 때 CCYY의 조건부 연관 강도가 점차 약해지는 경우를 나타냈습니다. (c)(c)에서는 강한 연관, (d)(d)에서는 약한 연관, (e)(e)에서는 연관이 없는 경우입니다.
    \\[30pt]

1.4 Regression Formulation

1.21.2절의 strictly collapsibility\text{strictly collapsibility} 정의는 회귀 식으로 확장될 수 있습니다. YY에 대해 세 가지 회귀 벡터 WW, XX, ZZ를 포함한 일반화 선형 모형을 고려해 봅시다:

g[E(YW=w,X=x,Z=z)]=α+wβ+Xγ+zδ(13)g\left[E(Y | W = w, X = x, Z = z)\right] = \alpha + w\beta + X\gamma + z\delta \tag{13}

회귀 분석에서 β\betaZZ에 대해 collapsible\text{collapsible}하다고 말하는 것은 ZZ를 생략한 회귀 분석에서 β=β\beta = \beta^*가 성립하는 경우를 의미합니다.

g[E(YW=w,X=x)]=α+wβ+Xγ(14)g\left[E(Y | W = w, X = x)\right] = \alpha^* + w\beta^* + X\gamma^* \tag{14}

ββ\beta \neq \beta^*인 경우 ZZ에 대해 non-collapsible\text{non-collapsible}합니다. 따라서, 회귀 분석에서 β\betaZZ에 대해 collapsible\text{collapsible}하다면, β\beta가 관심 있는 모수일 경우 β\beta를 추정하는데 ZZ를 측정할 필요가 없습니니다.

위의 정의는 원래의 교차표 정의를 임의의 변수에 대해 일반화한 것입니다. 그러나 위의 회귀 식의 정의에는 기술적인 문제가 있습니다. 첫 번째(전체) 모델이 정확하다면, 두 번째(축소) 회귀는 주어진 모델 (전체 모델)을 따를 가능성은 낮습니다. 즉, 대부분의 회귀 모델 계열은 ZZ를 제거한 후 닫히지 않습니다. 예를 들어, YY가 베르누이 분포이고 gg가 로짓 링크 함수인 경우, 전체 회귀가 1차 로지스틱 회귀라면 축소된 회귀는 특별한 경우를 제외하고는 1차 로지스틱 모델을 따르지 않습니다. 이 딜레마 (그리고 두 모델 중 어느 것도 정확하게 맞을 가능성이 낮다는 사실)를 해결하는 한 가지 방법은 모델의 모수를 최대가능도 추정량의 비대칭 평균으로 정의하는 것입니다. 이러한 평균은 모델이 정확하지 않더라도 잘 정의되고 해석 가능합니다.

전체 모델이 맞다고 가정할 때, δ=0\delta = 0β\betaγ\gammaZZ에 대해 collapsibility\text{collapsibility}을 가진다는 것을 의미하는 것이 명백할 수 있다. 그러나, β\betaδ\delta가 0이 아닌 경우에는, 설명 변수들의 주변부 독립성 gg가 항등 (identity)\text{(identity)} 이거나 log-link\text{log-link}일 경우를 제외하고는 β\betaZZ에 대해 collapsibility\text{collapsibility}를 가진다는 것을 보장하지 않는다. 반대로, 설명 변수들이 (association)\text{(association)}되어 있는 경우에도 collapsibility\text{collapsibility}가 발생할 수 있다. 따라서 ZZ에 대한 collapsibility\text{collapsibility}을 단순한 독립 조건과 동일시하는 것은 일반적으로 올바르지 않지지만, 선형, 로그-선형, 로지스틱 모델과 같은 중요한 특수 사례에서는 유용한 결과를 얻을 수 있습니다.

\\[40pt]

2. NOTATION AND FRAMEWORK

섹션 2는 인과 추론 프레임워크 (causal inference framework)\text{(causal inference framework)}에서 잠재적 결과 표기법 (notation of potential outcomes)\text{(notation of potential outcomes)}을 사용하여 오즈비 즉, 로짓 함수의non-collapsibility\text{non-collapsibility}에 대한 비공식적인 논의를 좀 더 형식적인 수학적 기반으로 전개합니다.

XX를 이진 노출 또는 치료 변수로 정의하고 (X=1X=1은 노출/치료, X=0X=0은 비노출/비치료), YY는 이진 결과를, CC는 공변량 집합을 나타냅니다. CC 집합은 관찰 연구에서 potential confounders\text{potential confounders}를 포함할 수 있으며, RCT\text{RCT}에서는 단순히 기초 공변량을 포함할 수 있습니다. 먼저 중요한 용어의 구분을 설명하겠습니다.

  • associational model vs causal model\text{associational model vs causal model}

  • marginal estimands vs conditional estimands\text{marginal estimands vs conditional estimands}

  • unadjusted analysis vs adjusted analysis\text{unadjusted analysis vs adjusted analysis}

\\[30pt]

2.1 Associational and causal models

(A) Associational model

이진 YY에 대한 간단한 로지스틱 회귀 모델입니다:

logit{Pr(Y=1X=x)}:=log(Pr(Y=1X=x)1Pr(Y=1X=x))=α+βx(1)\text{logit} \{ \Pr(Y=1|X=x) \} := \log \left( \frac{\text{Pr}(Y=1|X=x)}{1 - \text{Pr}(Y=1|X=x)} \right) = \alpha + \beta x \tag{1}

이는 "관찰된 노출군과 비노출군 간" 두 군의 YY 분포를 비교하는 연관 모델 (associational model)\text{(associational model)}입니다.

  • α\alpha: 절편, 비노출군에서의 결과의 로그 오즈 (log-odds)\text{(log-odds)}

  • β\beta: 기울기, 노출된 개인과 노출되지 않은 개인 간의 YY 분포를 비교하는 로그 오즈비 (log-odds ratio)\text{(log-odds ratio)}.

\\[30pt]

(B) causal model

이제 Y1Y_1은 한 개인이 노출될 경우의 potential outcome\text{potential outcome}이고, Y0Y_0은 이 개인이 노출되지 않을 경우의 해당 potential outcome\text{potential outcome}입니다. 그렇다면, 이진 결과에 대해 다음과 같은 (saturated)\text{(saturated)} 로지스틱 회귀 모델을 작성할 수 있습니다:

logit{Pr(Yx=1)}=θ+ϕx(2)\text{logit}\{\Pr(Y_x = 1)\} = \theta + \phi x \tag{2}

이 모델은 causal model\text{causal model}입니다. 왜냐하면, 이는 실제 세계에서의 YYXX의 분포를 설명하는 것이 아니라, XX가 개입된 가상 세계에서의 YY의 분포를 설명하기 때문입니다.

  • ϕ\phi: causal log odds ratio\text{causal log odds ratio}, 모두가 노출되었을 때와 모두가 노출되지 않았을 때의 결과를 비교 (현실에 두 결과를 관찰하기는 불가능).

따라서, β\beta는 관찰된 그룹 간 비교, ϕ\phi는 개별 비교로 (하나의 결과만 관찰되고 나머지 결과는 잠재 결과)쉽게 이해가능하다. 이상적인 RCT\text{RCT}에서는 β=ϕ\beta = \phi가 되지만, 관찰 연구에서는 노출과 결과 간의 관계가 confounded\text{confounded}되어 βϕ\beta \neq \phi가 됩니다. 따라서 β=ϕ\beta = \phi이 되도록 조정해야 합니다. counfounding\text{counfounding} 본문문에서 더 자세히 설명됩니다.

2.2 Marginal and conditional estimands

conditional associational log-odds ratio\text{conditional associational log-odds ratio} ν\nu

logit{Pr(Y=1X=x,C=c)}=μ+νx+γTC(5)\text{logit} \{\Pr(Y = 1 | X = x, C = c)\} = \mu + \nu x + \gamma^T C \tag{5}

conditional causal log-odds ratio\text{conditional causal log-odds ratio} ξ\xi와 같다는 결과를 얻을 수 있습니다.

logit{Pr(Yx=1C=c)}=η+ζx+τTC(6)\text{logit} \{\Pr(Y_x = 1 |C = c)\} = \eta + \zeta x + \tau ^T C \tag{6}

우리가 언급한 바와 같이, (1), (4)(1),\ (4)에서의 β, ν\beta,\ \nu는 연관 모델에서 associational parameters\text{associational parameters}이고, (2),(5)(2), (5)에서의 ϕ, ζ\phi,\ \zeta는 인과 모델에서의 causal parameters\text{causal parameters}입니다. 또 다른 중요한 차이점은 β, ϕ\beta,\ \phi는 주변부 추정값 (marginal estimands)\text{(marginal estimands)}인 반면, ν, ζ\nu,\ \zeta 는 조건부 추정값 (conditional estimands)\text{(conditional estimands)}으로, 특히 CC를 조건부로한 조건부 추정값입니다. 예를 들어, ζ\zeta의 해석은 다음과 같습니다:

ζ=log(Pr(Y1=1C=c)1Pr(Y1=1C=c))log(Pr(Y0=1C=c)1Pr(Y0=1C=c))(6)\zeta = \log \left( \dfrac{\Pr(Y_1 = 1 | C = c)}{1 - \Pr(Y_1 = 1 | C = c)} \right) - \log \left( \dfrac{\Pr(Y_0 = 1 | C = c)}{1 - \Pr(Y_0 = 1 | C = c)} \right) \tag{6}

이는 공변량 수준 CC에 대한 모집단의 하위 집단에서, 모든 사람의 노출을 11로 설정한 것과 00으로 설정한 것 사이의 로그 오즈 차이를 의미합니다 (현실에 두 결과를 관찰하기는 불가능). 이는 (모델 (5)(5)에 따라) CC의 값에 대해 일정하다고 가정되지만, 이 가정은 쉽게 완화할 수 있습니다. 모델 (6)(6)은 조건부 인과 효과입니다.

반면, 인과 추정값인 ϕ\phi은 주변부 효과입니다. 이는 참 모집단에서 모든 사람의 노출을 11로 설정한 것과 00으로 설정한 것 사이의의 로그 오즈 차이입니다.

ϕ\phiζ\zeta 모두 인과 효과를 가지며, (10)(10)의 우변은 CC의 수준에 관계없이 일정하다고 가정되며, 둘 다 참 모집단의 모수 값이지만, 일반적으로 둘은 같지 않습니다 (둘 다 confounded\text{confounded}되지 않음, 모수의 표본 오차는 중요하지 않음). 이는 오즈비가 non-collapsible\text{non-collapsible}이기 때문입니다. ϕ=ζ\phi =\zeta가 되는 두 가지 상황은 다음과 같습니다:

  1. τ=0\tau = 0일 때, 즉 공변량 CC과 결과 YY가 노출 XX이 주어진 조건에서 조건부 독립일 때

  2. ζ=0\zeta = 0일 때, 즉 노출 XX과 결과 YY가 공변량 CC이 주어진 조건에서 조건부 독립일 때 (이 경우 노출 XX이 결과 YY에 미치는 영향이 없으므로 ϕ=0\phi = 0도 성립함).

다른 모든 상황에서는 ϕ\phiζ\zeta보다 00에 더 가까운 값이 입증되었으며 증명은 1.31.3절에 있습니다.

ϕ<ζ|\phi| < |\zeta|

\\[30pt]

2.3 Unadjusted and adjusted analyses

Unadjusted\text{Unadjusted}는 종종 marginal\text{marginal}과 동의어처럼 사용되며, adjusted\text{adjusted}conditional\text{conditional}과 동의어처럼 사용됩니다. 이는 associational parameters\text{associational parameters}만 염두에 둔다면 합리적일 것입니다. 주변부 추정값(marginal estimands)\text{(marginal estimands)}β\betaunadjusted analysis\text{unadjusted analysis} (즉, 회귀 모형에 공변량을 포함하지 않은 분석)으로 추정할 수 있는 반면, 조건부 추정값 (conditional estimands)\text{(conditional estimands)}인 𝜈는 adjusted analysis\text{adjusted analysis} (즉, 회귀 모형에 모든 공변량 𝐂를 포함한 분석)으로 추정할 수 있습니다.

그러나 우리는 이를 구별하여, 추정값 (estimand)\text{(estimand)}을 나타낼 때는 conditional/marginal\text{conditional/marginal}이라는 용어를 사용하고, 분석 (analysis)\text{(analysis)}에서는 adjusted/unadjusted\text{adjusted/unadjusted}라는 용어를 사용할 것입니다. 이는 다음 섹션에서 논의하겠지만, 공변량 CC를 조정한 분석으로도 marginal causal log odds ratio\text{marginal causal log odds ratio}ϕ\phi추정값을 얻을 수 있기 때문입니다.

\\[40pt]

3 ESTIMATING THE MARGINAL CAUSAL LOG ODDS RATIO

3.1 weight moethd

3.2 ESTIMATING THE MARGINAL CAUSAL LOG ODDS RATIO BY REGRESSION ADJUSTMENT

RCT\text{RCT}에서는 marginal causal log odds ratio\text{marginal causal log odds ratio}ϕ\phi를 일관되게 추정하기 위해 CC를 조정할 필요가 없습니다. randomization\text{randomization}ϕ=β\phi=\beta를 의미하며, 따라서 unadjusted\text{unadjusted} 분석도 편향 없는 추정이 가능합니다. 그러나 관찰 연구에서는, 혼란 요인(confounding)\text{(confounding)}을 통제하려는 시도로 CC를 조정할 가능성이 높습니다.

다음 가정이 성립할 때

  • counterfactual consistency\text{counterfactual consistency}

  • CC가 주어졌을 때 conditional exchangeability\text{conditional exchangeability} (가정 (4)(4))

  • 모델 (6)(6)이 올바르게 지정되었다고 가정

그런 다음 X,Y,CX,Y,C에 데이터를 대입하여 (5)(5)의 모수를 일관되게 추정했다면 (예; maximum likelihood\text{maximum likelihood}), 추정량 ν\nuζ\zeta의 일치 추정량입니다.

non-null conditional odds ratio\text{non-null conditional odds ratio}은 모델에 공변량을 점점 더 많이 포함시킬수록 크기는 무한대로 커질 수 있습니다 (극단적으로, 노출 외의 모든 결과의 원인을 모델에 포함시킨 경우, true non-null conditional odds ratio\text{true non-null conditional odds ratio}는 양의 무한대 또는 음의 무한대까지 커질 수 있습니다.). 따라서 일부는 marginal odds ratio\text{marginal odds ratio} 또는 공변량 집합의 일부에 대해서만 조건화된 conditional odds ratio\text{conditional odds ratio}가 더 의미 있다고 주장할 수 있습니다.

만약 우리가 관심 있는 추정량이 (조건화된 로지스틱 회귀 모델을 적합시킨) 조건부 인과 로그 오즈비 ζ\zeta가 아닌 주변부 인과 로그 오즈비 ϕ\phi에 관심이 있다면 (Zhang, 2008)의 방법을 이용해 쉽게 추정합니다. 또한 Stata와 R의 margins 명령어는 아래에 설명된 단계를 수행합니다.


이중 기대값 규칙, E(A)=E{E(AB)}E(A) = E\{E(A|B)\}에 따르면, 다음과 같습니다.

Pr(Yx=1)=E{Pr(Yx=1C)}=Pr(Yx=1C=c)fC(c)dc(11)\begin{aligned} \Pr(Y_x=1) &= E\{\Pr(Y_x=1|C)\} \\[10pt] &= \int \Pr(Y_x=1|C=c)f_{C}(c) \,dc \tag{11} \end{aligned}

여기서 fC(c)f_{C}(c)CC에 대한 확률 밀도 함수 (probability density function)\text{(probability density function)}입니다. 모델 (5)(5)의 모수 추정량을 통해 Pr(Yx=1C=c)\Pr(Y_x=1|C=c)의 일치 추정량을 얻을 수 있습니다 (우리의 가정에 따르면 이를 모델 (6)(6)의 모수와 동일시할 수 있음):

Pr^(Yx=1C=c)=expit(η^+ζ^x+τ^Tc)=expit(μ^+ν^x+γ^Tc)\begin{aligned} \hat{\Pr}(Y_x=1|C=c) &= \text{expit}\left(\hat{\eta} + \hat{\zeta}x + \hat{\tau}^Tc\right) \\[10pt] &= \text{expit}\left(\hat{\mu} + \hat{\nu}x + \hat{\gamma}^Tc\right) \end{aligned}

여기서 expit(𝑧)=exp(𝑧)1+exp(𝑧)\text{expit}(𝑧) = \frac{\exp(𝑧)}{1 + \exp(𝑧)}입니다.

이를 (11)(11)에 대입하고 CC의 경험적 분포를 fC(c)f_C(c)의 비모수 추정치 (nonparametric estimator)\text{(nonparametric estimator)}로 사용할 수 있다. 이는 다음 추정량으로 이어집니다:

Pr^(Yx=1)=1ni=1nPr^(Yx=1Ci)=1ni=1nexpit(μ^+ν^x+γ^TCi)\begin{aligned} \hat{\text{Pr}}(Y_x=1) &= \frac{1}{n} \sum_{i=1}^{n} \hat{\Pr}(Y_x=1|C_i) \\[10pt] &= \frac{1}{n} \sum_{i=1}^{n} \text{expit}\left(\hat{\mu} + \hat{\nu}x + \hat{\gamma}^TC_i\right) \end{aligned}

여기서 CiC_i는 연구에서 관찰된 개별 ii의 공변량 값입니다 (i=1,,n)(i=1,\ldots,n)

마지막으로, x=1x=1x=0x=0에 대해 이를 평가하고 두 결과 오즈의 로그 비를 계산하면, covariate-adjusted estimator\text{covariate-adjusted estimator}ϕ\phi를 얻을 수 있습니다:

ϕ^CA=log{Pr^(Y1=1)1Pr^(𝑌1=1)}log{Pr^(Y0=1)1Pr^(Y0=1)}=log{i=1nexpit(μ^+ν^+γ^TCi)𝑛i=1nexpit(μ^+ν^+γ^TCi)}log{i=1nexpit(μ^+γ^TCi)𝑛i=1nexpit(μ^+γ^TCi)}\begin{aligned} \hat{\phi}^{C-A} &= \log\left\{\frac{\hat{\Pr}(Y_1=1)}{1-\hat{\Pr}(𝑌_1=1)}\right\} - \log\left\{\frac{\hat{\Pr}(Y_0=1)}{1-\hat{\Pr}(Y_0=1)}\right\} \\[20pt] &= \log\left\{\frac{\sum_{i=1}^{n} \text{expit}(\hat{\mu} + \hat{\nu} + \hat{\gamma}^TC_i)}{𝑛 - \sum_{i=1}^{n} \text{expit}(\hat{\mu} + \hat{\nu} + \hat{\gamma}^TC_i)}\right\} - \log\left\{\frac{\sum_{i=1}^{n} \text{expit}(\hat{\mu} + \hat{\gamma}^TC_i)}{𝑛 - \sum_{i=1}^{n} \text{expit}(\hat{\mu} + \hat{\gamma}^TC_i)}\right\} \end{aligned}

우리는 이것이 covariate-adjusted estimator of the marginal causal log odds ratio\text{covariate-adjusted estimator of the marginal causal log odds ratio}의 추정량임을 강조합니다. 만약 γ0\gamma \neq 0라면, ϕ^CA\hat{\phi}^{C-A}unadjusted estimator\text{unadjusted estimator}보다 점근적으로 더 효율적 (asymptotically more efficient)\text{(asymptotically more efficient)}입니다. 따라서 공변량 조정 (covariate-adjustment)\text{(covariate-adjustment)}confounding\text{confounding}이 없는 경우에도 유용합니다. 이런 상황에서는 unadjusted estimator\text{unadjusted estimator}은 일관성은 있지만 효율적이지는 않습니다.

ϕ^U\hat{\phi}^URCT\text{RCT}에서 unadjusted analysis\text{unadjusted analysis}을 통해 얻은 ϕ\phi의 일반적인 최대가능도추정치 (MLE)\text{(MLE)}라고 하자. 즉, ϕ^U=β^\hat{\phi}^U=\hat{\beta}이며, 여기서β^\hat{\beta}β\beta의 일반적인 최대가능도추정치 (MLE)\text{(MLE)}이다. AV\mathbb{AV}는 점근 분산 (asymptotic variance)\text{(asymptotic variance)}을 나타내며, 모든 관련 모델이 올바르게 지정되었고 (4)가 성립한다고 가정하자. 앞서 언급했듯이,

AV(ν^)AV(ζ^),\mathbb{AV}(\hat{\nu}) \geq \mathbb{AV}(\hat{\zeta}),

이는

AV(ζ^)AV(ϕ^U)\mathbb{A}\mathbb{V}(\hat{\zeta}) \geq \mathbb{A}\mathbb{V}(\hat{\phi}^U)

를 의미하지만,

AV(ϕ^U)AV(ϕ^CA)\mathbb{A}\mathbb{V}(\hat{\phi}^U) \geq \mathbb{A}\mathbb{V}(\hat{\phi}^{C-A})

도 성립합니다. 즉, "사과와 오렌지"가 아닌 "사과와 사과"를 비교하자마자, 공변량 조정이 로지스틱 회귀에서 효율성을 실제로 증가시킨다는 것을 확인할 수 있습니다(Moore & van der Laan, 2009).

다시 말해, ϕ^CA\hat{\phi}^{C-A}marginal causal log odds ratio\text{marginal causal log odds ratio}에 대한 공변량 조정 추정량임을 감안할 때, conditional\text{conditional}adjusted\text{adjusted}는 상호 교환적으로 사용해서는 안 된다는 점을 보여줍니다.

ϕ^CA\hat{\phi}^{C-A}의 통계적 근사 추론은 델타 방법(delta method)을 통해 가능하며, 이는 추론에서 난수 사용을 반대하는 사람들에게 선호되는 옵션입니다. 그러나 비모수 부트스트랩 (non-parametric bootstrap)\text{(non-parametric bootstrap)}은 보통 더 나은 성능을 보이며, 구현하기 더 쉽고, 많은 상황에서 수용 가능한 계산 비용으로 실행할 수 있습니다.


  • References
  1. Greenland, S., Robins, J. M., & Pearl, J. (1999). Confounding and collapsibility in causal inference. Statistical Science, 14,29–46. 번역본

  2. Daniel R, Zhang J, Farewell D. Making apples from oranges: comparing noncollapsible effect estimators and their standard errors after adjustment for different covariate sets. Biom J 2021; 63(3): 528–557. 번역본

0개의 댓글