추정량

choyunjeong·2024년 11월 25일

1. 이항 처치군에서 추정량

모집단 평균 치료 효과(Average Treatment Effect; ATE)

τE[Y(1)Y(0)]\tau \equiv E[Y(1)-Y(0)]

가중 평균 치료 효과(Weighted Average Treatment Effect; WATE) (Hirano et al. 2003).

τwateΔ(dx)h(x)f(x)μ(dx)h(x)f(x)μ(dx)E[Y(1)Y(0)X=x]h(x)dF(x)h(x)dF(x)E[E[Y(1)Y(0)X=x]h(x)]E[h(x)](g(x)f(x)dx=E[g(x)], dF(x)=f(x)μ(dx)=f(x)dx)E[h(x){Y(1)Y(0)}]E[h(x)]\begin{aligned} \tau_{wate} &\equiv \dfrac{\int\Delta(dx) h(x)f(x)\mu(dx)}{\int h(x)f(x)\mu(dx)} \\[15pt] &\equiv \dfrac{\int E[Y(1)-Y(0)|X=x]h(x)dF(x)}{\int h(x)dF(x)} \\[15pt] &\equiv \dfrac{E[E[Y(1)-Y(0)|X=x]h(x)]}{E[h(x)]} \\[15pt] &\left(\because \int g(x)f(x)dx=E[g(x)],\ dF(x)=f(x)\mu(dx)=f(x)dx\right) \\[15pt] &\equiv \dfrac{E[h(x)\{Y(1)-Y(0)\}]}{E[h(x)]} \end{aligned}
  • μ(dx)\mu(dx): 일반적인 측정(measure)으로. XX가 연속형 변수인지, 이산형 변수인지에 따라 형태가 달라집니다.
    - 연속형 변수:
    dxdx로 표기. 이는 특정 구간에서의 적분을 의미.
    - 이산형 변수:
    확률질량함수(PMF)의 값을 나타내는 간격의 합으로 의미 표기 X.
  • 분자는 가중치를 부여한 총합을 의미
  • 분모는 가중치를 정규화(normalization)하기 위한 역할
  • h()h(\cdot)는 공변량의 알려진 함수(가중치 함수)로 목표 모집단을 정의한다. 가중치 함수 h(x)=1h(x)=1인 경우, 비혼합성(unconfoundedness) 가정 하에 이는 치료를 받은 집단에 대한 평균 치료 효과(average effect for the treated; ATE로 이어집니다:

치료효과 추정

일반적으로 치료 효과는 다음과 같이 추정할 수 있습니다.

τ^h=i=1nZiwiYii=1nZiwii=1n(1Zi)wiYii=1n(1Zi)wi\hat{\tau}_{h} = \frac{\sum_{i =1}^{n} Z_i w_i Y_i}{\sum_{i =1}^{n} Z_i w_i}-\frac{\sum_{i =1}^{n} (1-Z_i) w_i Y_i}{\sum_{i =1}^{n} (1-Z_i) w_i}

다음 추정량은 h(x)=1h(x)=1IPTW의 특수한 형태로 ATE를 추정한다.

2.1 Horvitz–Thompson 추정량
층화 샘플에서 표본 분포와 목표 모집단 간의 차이를 보정하기 위해 역확률 가중치를 적용하여 가상 모집단의 평균을 추정하는 방법입니다. Horvitz–Thompson 추정량은 설문조사 분석에서 자주 사용되며, 누락된 데이터뿐만 아니라 불균등 선택(selection) 확률의 여러 원인(교란 변수)을 보정하는 데에도 활용될 수 있습니다.

Yi (i=1,2,,n)Y_i\ (i = 1, 2, \ldots, n)를 평균 μ\mu를 가지는 NnN \geq n개의 고유한 계층(strata) 중 nn개의 층에서 독립적으로 추출된 표본으로 정의한다. 또한, πi\pi_i는 초모집단(superpopulation)에서 무작위로 추출된 개체가 ii번째 층에 속할 확률 (포함 확률, inclusion probability)이라고 가정하자.

Horvitz–Thompson 추정량은 YY의 모집단 평균을 추정하기 위해 다음과 같이 정의됩니다.

μ^HT=1NY^HT=1Ni=1nπi1Yi\hat{\mu}_{HT} = \dfrac{1}{N} \hat{Y}_{HT} = \dfrac{1}{N} \sum_{i=1}^{n} \pi_i^{-1} Y_i

베이지안 확률적 프레임워크에서는, πi\pi_i를 목표 모집단에서 ii번째 층에 속하는 개체의 비율로 간주한다. 따라서 πi1Yi\pi_i^{-1} Y_iii번째 층 내의 전체 샘플에 대한 추정값으로 볼 수 있다.

2.2 Hájek 추정량
Hájek 추정량은 샘플링 가중치를 사용하는 통계적 추정 방법 중 하나로, 설문조사나 샘플링 데이터를 분석할 때 널리 사용됩니다. 이는 Horvitz-Thompson 추정량을 수정한 형태로, 확률 가중 평균(probability weighted mean)을 기반으로 합니다.

Hájek 추정량은 YY의 모집단 평균을 추정하기 위해 다음과 같이 정의됩니다.

μ^Hajek=iSπi1YiiSπi1\hat{\mu}_{Hajek} = \frac{\sum_{i \in S} \pi_i^{-1} Y_i}{\sum_{i \in S} \pi_i^{-1}}
  • SS: 샘플링된 데이터의 집합
  • YiY_i: 관측된 값

Hajek 추정치는 샘플링 확률이 다를 때 Horvitz-Thompson 추정치보다 더 안정적인 추정치를 제공합니다. 이는 Horvitz-Thompson 추정치의 경우 전체 샘플링 확률의 합이 직접 사용되지만, Hajek 추정치에서는 이 가중치의 합으로 정규화(normalization)하여 분모에 사용하기 때문입니다.

Horvitz-Thompson 추정치와의 비교

  • HT 추정치에서는 모집단 크기 NN를 명시적으로 사용하여 가중 평균 치료 효과와 다르다.
  • Hajek 추정치는 가중치의 합 iSwi\sum_{i \in S} w_i로 보정하여 모집단 크기를 사용하지 않으므로 가중 평균 치료 효과이다.

Hajek 추정치는 샘플링 확률이 작은 경우에도 더 견고한 추정값을 제공하며, 특히 샘플 크기가 작거나 샘플링 확률이 불균형할 때 유용합니다. svydesign 객체를 사용하여 더 복잡한 샘플링 설계를 다룰 수도 있습니다.

2. 다중 처치군에서 추정량

처치군 jj에서 잠재결과를 mj(x)=E[Y(j)X]m_j(x)=E[Y(j)|X]로 정의할 때, 목표 모집단에 대한 잠재 결과의 기댓값을 다음과 같이 정의한다.

mjhXmj(x)h(x)f(x)μ(dx)Xh(x)f(x)μ(dx)XE[Y(j)X]h(x)f(x)μ(dx)Xh(x)f(x)μ(dx)E[E[Y(j)X]h(x)]E[h(x)]E[Y(j)h(x)]E[h(x)]\begin{aligned} m_j^h &\equiv \dfrac{\int_{X} m_j(x) h(x)f(x)\mu(dx)}{\int_{X} h(x)f(x)\mu(dx)} \\[15pt] &\equiv \dfrac{\int_{X} E[Y(j)|X] h(x)f(x)\mu(dx)}{\int_{X} h(x)f(x)\mu(dx)} \\[15pt] &\equiv \dfrac{E[E[Y(j)|X] h(x)]}{E[h(x)]} \\[15pt] &\equiv \dfrac{E[Y(j) h(x)]}{E[h(x)]} \\[15pt] \end{aligned}

그 다음, 위 기댓값의 선형 결합으로 추가적인 추정량(estimands)의 한 범주를 특성화하며, 계수 a=(a1,,aJ)a = (a_1, \dots, a_J)는 다음과 같습니다:

τh(a)=j=1Jajmjh\tau^h(a) = \sum_{j=1}^J a_j m_j^h

이 인과 추정량 τh(a)\tau^h(a)는 이항 처치(binary treatment)에서 가중 평균 처치 효과(WATE, Weighted Average Treatment Effect)의 정의를 일반화한 것으로, 여기서 J=2J = 2이고 a=(1,1)a = (1, -1)입니다 (Hirano, Imbens, Ridder, 2003). 이후 살펴보겠지만, τh(a)\tau^h(a)는 여러 기존 인과 추정량을 특별한 경우로 포함하고 있습니다.

일반적으로 잠재 결과는 다음과 같이 추정할 수 있습니다.

m^jh=i=1nDijwj(Xi)Yii=1nDijwj(Xi)\hat{m}_j^h = \frac{\sum_{i =1}^{n} D_{ij} w_j(X_i) Y_i}{\sum_{i =1}^{n} D_{ij} w_j(X_i)}

위키피디아 참고
Hajek, J. Comment on a paper by D. Basu in: Godambe VP and sprott DA (eds) foundations of statistical inference, 1971.

0개의 댓글