신뢰 구간 : 예시

STATS·2023년 7월 6일
0

수리통계학

목록 보기
22/40

XN(μ,σ2)X \sim N(\mu, \sigma^2)일 때의 신뢰 구간

X1,X2,...,XnX_1, X_2, ..., X_nN(μ,σ2)N(\mu, \sigma^2)를 따르는 랜덤 표본이라고 하자.
Xˉ\bar{X}, s2s^2이 각각 표본 평균, 표본 분산일 때, 다음과 같은 T분포 확률 변수를 생각할 수 있다.

T=XˉμS/nt(n1)T = \frac{\bar{X} - \mu}{S/\sqrt{n}} \sim t_{(n-1)}

우리의 목표는 표본 평균과 표본 분산으로 μ\mu의 신뢰 구간을 완성하는 것이고, TT의 분포를 아는 상황이므로 TT를 피봇 변수로 이용해 신뢰 구간을 도출한다.

1α=P(tα/2(n1)<T<tα/2(n1))=P(tα/2(n1)<XˉμS/n<tα/2(n1))=P(tα/2(n1)Sn<Xˉμ<tα/2(n1)Sn)=P(Xˉtα/2(n1)<μ<Xˉ+tα/2(n1))1-\alpha = P(-t_{\alpha/2}^{(n-1)} < T < t_{\alpha/2}^{(n-1)}) = P(-t_{\alpha/2}^{(n-1)} < \frac{\bar{X} - \mu}{S/\sqrt{n}} < t_{\alpha/2}^{(n-1)}) \\ = P(-t_{\alpha/2}^{(n-1)}\frac{S}{\sqrt{n}} < \bar{X} - \mu < t_{\alpha / 2}^{(n-1)}\frac{S}{\sqrt{n}}) = P(\bar{X} - t_{\alpha / 2}^{(n-1)} < \mu < \bar{X} + t_{\alpha / 2}^{(n-1)})

중심극한정리 (CLT)

X1,X2,...,XnX_1, X_2, ..., X_n iid Random sample
μ<\lvert \mu \rvert < \infin, σ2<\lvert \sigma^2 \rvert < \infin

Wn=Xˉμσ/nN(0,1)W_n = \frac{\bar{X} - \mu}{\sigma/\sqrt{n}} \rightarrow N(0,1)

Zn=XˉμS/nN(0,1)Z_n = \frac{\bar{X} -\mu}{S/ \sqrt{n}} \rightarrow N(0,1)

as nn \rightarrow \infin

XX가 정규 분포를 따른다는 가정이 없을 때의 신뢰구간

XX의 정규성 가정이 없다면 TT분포를 사용할 수 없다. 이 경우에는 중심극한정리를 적용해 표본 크기가 커질수록 표본 평균의 정규화 분포가 근사적으로 N(0,1)N(0,1)을 따른다는 것을 이용한다.

1αP(zα/2<XˉμS/n<zα/2)=P(Xˉzα/2Sn<μ<Xˉ+zα/2Sn)1-\alpha \approx P(-z_{\alpha /2} < \frac{\bar{X} - \mu}{S / \sqrt{n}} < z_{\alpha / 2}) = P(\bar{X} - z_{\alpha / 2}\frac{S}{\sqrt{n}} < \mu < \bar{X} + z_{\alpha / 2}\frac{S}{\sqrt{n}})

이 신뢰구간은 CLT를 사용하기 때문에 근사적인 신뢰 구간이며, CLT의 가정에 따라 표본 크기가 충분히 큰 경우에만 사용할 수 있다.

두 분포의 평균 차에 대한 신뢰구간

X1,X2,...,Xn1X_1, X_2, ..., X_{n_1}XX의 랜덤 표본, Y1,Y2,...,Yn2Y_1, Y_2, ..., Y_{n_2}YY의 랜덤 표본이라고 하자. 이 때 XiYjX_i \perp Y_j이다.

두 확률변수의 평균의 차에 대한 신뢰 구간을 얻기 위해서 위와 같이 CLT를 이용할 수 있다.

XˉYˉ\bar{X} - \bar{Y}μ1μ2\mu_1 - \mu_2의 점 추정량 역할을 한다. 또한 CLT에 의해 다음 결과가 도출된다.

W=(XˉYˉ)(μ1μ2)S12n1+S22n2N(0,1)W = \frac{(\bar{X}- \bar{Y}) - (\mu_1 - \mu_2)}{\sqrt{\frac{S_1^2}{n_1} + \frac{S_2^2}{n_2}}} \rightarrow N(0,1)

WW를 피봇 변수로 사용해 신뢰 구간을 도출하면 다음과 같다.

1αP(zα/2<W<zα/2)=P(zα/2<(XˉYˉ)(μ1μ2)S12n1+S22n2<zα/2)=P((XˉYˉ)zα/2S12n1+S22n2<μ1μ2<(XˉYˉ)+zα/2S12n1+S22n2)1-\alpha \approx P(-z_{\alpha / 2} < W < z_{\alpha / 2}) = P(-z_{\alpha / 2} < \frac{(\bar{X}- \bar{Y}) - (\mu_1 - \mu_2)}{\sqrt{\frac{S_1^2}{n_1} + \frac{S_2^2}{n_2}}} < z_{\alpha / 2}) \\ = P((\bar{X} - \bar{Y}) - z_{\alpha / 2}\sqrt{\frac{S_1^2}{n_1} + \frac{S_2^2}{n_2}}<\mu_1 - \mu_2 < (\bar{X} - \bar{Y}) + z_{\alpha / 2}\sqrt{\frac{S_1^2}{n_1} + \frac{S_2^2}{n_2}})

Location model

만약 XN(μ1,σ2),YN(μ2,σ2)X \sim N(\mu_1, \sigma^2), Y \sim N(\mu_2, \sigma^2)이라면, CLT를 이용한 근사된 신뢰 구간이 아닌 정확한 신뢰 구간을 구할 수 있다. 두 확률 변수가 동일한 분산을 가져야 하기 때문에 Location model이라고도 부른다.

X,YX, Y가 정규분포를 따르기 때문에 XˉN(μ1,σ2n1)\bar{X} \sim N(\mu_1, \frac{\sigma^2}{n_1}), YˉN(μ2,σ2n2)(XˉYˉ)N(μ1μ2,σ2n1+σ2n2)\bar{Y} \sim N(\mu_2, \frac{\sigma^2}{n_2}) \\ \Rightarrow (\bar{X} - \bar{Y}) \sim N(\mu_1 - \mu_2, \frac{\sigma^2}{n_1} + \frac{\sigma^2}{n_2})이다. (XˉYˉ\bar{X} \perp \bar{Y})

Z=(XˉYˉ)(μ1μ2)σ1n1+1n2N(0,1)Z = \frac{(\bar{X} - \bar{Y}) - (\mu_1 - \mu_2)}{\sigma\sqrt{\frac{1}{n_1} + \frac{1}{n_2}}} \sim N(0, 1)

ZZTT 통계량을 만들 때 분자로 사용된다.

XXYY의 분산이 동일할 때, σ2\sigma^2의 점 추정량으로는 pooled estimator를 사용한다.

Sp2=(n11)S12+(n21)S22n1+n22E(Sp2)=n11n1+n22E(S12)+n21n1+n22E(S22)=σ2pooled estimator is unbiasedS_p^2 = \frac{(n_1 - 1)S_1^2 + (n_2 -1)S_2^2}{n_1 + n_2 -2} \\ {} \\ E(S_p^2) = \frac{n_1-1}{n_1+n_2 -2}E(S_1^2) + \frac{n_2 - 1}{n_1 + n_2 -2}E(S_2^2) =\sigma^2 \Rightarrow \text{pooled estimator is unbiased}
Let n1+n2=n(n2)Sp2/σ2=(n11)S12+(n21)S22σ2χ(n1+n22)2 (S12S22)S12Xˉ, S22Yˉ, XYZ(n2)Sp2σ2T=Z(n2)Sp2σ2(n2)T(n2)T=(XˉYˉ)(μ1μ2)Sp1n1+1n21α=P(tα/2(n2)<T<tα/2(n2))=P((XˉYˉ)tα/2(n2)Sp1n1+1n2<μ1μ2<(XˉYˉ)+tα/2(n2)Sp1n1+1n2)\\ {} \\ Let \ n_1 + n_2 = n \\ {} \\ (n-2)S_p^2/\sigma^2 = \frac{(n_1-1)S_1^2 + (n_2 -1)S_2^2}{\sigma^2} \sim \chi^2_{(n_1 + n_2 -2)}\ (S_1^2 \perp S_2^2) \\ {} \\ S_1^2 \perp \bar{X}, \ S_2^2 \perp \bar{Y}, \ X \perp Y \\ \Rightarrow Z \perp \frac{(n-2)S_p^2}{\sigma^2} \\ {} \\ \therefore T = \frac{Z}{\sqrt{\frac{(n-2)S_p^2}{\sigma^2 (n-2)}}} \sim T_{(n-2)} \\ {} \\ T = \frac{(\bar{X} - \bar{Y}) - (\mu_1 - \mu_2)}{Sp\sqrt{\frac{1}{n_1} + \frac{1}{n_2}}} \\ {} \\ \Rightarrow 1-\alpha = P(-t_{\alpha / 2}^{(n-2)} < T < t_{\alpha /2}^{(n -2)}) \\= P((\bar{X} - \bar{Y}) - t_{\alpha / 2}^{(n-2)}S_p\sqrt{\frac{1}{n_1} + \frac{1}{n_2}} < \mu_1 - \mu_2 < (\bar{X} - \bar{Y}) + t_{\alpha / 2}^{(n-2)}S_p\sqrt{\frac{1}{n_1} + \frac{1}{n_2}})

0개의 댓글