구간추정

choyunjeong·2024년 12월 20일

4.6 구간추정

비편향성, 적률, 가능도 등의 기준하에서 모수 또는 모수의 함수에 대한 최적의 추정량들을 고려하였으나 이들은 점추정이기 때문에 통계적 정확도를 표현하지 못한다는 결점이 있다. 따라서 신뢰구간을 정의하고 그 구간 내에 모수가 포함될 확률로써 통계적 정확도를 구한다.

\\[30pt]

정의 4.10
랜덤표본 X1,X2,,XnX_1,X_2,\ldots,X_n의 확률밀도함수가 f(x;θ), θΩf(x;\theta),\ \theta\in\Omega라고 하자. 0<α<10<\alpha<1에 대하여

P[L(X1,X2,,Xn)]θP[U(X1,X2,,Xn)]=1αP[L(X_1,X_2,\ldots,X_n)]\le \theta \le P[U(X_1,X_2,\ldots,X_n)] =1-\alpha

를 만족시키면 이를 θ\theta100(1α)%100(1-\alpha)\%신뢰구간이라고 한다. L(Xi), U(Xi)L(X_i),\ U(X_i)를 각각 신뢰구간의 하한과 상한이라 한다.

신뢰구간을 구하는 방법

  • 추축변량을 사용하는 방법
    - 랜덤표본이 따르는 분포가 연속형일 때 신뢰구간을 구하는데 유용.
  • 추축변량을 구하기 힘든 경우에 사용되는 일반적인 접근

\\[30pt]

정의 4.12
랜덤표본 X1,X2,,XnX_1,X_2,\ldots,X_n의 분포가 확률밀도함수 f(x;θ), θΩf(x;\theta),\ \theta\in\Omega를 따른다고 하자. 이때 표본과 모수 θ\theta의 함수인 확률변량 T(X1,X2,,Xn;θ)T(X_1,X_2,\ldots,X_n;\theta)의 분포가 모수 θ\theta에 의존하지 않으면 이를 추축변량이라고 한다.

\\[30pt]

예 4.46
X1,X2,,XnX_1,X_2,\ldots,X_nN(μ,σ2)N(\mu,\sigma^2)에서의 랜덤표본이고 Sn2=i=1n(XiXˉn)2/(n1)S_n^2=\sum_{i=1}^{n}(X_i-\bar{X}_n)^2/(n-1)일 때,

n(Xˉnμ)Snt(n1)\dfrac{\sqrt{n}(\bar{X}_n-\mu)}{S_n} \sim t(n-1)

로 모수 (μ,σ2)(\mu,\sigma^2)에 의존하지 않으므로 추축변량이다.

\\[30pt]

정규분포의 모평균에 대한 신뢰구간

모분산이 알려진 경우
X1,X2,,XnX_1,X_2,\ldots,X_nN(μ,σ2)N(\mu,\sigma^2)에서의 랜덤표본.

n(Xˉnμ)/σ\sqrt{n}(\bar{X}_n-\mu)/\sigma의 분포는 N(0,1)N(0,1)으로서 모수에 의존하지 않으므로 추축변량임.

P[zα/2n(Xˉnμ)σzα/2]=P[Xˉnzα/2σnμXˉn+zα/2σn]=1α\begin{aligned} P&\left[-z_{\alpha/2}\le \dfrac{\sqrt{n}(\bar{X}_n-\mu)}{\sigma}\le z_{\alpha/2}\right] \\[15pt] =P&\left[\bar{X}_n-z_{\alpha/2}\dfrac{\sigma}{\sqrt{n}} \le \mu\le \bar{X}_n+z_{\alpha/2}\dfrac{\sigma}{\sqrt{n}} \right] \\[15pt] =1&-\alpha \end{aligned}

\\[30pt]

모분산이 알려져 있지 않은 경우
모분산을 아는 경우와 달리 σ2\sigma^2에 의존하기 때문에 사용할 수 없다. 따라서 Sn2=i=1n(XiXˉn)2/(n1)S_n^2=\sum_{i=1}^{n}(X_i-\bar{X}_n)^2/(n-1)으로 추정한 추축변량 n(Xˉnμ)/Sn\sqrt{n}(\bar{X}_n-\mu)/S_n이 자유도가 (n1)(n-1)tt분포를 가지는 점을 이용하여 다음과 같이 구한다.

P[tα/2(n1)n(Xˉnμ)Sntα/2(n1)]=P[Xˉntα/2(n1)σnμXˉn+tα/2(n1)σn]=1α\begin{aligned} P&\left[-t_{\alpha/2}(n-1)\le \dfrac{\sqrt{n}(\bar{X}_n-\mu)}{S_n}\le t_{\alpha/2}(n-1)\right] \\[15pt] =P&\left[\bar{X}_n-t_{\alpha/2}(n-1)\dfrac{\sigma}{\sqrt{n}} \le \mu\le \bar{X}_n+t_{\alpha/2}(n-1)\dfrac{\sigma}{\sqrt{n}} \right] \\[15pt] =1&-\alpha \end{aligned}

\\[20pt]

신뢰구간은 xˉn\bar{x}_n에 대해 대칭이며, 길이는 모분산 σ2\sigma^2이 작을수록 또 표본의 크기 nn이 커질수록 짧아짐을 볼 수 있다.

\\[30pt]

정규분포의 모분산에 대한 신뢰구간

모평균이 알려진 경우
i=1n(Xiμ)/σ2\sum_{i=1}^{n}(X_i-\mu)/\sigma^2이 자유도가 (n)(n)인 카이제곱 분포를 따르는 추축변량인 점에 근거하여 다음과 같이 구한다.

P[χ1α/22(n)n(Xˉnμ)σ2χα/22(n)]=P[i=1n(Xˉiμ2)χα/22(n)σ2i=1n(Xˉiμ2)χ1α/22(n)]=1α\begin{aligned} P&\left[\chi^2_{1-\alpha/2}(n)\le \dfrac{\sqrt{n}(\bar{X}_n-\mu)}{\sigma^2}\le \chi^2_{\alpha/2}(n)\right] \\[15pt] =P&\left[\dfrac{\sum_{i=1}^{n}(\bar{X}_i-\mu^2)}{\chi^2_{\alpha/2}(n)} \le \sigma^2 \le \dfrac{\sum_{i=1}^{n}(\bar{X}_i-\mu^2)}{\chi^2_{1-\alpha/2}(n)} \right] \\[15pt] =1&-\alpha \end{aligned}

\\[30pt]

모평균이 알려져 있지 않은 경우
μ\mu를 표본평균 Xˉn\bar{X}_n로 추정한 통계량 (n1)Sn2/σ2=i=1n(XiXˉn)/σ2(n-1)S_n^2/\sigma^2=\sum_{i=1}^{n}(X_i-\bar{X}_n)/\sigma^2이 자유도가 (n1)(n-1)인 카이제곱 분포를 따르는 추축변량인 점에 근거하여 다음과 같이 구한다.

P[χ1α/22(n1)n(XˉnXˉn)σ2χα/22(n1)]=P[i=1n(XˉiXˉn2)χα/22(n1)σ2i=1n(XˉiXˉn2)χ1α/22(n1)]=1α\begin{aligned} P&\left[\chi^2_{1-\alpha/2}(n-1)\le \dfrac{\sqrt{n}(\bar{X}_n-\bar{X}_n)}{\sigma^2}\le \chi^2_{\alpha/2}(n-1)\right] \\[15pt] =P&\left[\dfrac{\sum_{i=1}^{n}(\bar{X}_i-\bar{X}_n^2)}{\chi^2_{\alpha/2}(n-1)} \le \sigma^2 \le \dfrac{\sum_{i=1}^{n}(\bar{X}_i-\bar{X}_n^2)}{\chi^2_{1-\alpha/2}(n-1)} \right] \\[15pt] =1&-\alpha \end{aligned}

두 정규분포의 모평균에 대한 신뢰구간, 두 정규분포의 모분산의 비에 대한 신뢰구간 과정은 본문 p.243참고.

\\[30pt]

근사신뢰구간

앞에서 다루어진 신뢰구간은 모분포의 정규성을 전제로 하였다. 그러나 모분포가 정규분포를 따르지 않더라도 중심극한정리를 사용하여 모수에 대한 신뢰구간을 근사적으로 다음과 같이 구할 수 있다.

랜덤표본 X1,X2,,XnX_1,X_2,\ldots,X_n의 분포의 평균과 분산이 각각 μ,σ2\mu,\sigma^2이라고 할 때 모평균 μ\mu에 대한 신뢰구간을 고려해보자. (정규분포 아님)

  • 표본분산의 제곱근인 sns_nσ\sigma로 수렴한다는 사실 (예 4.43)
  • 중심극한정리
  • 슬럿츠키의 정리 (정리 3.15)

에 의해 표본의 크기가 커짐에 따라

Zn=n(Xˉnμ)SnZ_n=\dfrac{\sqrt{n}(\bar{X}_n-\mu)}{S_n}

의 분포는 표준 정규분포 N(0,1)N(0,1)로 수렴한다. 따라서 이를 활용한 신뢰계수가 1α1-\alpha인 모평균 μ\mu에 대한 근사신뢰구간은

P[zα/2Znzα/2]=P[Xˉnzα/2SnnμXˉn+zα/2Snn]1α\begin{aligned} P&\left[-z_{\alpha/2}\le Z_n\le z_{\alpha/2}\right] \\[15pt] =P&\left[\bar{X}_n-z_{\alpha/2}\dfrac{S_n}{\sqrt{n}} \le \mu\le \bar{X}_n+z_{\alpha/2}\dfrac{S_n}{\sqrt{n}} \right] \\[15pt] \fallingdotseq1&-\alpha \end{aligned}

으로 주어진다. 모분산이 알려진 경우에는 SnS_n대신 σ\sigma를 사용.

\\[30pt]

예 4.47
모분포가 포아송 (λ)(\lambda)일 때 랜덤표본 X1,X2,,XnX_1,X_2,\ldots,X_n에 근거하여 모평균 λ\lambda에 대한 95% 근사신뢰구간을 구해보자.

[풀이]
표본의 크기가 커질 때 대수의 법칙에 따라 표본평균 Xˉn\bar{X}_nλ\lambda에 확률적으로 수렴하고 중심극한정리에 따라

n(Xˉnλ)λdN(0,1)\dfrac{\sqrt{n}(\bar{X}_n-\lambda)}{\sqrt{\lambda}}\xrightarrow{d} N(0,1)

이므로 슬럿츠키 정리에 의해

Zn=n(Xˉnλ)XˉndN(0,1)Z_n=\dfrac{\sqrt{n}(\bar{X}_n-\lambda)}{\sqrt{\bar{X}_n}}\xrightarrow{d} N(0,1)

로 수렴한다. 따라서 모수 λ\lambda에 대한 95%의 근사신뢰구간을 다음과 같이 구할 수 있다.

[Xˉn1.96Xˉn,Xˉn+1.96Xˉn]\left[\bar{X}_n-1.96\sqrt{\dfrac{\bar{X}}{n}} , \bar{X}_n+1.96\sqrt{\dfrac{\bar{X}}{n}}\right] \\[15pt]

\\[30pt]

예 4.48
X1,X2,,XnX_1,X_2,\ldots,X_n이 베르누이(p)(p)로부터의 랜덤표본일 때, 모수 pp에 대한 신뢰구간을 중심극한정리를 이용하여 다음과 같이 근사적으로 구할 수 있다. p^=Xˉn\hat{p}=\bar{X}_n으로 추정하면(이는 최대가능도 추정량임) p^pp\hat{p}\xrightarrow{p}p이고

p^pp(1p)/ndN(0,1)\dfrac{\hat{p}-p}{\sqrt{p(1-p)/n}}\xrightarrow{d} N(0,1)

으로 분포수렴하므로, 슬럿츠키의 정리에 의해 다음이 성립한다.

p^pp^(1p^)/ndN(0,1)\dfrac{\hat{p}-p}{\sqrt{\hat{p}(1-\hat{p})/n}}\xrightarrow{d} N(0,1)

따라서 모수 pp에 대한 100(1α)%100(1-\alpha)\%의 근사신뢰구간을 다음과 같이 구할 수 있다.

[p^±Zα/2p^(1p^)/n]\left[\hat{p} \pm Z_{\alpha/2}\sqrt{\hat{p}(1-\hat{p})/n} \right] \\[15pt]

두 독립인 랜덤표본의 근사신뢰구간, 표본크기는 p.246-249 참조


[참고문헌]

  • 수리통계학 제 5판 - 송성주, 전명식

0개의 댓글