대수의 법칙과 중심극한정리

choyunjeong·2024년 12월 12일

1. 대수의 법칙

정리 3.12
표본의 크기가 커짐에 따라 표본평균이 모평균으로 확률적으로 수렴한다. 평균이 μ<\mu<\infty인 확률밀도함수 f(x)f(x)로부터 랜덤표본 X1,X2,,XnX_1,X_2,\ldots,X_n을 얻었다면

Xˉnpμor1ni=1nXipE(X)\bar{X}_n\xrightarrow{p}\mu\quad \text{or}\quad \dfrac{1}{n}\sum_{i=1}^{n}X_i\xrightarrow{p}E(X)

[증명]
쳬브셰프 부등식 (정리 2.15)를 이용하여

P[Xnˉμ<ϵ]=P[Xnˉμ2<ϵ2]1E(Xnˉμ)2ϵ2=1σ2/nϵ21\begin{aligned} P[|\bar{X_n}-\mu|<\epsilon] &=P[|\bar{X_n}-\mu|^2<\epsilon^2] \\[10pt] &\ge 1-\dfrac{E(\bar{X_n}-\mu)^2}{\epsilon^2} \\[10pt] &= 1-\dfrac{\sigma^2/n}{\epsilon^2}\rightarrow1 \end{aligned}

\\[20pt]

정의 3.5: 확률수렴
확률변수 열 X1,X2,,Xn,X_1,X_2,\ldots,X_n,\ldots과 확률변수 XX가 같은 확률공간에 정의된다고 하자. 만약 임의의 ϵ>0\epsilon >0에 대하여

limnP(XnXϵ)=0orlimnP(XnX<ϵ)=1\lim_{n\rightarrow\infty}P(|X_n-X|\ge\epsilon)=0 \quad or \quad\lim_{n\rightarrow\infty}P(|X_n-X|<\epsilon)=1

을 만족한다면 XnX_nXX로 확률적으로 수렴한다고 말하고 XnpXX_n\xrightarrow{p}X로 표기한다.

\\[30pt]

2. 중심극한정리

정의 3.6: 분포수렴
중심극한정리 이해하기 전 분포수렴에 대해 알아야 한다. 확률변수 열 X1,X2,,Xn,X_1,X_2,\ldots,X_n,\ldots이 누적확률분포함수 FX1,FX2,,FXn,F_{X_1},F_{X_2},\ldots,F_{X_n},\ldots을 각각 갖고, 확률변수 XX가 누적확률분포함수 FXF_X를 갖는다고 할 때 FXF_X가 연속인 모든 점 xx에서 다음이 만족된다면,

limnFXn(x)=FX(x)\lim_{n\rightarrow\infty}F_{X_n}(x)=F_X(x)

XnX_nXX로 분포수렴한다고 말하고 다음과 같이 표기.

XndXX_n\xrightarrow{d}X

\\[20pt]

정리 3.14
(중심극한정리) 모분포의 형태에 관계 없이 평균과 분산이 각각 μ\muσ2<\sigma^2<\infty인 확률밀도함수 f(x)f(x)로부터 랜덤표본 X1,X2,,XnX_1,X_2,\ldots,X_n을 얻었다면, 확률변량 ZnZ_n

Zn=i=1nXiE(i=1nXi)Var(i=1nXi)=i=1nXi(i=1nE(Xi))i=1nVar(Xˉn)=i=1nXii=1nμnσ2=i=1n(Xiμ)nσ\begin{aligned} Z_n &=\dfrac{\sum_{i=1}^{n}X_i-E(\sum_{i=1}^{n}X_i)}{\sqrt{\text{Var}(\sum_{i=1}^{n}X_i)}} \\[20pt] &= \dfrac{\sum_{i=1}^{n}X_i-(\sum_{i=1}^{n}E(X_i))}{\sqrt{\sum_{i=1}^{n}\text{Var}(\bar{X}_n)}} \\[20pt] &= \dfrac{\sum_{i=1}^{n}X_i-\sum_{i=1}^{n}\mu}{\sqrt{n\sigma^2}} \\[15pt] &=\dfrac{\sum_{i=1}^{n}(X_i-\mu)}{\sqrt{n}\sigma} \end{aligned}

표본의 크기 nn이 무한대에 접근함에 따라 표준정규분포 N(0, 1)N(0,\ 1)로 분포수렴한다.

ZndN(0, 1)Z_n\xrightarrow{d}N(0,\ 1)

[증명]

평균과 분산이 각각 μ\muσ2\sigma^2인 확률밀도함수 f(x)f(x)로부터 랜덤표본 X1,X2,,XnX_1,X_2,\ldots, X_n을 얻었다면 XiμX_i-\mu은 랜덤표본이므로 적률생성함수는 모든 ii에서 동일하고, 이를 M(Xiμ)(t)=E[et(Xiμ)]M_{(X_i-\mu)}(t)=E[e^{t(X_i-\mu)}]m(t)m(t)라고 표기하면

m(0)=E(Xiμ)=0,m(0)=E(Xiμ)2=σ2m'(0)=E(X_i-\mu)=0,\quad m''(0)=E(X_i-\mu)^2=\sigma^2

이다. 이제 테일러 전개에 의해

m(t)=m(0)+m(0)t+m(ξ)t22!(0<ξ<t)=1+m(ξ)t22!=1+σ2t22!+(m(ξ)σ2)t22!\begin{aligned} m(t)&=m(0)+m'(0)t+\dfrac{m''(\xi)t^2}{2!}\quad (0<\xi<t) \\[10pt] &=1+\dfrac{m''(\xi)t^2}{2!} \\[10pt] &=1+\dfrac{\sigma^2t^2}{2!} + \dfrac{(m''(\xi)-\sigma^2)t^2}{2!} \\[10pt] \end{aligned}

이 된다. 편의상,

Zn=i=1n(Xiμ)nσZ_n=\dfrac{\sum_{i=1}^{n}(X_i-\mu)}{\sqrt{n}\sigma}

으로 표기하면 ZnZ_n의 적률생성함수는

MZn(t)=E[exp(ti=1n(Xiμ)nσ)]=E[exp(tnσi=1n(Xiμ))]=Mi=1n(Xiμ)(tnσ)=i=1nM(Xiμ)(tnσ)=[M(Xiμ)(tnσ)]n=[m(tnσ)]n\begin{aligned} M_{Z_n}(t) &= E\left[\exp\left(t\cdot\dfrac{\sum_{i=1}^{n}(X_i-\mu)}{\sqrt{n}\sigma}\right)\right]\\[20pt] &= E\left[\exp\left(\dfrac{t}{\sqrt{n}\sigma}\cdot\sum_{i=1}^{n}(X_i-\mu)\right)\right]\\[20pt] &=M_{\sum_{i=1}^{n}(X_i-\mu)}\left(\dfrac{t}{\sqrt{n}\sigma}\right) \\[15pt] &=\prod_{i=1}^{n}M_{(X_i-\mu)}\left(\dfrac{t}{\sqrt{n}\sigma}\right) \\[15pt] &=\left[M_{(X_i-\mu)}\left(\dfrac{t}{\sqrt{n}\sigma}\right)\right]^n \\[15pt] &=\left[m\left(\dfrac{t}{\sqrt{n}\sigma}\right)\right]^n \\[15pt] \end{aligned}

이고, 0<ξ<tnσ0<\xi<\dfrac{t}{\sqrt{n}\sigma}에 대해,

MZn(tnσ)=[1+σ22(tnσ)2+(m(ξ)σ2)2(tnσ)2]n=[1+σ2t22nσ2+(m(ξ)σ2)t22nσ2]n=[1+t22n+(m(ξ)σ2)t22nσ2]n\begin{aligned} M_{Z_n}\left(\dfrac{t}{\sqrt{n}\sigma}\right) &=\left[1+\dfrac{\sigma^2}{2}\left(\dfrac{t}{\sqrt{n}\sigma}\right)^2 + \dfrac{(m''(\xi)-\sigma^2)}{2}\left(\dfrac{t}{\sqrt{n}\sigma}\right)^2\right]^n \\[15pt] &=\left[1+\dfrac{\sigma^2t^2}{2n\sigma^2} + \dfrac{(m''(\xi)-\sigma^2)t^2}{2n\sigma^2}\right]^n \\[15pt] &=\left[1+\dfrac{t^2}{2n} + \dfrac{(m''(\xi)-\sigma^2)t^2}{2n\sigma^2}\right]^n \end{aligned}

이 된다. nn\rightarrow\infty일 때

limn(1+t22n)exp(t2/2),tnσ0,ξ0\lim_{n\rightarrow\infty} \left(1+\dfrac{t^2}{2n}\right) \rightarrow \exp(t^2/2), \quad \dfrac{t}{\sqrt{n}\sigma} \rightarrow 0, \quad \xi\rightarrow 0

그리고 m(0)m''(0)의 연속성에 의해 m(ξ)σ20m''(\xi)-\sigma^2\rightarrow 0이므로

limnMZn(t)=exp(t2/2)\lim_{n\rightarrow \infty}M_{Z_n}(t)=\exp(t^2/2)

이 성립하며, 이는 표준정규 확률분포의 적률생성함수이다. 따라서 확률변량 ZnZ_n의 분포는 N(0,1)N(0,1)로 수렴한다. 또한 이는 표본평균으로 표기할 수도 있다.

Zn=Xˉnμσ/ndN(0,1)Z_n=\dfrac{\bar{X}_n-\mu}{\sigma/\sqrt{n}}\xrightarrow{d} N(0,1)
(Zn=i=1n(Xiμ)nσ=nXˉnnμnσ=n(Xˉnμ)nσ=Xˉnμσ/n)\because\quad \left(Z_n=\dfrac{\sum_{i=1}^{n}(X_i-\mu)}{\sqrt{n}\sigma}=\dfrac{n\bar{X}_n-n\mu}{\sqrt{n}\sigma}=\dfrac{n(\bar{X}_n-\mu)}{\sqrt{n}\sigma}=\dfrac{\bar{X}_n-\mu}{\sigma/\sqrt{n}}\right)

이걸 다시 다르게 표기하면 다음과 같이 가능하다.

n(Xˉnμ)dN(0,σ2)\sqrt{n}(\bar{X}_n-\mu)\xrightarrow{d} N(0,\sigma^2)

위 중심극한정리에서 중요한 점 중의 하나는 모분포에 대해 특정한 꼴을 필요로 하지 않는다. 즉, 모분포의 형태에 관계 없이 유한한 평균과 분산만 존재하면 확률변량 ZnZ_n의 분포가 표준정규분포로 수렴한다.

\\[30pt]

3. 델타방법

점근적으로 정규분포를 따르는 확률변량의 함수의 표본분포를 근사하기 위한 방법으로 델타방법을 활용할 수 있다.

정리 3.16
확률변수 열 X1,X2,,Xn,X_1,X_2,\ldots,X_n,\ldots에 대하여 중심극한정리를 다음과 같다고 하면

n(Xnθ)dN(0,σ2)\sqrt{n}(X_n-\theta)\xrightarrow{d}N(0,\sigma^2)

이때 함수 g(θ)g(\theta)의 연속인 도함수 g(θ)g'(\theta)가 존재하고 0이 아니면

n(g(Xn)g(θ))dN(0,σ2[g(θ)]2)\sqrt{n}(g(X_n)-g(\theta))\xrightarrow{d}N(0,\sigma^2[g'(\theta)]^2)

이 성립하며 이를 델타 방법이라한다.

[증명]
평균값 정리에 의하여 XnX_nθ\theta사이에 있는 θ~\tilde{\theta}에 대하여 다음이 성립한다.

g(Xn)=g(θ)+g(θ~)(Xnθ)g(Xn)g(θ)=g(θ~)(Xnθ)n[g(Xn)g(θ)]=g(θ~)n(Xnθ)\begin{aligned} g(X_n)&=g(\theta)+g'(\tilde{\theta})(X_n-\theta) \\[15pt] \rightarrow\quad g(X_n)-g(\theta) &= g'(\tilde{\theta})(X_n-\theta) \\[15pt] \rightarrow\quad \sqrt{n}[g(X_n)-g(\theta)] &= g'(\tilde{\theta})\sqrt{n}(X_n-\theta) \\[15pt] \end{aligned}

한편 XnpθX_n\xrightarrow{p}\theta이므로 θ~pθ\tilde{\theta}\xrightarrow{p}\theta이며, g(θ~)pg(θ)g'(\tilde{\theta})\xrightarrow{p}g'(\theta)가 성립한다.

n(Xnθ)dN(0,σ2)\sqrt{n}(X_n-\theta)\xrightarrow{d}N(0,\sigma^2)

으로부터, 슬럿츠키 정리를 사용하여

n[g(Xn)g(θ)]=g(θ~)n(Xnθ)dg(θ)N(0,σ2)\sqrt{n}[g(X_n)-g(\theta)]=g'(\tilde{\theta})\sqrt{n}(X_n-\theta)\xrightarrow{d}g'(\theta)\cdot N(0,\sigma^2)

가 된다. 여기서 정규분포의 선형변환 성질에 따라 X N(μ,σ2)X~\sim N(\mu,\sigma^2)일 때, 선형변환된 Y=aX+bY=aX+b의 분포는 YN(aμ+b,a2σ2)Y\sim N(a\mu+b,a^2\sigma^2)이 된다.

n(g(Xn)g(θ))dN(0,σ2[g(θ)]2)\sqrt{n}(g(X_n)-g(\theta))\xrightarrow{d}N(0,\sigma^2[g'(\theta)]^2)

이 성립한다.

이 방법은 때로는 점근적 정규성에 대한 가정을 하지 않고, 확률변량의 함수의 기댓값 또는 분산의 근삿값을 구하는 데에도 활용.

\\[20pt]

예 3.11
포아송(λ)(\lambda)분포로부터 랜덤표본 X1,X2,,XnX_1,X_2,\ldots,X_n이 주어졌을 때, 중심극한정리에 의해 표본 nn이 증가함에 따라 다음이 성립한다.

Zn=n(Xˉnλ)dN(0,λ)Z_n=\sqrt{n}(\bar{X}_n-\lambda)\xrightarrow{d}N(0,\lambda)

\\[5pt]
이제 함수 g(x)=xg(x)=\sqrt{x}를 고려하면, g(λ)=1/2λg'(\lambda)=1/2\sqrt{\lambda} 그리고 [g(λ)]=1/4λ[g'(\lambda)]=1/4\lambda이 된다. 따라서 다음을 만족한다.

n(Xˉnλ)dN(0, 14)\sqrt{n}\left(\sqrt{\bar{X}_n}-\sqrt{\lambda}\right)\xrightarrow{d}N\left(0,\ \dfrac{1}{4}\right)

[참고문헌]

  • 수리통계학 제 5판 - 송성주, 전명식

0개의 댓글