중심극한정리

NK590·2023년 10월 7일
0

정의

모집단에서 무작위로 추출된 표본의 크기가 커질수록, 표본의 평균의 분포는 모집단의 분포 형태와는 상관없이 정규분포에 수렴하는데, 이를 중심극한정리(Central Limit Theorem, CLT)라고 한다.

바꿔 말하면, i.i.d.(독립항등분포)를 따르는 확률변수 X1,X2,,XnX_1, X_2, \cdots, X_n에 대해, 각각의 평균을 μ\mu, 표준편차를 σ\sigma라고 할 때, 확률분포열 ξn=(Σi=1nXinμ)/nσ\xi_n = (\Sigma_{i=1}^{n} X_i - n\mu)/\sqrt{n}\sigma 를 생각하면, limnξn\lim_{n \to \infty} \xi_n은 표준정교분포로 수렴한다.


증명

여기서는 적률생성함수가 존재하는 확률변수에 대해서만 다룬다.

먼저 짚고 넘어가야 될 것은, 표본평균 그 자체도 확률변수라는 점이다. 즉, 표본 평균을 확률변수 Xnˉ\bar{X_n}라고 하면, 표본평균의 평균 E(Xnˉ)E(\bar{X_n})과 표본평균의 분산 Var(Xnˉ)Var(\bar{X_n}), 그리고 표본평균의 표준편차 SD(Xnˉ)SD(\bar{X_n})는 다음과 같이 구할 수 있다.

E(Xnˉ)=E(1n(X1+X2++Xn))=1n(E(X1)+E(X2)++E(Xn))=1nnμ=μVar(Xnˉ)=Var(1n(X1+X2++Xn))=1n2(Var(X1)+Var(X2)++Var(Xn))=1n2nσ2=σ2nSD(Xnˉ)=Var(Xˉ)=σn\begin{aligned} E(\bar{X_n}) &= E\left(\frac{1}{n}(X_1 + X_2 + \cdots + X_n) \right) \\ &= \frac{1}{n} \left( E(X_1) + E(X_2) + \cdots +_ E(X_n) \right) \\ &= \frac{1}{n} \cdot n \cdot \mu \\ &= \mu \\\\ Var(\bar{X_n}) &= Var\left(\frac{1}{n}(X_1 + X_2 + \cdots + X_n) \right) \\ &= \frac{1}{n^2} \left( Var(X_1) + Var(X_2) + \cdots + Var(X_n) \right) \\ &= \frac{1}{n^2} \cdot n \cdot \sigma^2 \\ &= \frac{\sigma^2}{n} \\\\ SD(\bar{X_n}) &= \sqrt{Var(\bar{X})} = \frac{\sigma}{n} \end{aligned}

위 결과를 이용해서, 표본평균을 표준화하면 다음과 같다.

XnˉE(Xnˉ)SD(Xnˉ)=n(Xnˉμ)σ\frac{\bar{X_n} - E(\bar{X_n})}{SD(\bar{X_n})} = \frac{\sqrt{n} (\bar{X_n} - \mu)}{\sigma}

이 자체로는 단순히 표본평균을 정규화시켰을 뿐 확률분포의 형태는 바뀌지 않는다. 여기서 위 표준화된 표본평균의 적률생성함수 MM을 구해본다.

Mn(Xnˉμ)σ(t)=E(exp(n(1n(X1+X2++Xn)μ)σt))=E(exp((X1+X2++Xn)nμ)nσt))=E(exp(X1μnσt)exp(X2μnσt)exp(Xnμnσt))=E(exp(X1μnσt))E(exp(X2μnσt))E(exp(Xnμnσt))={E(exp(Xμnσt))}n={MXμσ(tn)}n\begin{aligned} M_{\frac{\sqrt{n} (\bar{X_n} - \mu)}{\sigma}}(t) &= E \left( \exp\left( \frac{\sqrt{n}(\frac{1}{n}(X_1 + X_2 + \cdots + X_n) - \mu)}{\sigma} t \right) \right) \\ &= E \left( \exp\left( \frac{(X_1 + X_2 + \cdots + X_n) - n\mu)}{\sqrt{n}\sigma} t \right) \right) \\ &= E \left( \exp \left( \frac{X_1 - \mu}{\sqrt{n}\sigma}t \right) \cdot \exp \left( \frac{X_2 - \mu}{\sqrt{n}\sigma}t \right) \cdots \exp \left( \frac{X_n - \mu}{\sqrt{n}\sigma}t \right) \right) \\ &= E \left( \exp \left( \frac{X_1 - \mu}{\sqrt{n}\sigma}t \right) \right) \cdot E \left( \exp \left( \frac{X_2 - \mu}{\sqrt{n}\sigma}t \right) \right) \cdots E \left( \exp \left( \frac{X_n - \mu}{\sqrt{n}\sigma}t \right) \right) \\ &= \left\{ E \left( \exp \left( \frac{X - \mu}{\sqrt{n}\sigma}t \right) \right) \right\}^n \\ &= \left\{ M_{\frac{X - \mu}{\sigma}} \left( \frac{t}{\sqrt{n}} \right) \right\}^n \end{aligned}

여기서 nn \to \infty로 보냈을 위 적률함수의 극한값을 구하면 되는데, 이 때 11^{\infty} 형태의 극한값이 나오게 되므로 이를 회피하게 위해 적률함수에 먼저 자연로그를 씌운 뒤 극한값을 구하고, 그 값을 exp\exp에 넣는 방식을 취한다.

limn{MXμσ(tn)}n=exp(limnnlnMXμσ(tn))=exp(limh0lnMXμσ(ht)h2)(h=1n)=exp(limh0tMXμσ(ht)2hMXμσ(ht))(L’Hopital’s rule on h)=exp(t2limh0MXμσ(ht)h)(limh0MXμσ(ht)=1)=exp(t2limh0MXμσ(ht)MXμσ(0t)h)(limh0MXμσ(ht)=0)=exp(t2tMXμσ(0))=exp(t22MXμσ(0))\begin{aligned} \lim_{n \to \infty} \left\{ M_{\frac{X - \mu}{\sigma}} \left( \frac{t}{\sqrt{n}} \right) \right\}^n &= \exp \left( \lim_{n \to \infty} n \ln M_{\frac{X - \mu}{\sigma}} \left( \frac{t}{\sqrt{n}} \right) \right) \\ &= \exp \left( \lim_{h \to 0} \frac{\ln M_{\frac{X - \mu}{\sigma}} \left( ht \right)}{h^2} \right) \quad & \left(\because h = \frac{1}{\sqrt{n}} \right) \\ &= \exp \left( \lim_{h \to 0} \frac{t M'_{\frac{X - \mu}{\sigma}} \left( ht \right)}{2h \cdot M_{\frac{X - \mu}{\sigma}} \left( ht \right)} \right) \quad & (\because \text{L'Hopital's rule on }h) \\ &= \exp \left( \frac{t}{2} \lim_{h \to 0} \frac{ M'_{\frac{X - \mu}{\sigma}} \left( ht \right)}{h} \right) \quad & \left(\because \lim_{h \to 0} M_{\frac{X - \mu}{\sigma}} \left( ht \right) = 1 \right) \\ &= \exp \left( \frac{t}{2} \lim_{h \to 0} \frac{ M'_{\frac{X - \mu}{\sigma}} \left( h\cdot t \right) - M'_{\frac{X - \mu}{\sigma}} \left( 0\cdot t \right)}{h} \right) \quad & \left(\because \lim_{h \to 0} M'_{\frac{X - \mu}{\sigma}} \left( ht \right) = 0 \right) \\ &= \exp \left( \frac{t}{2} \cdot t\cdot M''_{\frac{X - \mu}{\sigma}} \left( 0 \right)\right) \\ &= \exp \left( \frac{t^2}{2} M''_{\frac{X - \mu}{\sigma}} \left( 0 \right)\right) \end{aligned}

여기서,

MXμσ(0)=E((Xμσ)2)=Var(Xμσ)+{E(Xμσ)}2=1+02=1\begin{aligned} M''_{\frac{X - \mu}{\sigma}}(0) &= E\left( \left( \frac{X - \mu}{\sigma}\right)^2 \right) \\ &= Var\left( \frac{X - \mu}{\sigma} \right) + \left\{ E\left( \frac{X - \mu}{\sigma} \right) \right\}^2 \\ &= 1 + 0^2 \\ &= 1 \end{aligned}

이므로, 이를 위 식에 대입하면 다음과 같은 결과를 얻는다.

limnMn(Xnˉμ)σ(t)=exp(t22MXμσ(0))=exp(t22)\begin{aligned} \lim_{n \to \infty} M_{\frac{\sqrt{n} (\bar{X_n} - \mu)}{\sigma}}(t) &= \exp \left( \frac{t^2}{2} M''_{\frac{X - \mu}{\sigma}} \left( 0 \right)\right) = \exp\left(\frac{t^2}{2}\right) \end{aligned}

이는 표준정규분포의 적률생성함수와 같은 값이다. 즉, 적률생성함수의 성질에 의해, 이 적률생성함수로 대표되는 분포인 n(Xnˉμ)σ\frac{\sqrt{n} (\bar{X_n} - \mu)}{\sigma}는 표준정규분포 N(0,1)\mathcal{N}(0, 1)과 같은 분포이다. 즉, Xˉ\bar{X} 역시 정규분포 N(μ,σ2n)\mathcal{N}(\mu,\frac{\sigma^2}{n})과 같은 분포가 된다.

여기까지가 적률함수가 존재하는 경우에 대한 증명이었는데, 적률함수가 존재하지 않는 확률변수에 대해서도 중심극한정리는 성립한다. 이 때에는 적률생성함수가 아닌 특성함수(Characteristic Function)을 이용하여 증명한다.


의의

중심극한정리는 모집단이 어떤 분포를 가지고 있는지 상관없이 표본의 크기가 충분히 크다면, 표본평균들의 분포가 정규분포를 이룬다는 점을 이용해 정규분포 상에서 통계 분석을 할 수 있다는 엄청난 장점이 있다. 즉, 모집단의 분포에 대한 정보가 아예 없더라도, 표본 통계량을 이용해 모수를 추정할 수 있는 강력한 이론적 증거를 제시한다.

profile
AI 엔지니어 (진)

0개의 댓글