중심극한정리

NK590·2023년 10월 7일

정의

모집단에서 무작위로 추출된 표본의 크기가 커질수록, 표본의 평균의 분포는 모집단의 분포 형태와는 상관없이 정규분포에 수렴하는데, 이를 중심극한정리(Central Limit Theorem, CLT)라고 한다.

바꿔 말하면, i.i.d.(독립항등분포)를 따르는 확률변수 $X_1, X_2, \cdots, X_n$ 에 대해, 각각의 평균을 $\mu$ , 표준편차를 $\sigma$ 라고 할 때, 확률분포열 $\xi_n = (\Sigma_{i=1}^{n} X_i - n\mu)/\sqrt{n}\sigma$ 를 생각하면, $\lim_{n \to \infty} \xi_n$ 은 표준정교분포로 수렴한다.

증명

여기서는 적률생성함수가 존재하는 확률변수에 대해서만 다룬다.

먼저 짚고 넘어가야 될 것은, 표본평균 그 자체도 확률변수라는 점이다. 즉, 표본 평균을 확률변수 $\bar{X_n}$ 라고 하면, 표본평균의 평균 $E(\bar{X_n})$ 과 표본평균의 분산 $Var(\bar{X_n})$ , 그리고 표본평균의 표준편차 $SD(\bar{X_n})$ 는 다음과 같이 구할 수 있다.

\begin{aligned} E(\bar{X_n}) &= E\left(\frac{1}{n}(X_1 + X_2 + \cdots + X_n) \right) \\ &= \frac{1}{n} \left( E(X_1) + E(X_2) + \cdots +_ E(X_n) \right) \\ &= \frac{1}{n} \cdot n \cdot \mu \\ &= \mu \\\\ Var(\bar{X_n}) &= Var\left(\frac{1}{n}(X_1 + X_2 + \cdots + X_n) \right) \\ &= \frac{1}{n^2} \left( Var(X_1) + Var(X_2) + \cdots + Var(X_n) \right) \\ &= \frac{1}{n^2} \cdot n \cdot \sigma^2 \\ &= \frac{\sigma^2}{n} \\\\ SD(\bar{X_n}) &= \sqrt{Var(\bar{X})} = \frac{\sigma}{n} \end{aligned}

위 결과를 이용해서, 표본평균을 표준화하면 다음과 같다.

\frac{\bar{X_n} - E(\bar{X_n})}{SD(\bar{X_n})} = \frac{\sqrt{n} (\bar{X_n} - \mu)}{\sigma}

이 자체로는 단순히 표본평균을 정규화시켰을 뿐 확률분포의 형태는 바뀌지 않는다. 여기서 위 표준화된 표본평균의 적률생성함수 $M$ 을 구해본다.

\begin{aligned} M_{\frac{\sqrt{n} (\bar{X_n} - \mu)}{\sigma}}(t) &= E \left( \exp\left( \frac{\sqrt{n}(\frac{1}{n}(X_1 + X_2 + \cdots + X_n) - \mu)}{\sigma} t \right) \right) \\ &= E \left( \exp\left( \frac{(X_1 + X_2 + \cdots + X_n) - n\mu)}{\sqrt{n}\sigma} t \right) \right) \\ &= E \left( \exp \left( \frac{X_1 - \mu}{\sqrt{n}\sigma}t \right) \cdot \exp \left( \frac{X_2 - \mu}{\sqrt{n}\sigma}t \right) \cdots \exp \left( \frac{X_n - \mu}{\sqrt{n}\sigma}t \right) \right) \\ &= E \left( \exp \left( \frac{X_1 - \mu}{\sqrt{n}\sigma}t \right) \right) \cdot E \left( \exp \left( \frac{X_2 - \mu}{\sqrt{n}\sigma}t \right) \right) \cdots E \left( \exp \left( \frac{X_n - \mu}{\sqrt{n}\sigma}t \right) \right) \\ &= \left\{ E \left( \exp \left( \frac{X - \mu}{\sqrt{n}\sigma}t \right) \right) \right\}^n \\ &= \left\{ M_{\frac{X - \mu}{\sigma}} \left( \frac{t}{\sqrt{n}} \right) \right\}^n \end{aligned}

여기서 $n \to \infty$ 로 보냈을 위 적률함수의 극한값을 구하면 되는데, 이 때 $1^{\infty}$ 형태의 극한값이 나오게 되므로 이를 회피하게 위해 적률함수에 먼저 자연로그를 씌운 뒤 극한값을 구하고, 그 값을 $\exp$ 에 넣는 방식을 취한다.

\begin{aligned} \lim_{n \to \infty} \left\{ M_{\frac{X - \mu}{\sigma}} \left( \frac{t}{\sqrt{n}} \right) \right\}^n &= \exp \left( \lim_{n \to \infty} n \ln M_{\frac{X - \mu}{\sigma}} \left( \frac{t}{\sqrt{n}} \right) \right) \\ &= \exp \left( \lim_{h \to 0} \frac{\ln M_{\frac{X - \mu}{\sigma}} \left( ht \right)}{h^2} \right) \quad & \left(\because h = \frac{1}{\sqrt{n}} \right) \\ &= \exp \left( \lim_{h \to 0} \frac{t M'_{\frac{X - \mu}{\sigma}} \left( ht \right)}{2h \cdot M_{\frac{X - \mu}{\sigma}} \left( ht \right)} \right) \quad & (\because \text{L'Hopital's rule on }h) \\ &= \exp \left( \frac{t}{2} \lim_{h \to 0} \frac{ M'_{\frac{X - \mu}{\sigma}} \left( ht \right)}{h} \right) \quad & \left(\because \lim_{h \to 0} M_{\frac{X - \mu}{\sigma}} \left( ht \right) = 1 \right) \\ &= \exp \left( \frac{t}{2} \lim_{h \to 0} \frac{ M'_{\frac{X - \mu}{\sigma}} \left( h\cdot t \right) - M'_{\frac{X - \mu}{\sigma}} \left( 0\cdot t \right)}{h} \right) \quad & \left(\because \lim_{h \to 0} M'_{\frac{X - \mu}{\sigma}} \left( ht \right) = 0 \right) \\ &= \exp \left( \frac{t}{2} \cdot t\cdot M''_{\frac{X - \mu}{\sigma}} \left( 0 \right)\right) \\ &= \exp \left( \frac{t^2}{2} M''_{\frac{X - \mu}{\sigma}} \left( 0 \right)\right) \end{aligned}

여기서,

\begin{aligned} M''_{\frac{X - \mu}{\sigma}}(0) &= E\left( \left( \frac{X - \mu}{\sigma}\right)^2 \right) \\ &= Var\left( \frac{X - \mu}{\sigma} \right) + \left\{ E\left( \frac{X - \mu}{\sigma} \right) \right\}^2 \\ &= 1 + 0^2 \\ &= 1 \end{aligned}

이므로, 이를 위 식에 대입하면 다음과 같은 결과를 얻는다.

\begin{aligned} \lim_{n \to \infty} M_{\frac{\sqrt{n} (\bar{X_n} - \mu)}{\sigma}}(t) &= \exp \left( \frac{t^2}{2} M''_{\frac{X - \mu}{\sigma}} \left( 0 \right)\right) = \exp\left(\frac{t^2}{2}\right) \end{aligned}

이는 표준정규분포의 적률생성함수와 같은 값이다. 즉, 적률생성함수의 성질에 의해, 이 적률생성함수로 대표되는 분포인 $\frac{\sqrt{n} (\bar{X_n} - \mu)}{\sigma}$ 는 표준정규분포 $\mathcal{N}(0, 1)$ 과 같은 분포이다. 즉, $\bar{X}$ 역시 정규분포 $\mathcal{N}(\mu,\frac{\sigma^2}{n})$ 과 같은 분포가 된다.

여기까지가 적률함수가 존재하는 경우에 대한 증명이었는데, 적률함수가 존재하지 않는 확률변수에 대해서도 중심극한정리는 성립한다. 이 때에는 적률생성함수가 아닌 특성함수(Characteristic Function)을 이용하여 증명한다.

의의

중심극한정리는 모집단이 어떤 분포를 가지고 있는지 상관없이 표본의 크기가 충분히 크다면, 표본평균들의 분포가 정규분포를 이룬다는 점을 이용해 정규분포 상에서 통계 분석을 할 수 있다는 엄청난 장점이 있다. 즉, 모집단의 분포에 대한 정보가 아예 없더라도, 표본 통계량을 이용해 모수를 추정할 수 있는 강력한 이론적 증거를 제시한다.

NK590

AI 엔지니어 (진)

이전 포스트

빈도주의와 베이즈주의

다음 포스트

중심극한정리

정의

증명

의의

빈도주의와 베이즈주의

큰 수의 법칙

0개의 댓글