정의
모집단에서 무작위로 추출된 표본의 크기가 커질수록, 표본의 평균의 분포는 모집단의 분포 형태와는 상관없이 정규분포에 수렴하는데, 이를 중심극한정리(Central Limit Theorem, CLT)라고 한다.
바꿔 말하면, i.i.d.(독립항등분포)를 따르는 확률변수 X 1 , X 2 , ⋯ , X n X_1, X_2, \cdots, X_n X 1 , X 2 , ⋯ , X n 에 대해, 각각의 평균을 μ \mu μ , 표준편차를 σ \sigma σ 라고 할 때, 확률분포열 ξ n = ( Σ i = 1 n X i − n μ ) / n σ \xi_n = (\Sigma_{i=1}^{n} X_i - n\mu)/\sqrt{n}\sigma ξ n = ( Σ i = 1 n X i − n μ ) / n σ 를 생각하면, lim n → ∞ ξ n \lim_{n \to \infty} \xi_n lim n → ∞ ξ n 은 표준정교분포로 수렴한다.
증명
여기서는 적률생성함수 가 존재하는 확률변수에 대해서만 다룬다.
먼저 짚고 넘어가야 될 것은, 표본평균 그 자체도 확률변수라는 점이다. 즉, 표본 평균을 확률변수 X n ˉ \bar{X_n} X n ˉ 라고 하면, 표본평균의 평균 E ( X n ˉ ) E(\bar{X_n}) E ( X n ˉ ) 과 표본평균의 분산 V a r ( X n ˉ ) Var(\bar{X_n}) V a r ( X n ˉ ) , 그리고 표본평균의 표준편차 S D ( X n ˉ ) SD(\bar{X_n}) S D ( X n ˉ ) 는 다음과 같이 구할 수 있다.
E ( X n ˉ ) = E ( 1 n ( X 1 + X 2 + ⋯ + X n ) ) = 1 n ( E ( X 1 ) + E ( X 2 ) + ⋯ + E ( X n ) ) = 1 n ⋅ n ⋅ μ = μ V a r ( X n ˉ ) = V a r ( 1 n ( X 1 + X 2 + ⋯ + X n ) ) = 1 n 2 ( V a r ( X 1 ) + V a r ( X 2 ) + ⋯ + V a r ( X n ) ) = 1 n 2 ⋅ n ⋅ σ 2 = σ 2 n S D ( X n ˉ ) = V a r ( X ˉ ) = σ n \begin{aligned} E(\bar{X_n}) &= E\left(\frac{1}{n}(X_1 + X_2 + \cdots + X_n) \right) \\ &= \frac{1}{n} \left( E(X_1) + E(X_2) + \cdots +_ E(X_n) \right) \\ &= \frac{1}{n} \cdot n \cdot \mu \\ &= \mu \\\\ Var(\bar{X_n}) &= Var\left(\frac{1}{n}(X_1 + X_2 + \cdots + X_n) \right) \\ &= \frac{1}{n^2} \left( Var(X_1) + Var(X_2) + \cdots + Var(X_n) \right) \\ &= \frac{1}{n^2} \cdot n \cdot \sigma^2 \\ &= \frac{\sigma^2}{n} \\\\ SD(\bar{X_n}) &= \sqrt{Var(\bar{X})} = \frac{\sigma}{n} \end{aligned} E ( X n ˉ ) V a r ( X n ˉ ) S D ( X n ˉ ) = E ( n 1 ( X 1 + X 2 + ⋯ + X n ) ) = n 1 ( E ( X 1 ) + E ( X 2 ) + ⋯ + E ( X n ) ) = n 1 ⋅ n ⋅ μ = μ = V a r ( n 1 ( X 1 + X 2 + ⋯ + X n ) ) = n 2 1 ( V a r ( X 1 ) + V a r ( X 2 ) + ⋯ + V a r ( X n ) ) = n 2 1 ⋅ n ⋅ σ 2 = n σ 2 = V a r ( X ˉ ) = n σ
위 결과를 이용해서, 표본평균을 표준화하면 다음과 같다.
X n ˉ − E ( X n ˉ ) S D ( X n ˉ ) = n ( X n ˉ − μ ) σ \frac{\bar{X_n} - E(\bar{X_n})}{SD(\bar{X_n})} = \frac{\sqrt{n} (\bar{X_n} - \mu)}{\sigma} S D ( X n ˉ ) X n ˉ − E ( X n ˉ ) = σ n ( X n ˉ − μ )
이 자체로는 단순히 표본평균을 정규화시켰을 뿐 확률분포의 형태는 바뀌지 않는다. 여기서 위 표준화된 표본평균의 적률생성함수 M M M 을 구해본다.
M n ( X n ˉ − μ ) σ ( t ) = E ( exp ( n ( 1 n ( X 1 + X 2 + ⋯ + X n ) − μ ) σ t ) ) = E ( exp ( ( X 1 + X 2 + ⋯ + X n ) − n μ ) n σ t ) ) = E ( exp ( X 1 − μ n σ t ) ⋅ exp ( X 2 − μ n σ t ) ⋯ exp ( X n − μ n σ t ) ) = E ( exp ( X 1 − μ n σ t ) ) ⋅ E ( exp ( X 2 − μ n σ t ) ) ⋯ E ( exp ( X n − μ n σ t ) ) = { E ( exp ( X − μ n σ t ) ) } n = { M X − μ σ ( t n ) } n \begin{aligned} M_{\frac{\sqrt{n} (\bar{X_n} - \mu)}{\sigma}}(t) &= E \left( \exp\left( \frac{\sqrt{n}(\frac{1}{n}(X_1 + X_2 + \cdots + X_n) - \mu)}{\sigma} t \right) \right) \\ &= E \left( \exp\left( \frac{(X_1 + X_2 + \cdots + X_n) - n\mu)}{\sqrt{n}\sigma} t \right) \right) \\ &= E \left( \exp \left( \frac{X_1 - \mu}{\sqrt{n}\sigma}t \right) \cdot \exp \left( \frac{X_2 - \mu}{\sqrt{n}\sigma}t \right) \cdots \exp \left( \frac{X_n - \mu}{\sqrt{n}\sigma}t \right) \right) \\ &= E \left( \exp \left( \frac{X_1 - \mu}{\sqrt{n}\sigma}t \right) \right) \cdot E \left( \exp \left( \frac{X_2 - \mu}{\sqrt{n}\sigma}t \right) \right) \cdots E \left( \exp \left( \frac{X_n - \mu}{\sqrt{n}\sigma}t \right) \right) \\ &= \left\{ E \left( \exp \left( \frac{X - \mu}{\sqrt{n}\sigma}t \right) \right) \right\}^n \\ &= \left\{ M_{\frac{X - \mu}{\sigma}} \left( \frac{t}{\sqrt{n}} \right) \right\}^n \end{aligned} M σ n ( X n ˉ − μ ) ( t ) = E ( exp ( σ n ( n 1 ( X 1 + X 2 + ⋯ + X n ) − μ ) t ) ) = E ( exp ( n σ ( X 1 + X 2 + ⋯ + X n ) − n μ ) t ) ) = E ( exp ( n σ X 1 − μ t ) ⋅ exp ( n σ X 2 − μ t ) ⋯ exp ( n σ X n − μ t ) ) = E ( exp ( n σ X 1 − μ t ) ) ⋅ E ( exp ( n σ X 2 − μ t ) ) ⋯ E ( exp ( n σ X n − μ t ) ) = { E ( exp ( n σ X − μ t ) ) } n = { M σ X − μ ( n t ) } n
여기서 n → ∞ n \to \infty n → ∞ 로 보냈을 위 적률함수의 극한값을 구하면 되는데, 이 때 1 ∞ 1^{\infty} 1 ∞ 형태의 극한값이 나오게 되므로 이를 회피하게 위해 적률함수에 먼저 자연로그를 씌운 뒤 극한값을 구하고, 그 값을 exp \exp exp 에 넣는 방식을 취한다.
lim n → ∞ { M X − μ σ ( t n ) } n = exp ( lim n → ∞ n ln M X − μ σ ( t n ) ) = exp ( lim h → 0 ln M X − μ σ ( h t ) h 2 ) ( ∵ h = 1 n ) = exp ( lim h → 0 t M X − μ σ ′ ( h t ) 2 h ⋅ M X − μ σ ( h t ) ) ( ∵ L’Hopital’s rule on h ) = exp ( t 2 lim h → 0 M X − μ σ ′ ( h t ) h ) ( ∵ lim h → 0 M X − μ σ ( h t ) = 1 ) = exp ( t 2 lim h → 0 M X − μ σ ′ ( h ⋅ t ) − M X − μ σ ′ ( 0 ⋅ t ) h ) ( ∵ lim h → 0 M X − μ σ ′ ( h t ) = 0 ) = exp ( t 2 ⋅ t ⋅ M X − μ σ ′ ′ ( 0 ) ) = exp ( t 2 2 M X − μ σ ′ ′ ( 0 ) ) \begin{aligned} \lim_{n \to \infty} \left\{ M_{\frac{X - \mu}{\sigma}} \left( \frac{t}{\sqrt{n}} \right) \right\}^n &= \exp \left( \lim_{n \to \infty} n \ln M_{\frac{X - \mu}{\sigma}} \left( \frac{t}{\sqrt{n}} \right) \right) \\ &= \exp \left( \lim_{h \to 0} \frac{\ln M_{\frac{X - \mu}{\sigma}} \left( ht \right)}{h^2} \right) \quad & \left(\because h = \frac{1}{\sqrt{n}} \right) \\ &= \exp \left( \lim_{h \to 0} \frac{t M'_{\frac{X - \mu}{\sigma}} \left( ht \right)}{2h \cdot M_{\frac{X - \mu}{\sigma}} \left( ht \right)} \right) \quad & (\because \text{L'Hopital's rule on }h) \\ &= \exp \left( \frac{t}{2} \lim_{h \to 0} \frac{ M'_{\frac{X - \mu}{\sigma}} \left( ht \right)}{h} \right) \quad & \left(\because \lim_{h \to 0} M_{\frac{X - \mu}{\sigma}} \left( ht \right) = 1 \right) \\ &= \exp \left( \frac{t}{2} \lim_{h \to 0} \frac{ M'_{\frac{X - \mu}{\sigma}} \left( h\cdot t \right) - M'_{\frac{X - \mu}{\sigma}} \left( 0\cdot t \right)}{h} \right) \quad & \left(\because \lim_{h \to 0} M'_{\frac{X - \mu}{\sigma}} \left( ht \right) = 0 \right) \\ &= \exp \left( \frac{t}{2} \cdot t\cdot M''_{\frac{X - \mu}{\sigma}} \left( 0 \right)\right) \\ &= \exp \left( \frac{t^2}{2} M''_{\frac{X - \mu}{\sigma}} \left( 0 \right)\right) \end{aligned} n → ∞ lim { M σ X − μ ( n t ) } n = exp ( n → ∞ lim n ln M σ X − μ ( n t ) ) = exp ( h → 0 lim h 2 ln M σ X − μ ( h t ) ) = exp ( h → 0 lim 2 h ⋅ M σ X − μ ( h t ) t M σ X − μ ′ ( h t ) ) = exp ( 2 t h → 0 lim h M σ X − μ ′ ( h t ) ) = exp ( 2 t h → 0 lim h M σ X − μ ′ ( h ⋅ t ) − M σ X − μ ′ ( 0 ⋅ t ) ) = exp ( 2 t ⋅ t ⋅ M σ X − μ ′ ′ ( 0 ) ) = exp ( 2 t 2 M σ X − μ ′ ′ ( 0 ) ) ( ∵ h = n 1 ) ( ∵ L’Hopital’s rule on h ) ( ∵ h → 0 lim M σ X − μ ( h t ) = 1 ) ( ∵ h → 0 lim M σ X − μ ′ ( h t ) = 0 )
여기서,
M X − μ σ ′ ′ ( 0 ) = E ( ( X − μ σ ) 2 ) = V a r ( X − μ σ ) + { E ( X − μ σ ) } 2 = 1 + 0 2 = 1 \begin{aligned} M''_{\frac{X - \mu}{\sigma}}(0) &= E\left( \left( \frac{X - \mu}{\sigma}\right)^2 \right) \\ &= Var\left( \frac{X - \mu}{\sigma} \right) + \left\{ E\left( \frac{X - \mu}{\sigma} \right) \right\}^2 \\ &= 1 + 0^2 \\ &= 1 \end{aligned} M σ X − μ ′ ′ ( 0 ) = E ( ( σ X − μ ) 2 ) = V a r ( σ X − μ ) + { E ( σ X − μ ) } 2 = 1 + 0 2 = 1
이므로, 이를 위 식에 대입하면 다음과 같은 결과를 얻는다.
lim n → ∞ M n ( X n ˉ − μ ) σ ( t ) = exp ( t 2 2 M X − μ σ ′ ′ ( 0 ) ) = exp ( t 2 2 ) \begin{aligned} \lim_{n \to \infty} M_{\frac{\sqrt{n} (\bar{X_n} - \mu)}{\sigma}}(t) &= \exp \left( \frac{t^2}{2} M''_{\frac{X - \mu}{\sigma}} \left( 0 \right)\right) = \exp\left(\frac{t^2}{2}\right) \end{aligned} n → ∞ lim M σ n ( X n ˉ − μ ) ( t ) = exp ( 2 t 2 M σ X − μ ′ ′ ( 0 ) ) = exp ( 2 t 2 )
이는 표준정규분포의 적률생성함수와 같은 값이다. 즉, 적률생성함수의 성질에 의해, 이 적률생성함수로 대표되는 분포인 n ( X n ˉ − μ ) σ \frac{\sqrt{n} (\bar{X_n} - \mu)}{\sigma} σ n ( X n ˉ − μ ) 는 표준정규분포 N ( 0 , 1 ) \mathcal{N}(0, 1) N ( 0 , 1 ) 과 같은 분포이다. 즉, X ˉ \bar{X} X ˉ 역시 정규분포 N ( μ , σ 2 n ) \mathcal{N}(\mu,\frac{\sigma^2}{n}) N ( μ , n σ 2 ) 과 같은 분포가 된다.
여기까지가 적률함수가 존재하는 경우에 대한 증명이었는데, 적률함수가 존재하지 않는 확률변수에 대해서도 중심극한정리는 성립한다. 이 때에는 적률생성함수가 아닌 특성함수(Characteristic Function)을 이용하여 증명한다.
의의
중심극한정리는 모집단이 어떤 분포를 가지고 있는지 상관없이 표본의 크기가 충분히 크다면, 표본평균들의 분포가 정규분포를 이룬다는 점을 이용해 정규분포 상에서 통계 분석을 할 수 있다는 엄청난 장점이 있다. 즉, 모집단의 분포에 대한 정보가 아예 없더라도, 표본 통계량을 이용해 모수를 추정할 수 있는 강력한 이론적 증거를 제시한다.