[ 통계 ] 중심극한정리

박찬영·2024년 3월 19일

통계학

목록 보기

1/5

중심극한정리

중심극한정리는 많은 확률변수들의 합이 근사적으로 정규분포를 따르는 조건을 결정하는 것과 관련이 있다.
중심극한정리는 독립인 확률변수들의 합에 대한 근사적인 확률을 계산하는 간단한 방법을 제공할 뿐만 아니라 대부분의 모집단의 경헙적 도수분포표들이 종모양(즉, 정규) 곡선을 나타낸다는 주목할 만한 사실을 설명하는데 도움이 된다.

확률표본

어떤 모집단에서 하나의 확률변수를 정의하면 이 확률변수는 적당한 확률분포 즉 밀도함수를 가지게 되며, 이러한 확률분포나 밀도함수는 모집단의 특성을 반영하게 된다.
하지만 이러한 확률변수의 확률분포나 밀도함수는 전수조사를 통해서만 정확하게 얻을 수 있으며, 따라서 표본을 사용하여 확률분포나 밀도함수를 근사적으로 얻는 방법을 고려하게 된다.

이 과정에서 모집단의 특성을 최대한 정확하게 반영하는 표본을 얻어야 한다. 이때 중요한 성질이 바로
표본의 동질성과 독립성이다.

동질성

동질성은 확률변수 X와 표본 $X_1, X_2, X_3, ..., X_n$ 의 확률분포는 동일해야 한다는 것이다.

독립성

독립성은 표본 $X_1, X_2, ... , X_n$ 이 서로 독립이어야 한다는 것이다.

이 특성을 통해서 확률표본을 정의하면 다음과 같다.

확률표본(Random Sample)
모집단 S에서 정의된 확률변수 X와 모집단 S에서 정의된 새로운 확률변수 $X_1,X_2,...,X_n$ 이 다음 두 성질을 만족하면 $X_1, X_2, ...,X_n$ 을 모집단 S에서 추출한 크기가 n인 X의 확률표본이라고 한다.
1) $X_1, X_2, ...,X_n$ 의 분포는 X와 같고 서로 동일하다.
2) $X_1, X_2, ...,X_n$ 은 서로 독립이다.

통계량과 표본분포(statistic & sampling distribution of random sample)

통계적 추론의 주 목적은 확률표본을 사용하여 분포모수를 추정하거나 분포모수와 관련된 가설을 검정하기 위한 과학적인 의사결정 방법을 찾는 것이다.
모수에 대한 통계적 추론은 확률표본 혹은 확률표본의 함수와 밀접한 관계가 있으며, 확률표본의 함수를 우리가 통계량이라고 부른다. 통계량 역시 확률표본의 함수이므로 하나의 확률변수이고 따라서 확률분포를 가진다.

통계량

통계량의 정의는 다음과 같다.

통계량
모집단 S에서 정의된 크기가 n인 확률표본 $X_1, X_2, ...,X_n$ 의 함수 $g(X_1, X_2, ...,X_n)$ 가 다음 두 가지 성질을 만족하면 이를 통계량이라고 한다. 또한 통계량의 분포를 표본분포라고 한다.
1) $g(X_1, X_2, ...,X_n)$ 은 확률변수이고 실수 값을 가진다.
2) $g(X_1, X_2, ...,X_n)$ 은 어떠한 미지의 분포모수도 포함하지 않는다.

확률표본의 표본평균과 표본분산

모집단 S에서 정의된 크기가 n인 확률표본 $X_1, X_2, ...,X_n$ 의 함수 $\bar{X}$ 와 $S^2$ 을 각각 표본평균과 표본분산이라고 하며 다음과 같이 정의한다.
$\bar{X} = \frac{1}{n}\sum_{i=1}^{n} X_i$ ,
$S^2 = \frac{1}{n-1}\sum_{i=1}^{n} (X_i - \bar{X})^2$

확률표본 $X_1, X_2, ...,X_n$ 의 관측값을 $x_1,x_2,...,x_n$ 이라고 하면, 표본평균과 표본분산의 표기는 $\bar{x}$ , $s^2$ 으로 한다.

표본평균의 분포

앞서 통계량 역시 확률변수이며 분포를 가진다고 언급했다.
표본평균 $\bar{X}$ 의 기댓값과 분산은 다음과 같다.

모평균이 $\mu$ 모분산이 $\sigma^2$ 인 모집단 S로부터 얻은 크기 n인 확률표본 $\bar{X}$ 의 기댓값과 분산은
$E(\bar{X}) = \mu$
$Var(\bar{X}) = \frac{\sigma^2}{n}$

여기서 표본의 크기 n이 커지면 표본평균의 분산이 0으로 수렴한다는 점을 알 수 있다. 따라서 표본평균은 표본의 크기가 커질수록 기댓값 $\mu$ 로 수렴하고 이를 대수의 법칙이라고 한다. 또한 표본평균 $\bar{X}$ 의 분포는 기댓값 $\mu$ 를 중심으로 좌우대칭이며 표본의 크기 n이 커지면 기댓값이 $\mu$ 분산이 $\frac{\sigma^2}{n}$ 인 정규분포로 수렴한다는 사실이 알려져 있으며 이를 중심극한정리라고 한다.

대수의 법칙과 중심극한정리

모평균이 $\mu$ , 모분산이 $\sigma^2$ 인 모집단으로부터 얻은 크기가 n인 확륦표본의 표본평균 $\bar{X}$ 는 다음과 같은 성질을 만족한다.

1) 대수의 법칙

표본의 크기 n이 커지면 $\bar{X}$ 는 모평균 $\mu$ 로 (확률)수렴한다.

2) 중심극한정리

표본의 크기 n이 커지면 $\bar{X}$ 의 분포는 평균이 $\mu$ 이고 분산이 $\frac{\sigma^2}{n}$ 인 정규분포로 (분포)수렴한다.

중심극한정리에서 중요한점은 일반적으로 n이 30이상이면 모집단의 분포와 관계없이 위 두 결과가 어느 정도 정확하다는 점이다.
한편 모집단의 분포가 정규분포이면, 표본의 크기 n에 상관없이 표본평균의 분포는 정확히 정규분포이다.

마치며

중심극한정리를 통해서 통계적추론, 모수추론 등에 있어서 표본평균으로 손쉽게 근사 확률을 계산하는데 도움을 줄 수 있다는 사실을 기억할 수 있다.

중심극한정리를 쉽게 정리하면,
n이 충분히 크면, 전수조사할 필요 없이 표본들로 다양한 계산을 할 수 있게 뒷받침 해주는 근거라고 생각한다.

박찬영

안녕하세요 박찬영입니다.

다음 포스트