표본평균, 분산들의 기대값과 모평균, 모분산이 같나?

Kiwoong Park·2022년 2월 4일

표본평균과 표본평균들의 기대값

평균과 분산 $\mu 와 \sigma^2$ (모수=parameter)인 모집단에서 크기 n인 표본을 복원 추출하여 뽑았다고 해보자.
이때 표본1 = $\{x^{(1)}_1, x^{(1)}_2, ..., x^{(1)}_n\}$ 의 평균과 분산을 각각 $\bar{x_1}, S_1^2$ 이라고 하고,
표본2 의 평균과 분산은 $\bar{x_2}, S_2^2$
표본 3, 4 ..., k, ... 등이 있을 때,
각 표본의 첫번째 원소를 대표하는 변수를 $x_1$ , 두번째 원소를 대표하는 변수를 $x_2$ , 각 표본의 평균을 대표하는 변수를 $\bar{x}$ 라고 한다면
$\bar{x} = \cfrac{\sum_{i=1}^{n}x_i}{n}$ 으로 표현할 수 있고,
이때 $\bar{x} = \{\bar{x_1}, \bar{x_2}, ..., \bar{x_k}, ...\}$
$x_1=\{x^{(1)}_1, x^{(1)}_2, ..., x^{(1)}_k, ...\}$
$x_2=\{x^{(2)}_1, x^{(2)}_2, ..., x^{(2)}_k, ...\}$

이때 각 표본평균들의 기대값 $E(\bar{x}) = \lim_{k\rarr\infin}\cfrac{\bar{x_1}+\bar{x_2}+...\bar{x_k}}{k}$
로 표현할 수 있고 그렇다면
$E(\bar{x}) = E(\cfrac{\sum_{i=1}^{n}x_i}{n})\\ = \cfrac{1}{n}E(x_1+x_2+x_3+ ... x_n) \\ = \cfrac{1}{n}{E(x_1)+E(x_2)+ ... + E(x_n)}$
로 표현할 수 있음.

첫번째를 표현하는 집합의 기대값 = 크기가 1인 표본의 집합의 기대값 $\rarr$ 모평균

여기서 $E(x_1), E(x_2), E(x_3)$ 의 각각의 의미는 각 표본에서 첫번째 원소들의 기대값, 다시말하면 크기가 1인 표본의 집합의 기대값이므로 큰수의 법칙에 따라 모집단의 평균( $\mu$ )과 같으므로
$\cfrac{1}{n}{E(x_1)+E(x_2)+ ... + E(x_n)} = \cfrac{\mu n}{n} = \mu$ 가 되며
결과적으로 표본평균들의 기대값은 모평균과 같다고 할 수 있다.

표본분산과 표본분산들의 기대값

표본1 = $\{x^{(1)}_1, x^{(1)}_2, ..., x^{(1)}_n\}$ 의 분산은
$S_1^2 = \cfrac{\sum_{i=1}^n(x_i^{(1)}-\bar{x_1})^2}{n}$ ,
표본2 = $\{x^{(2)}_1, x^{(2)}_2, ..., x^{(2)}_n\}$ 의 분산은
$S_2^2 = \cfrac{\sum_{i=1}^n(x_i^{(2)}-\bar{x_2})^2}{n}$ ,
표본k = $\{x^{(k)}_1, x^{(k)}_2, ..., x^{(k)}_n\}$ 의 분산은
$S_k^2 = \cfrac{\sum_{i=1}^n(x_i^{(k)}-\bar{x_k})^2}{n}$

표본분산을 변수 형태로 표현하여
$S^2 = \cfrac{\sum_{i=1}^n(x_i-\bar{x})^2}{n-1}$ ,
여기서 n-1로 나눠야 불편추정량이됨 -> 이후 증명

표본분산의 기대값은,
$E(S^2) = E(\cfrac{\sum_{i=1}^n(x_i-\bar{x})^2}{n-1})$
$=\cfrac{1}{n-1}E(\sum_{i=1}^n(x_i-\bar{x})^2)$
$=\cfrac{1}{n-1}E(\sum_{i=1}^n(x_i-\mu+\mu-\bar{x})^2)$
$=\cfrac{1}{n-1}E[\sum_{i=1}^n \{(x_i-\mu)^2 + 2(x_i-\mu)(\mu-\bar{x})+(\mu-\bar{x})^2\}]$
$=\cfrac{1}{n-1}E[\sum_{i=1}^n(x_i-\mu)^2 + 2(\mu-\bar{x})\sum_{i=1}^n(x_i-\mu)+n(\mu-\bar{x})^2]$
$=\cfrac{1}{n-1}E[\sum_{i=1}^n(x_i-\mu)^2 + 2n(\mu-\bar{x})^2+n(\mu-\bar{x})^2],$
$where \sum_{i=1}^n(x_i-\mu) = n\bar{x}-n\mu$
$=\cfrac{1}{n-1}E[\sum_{i=1}^n(x_i-\mu)^2 - n(\bar{x}-\mu)^2]$
$=\cfrac{1}{n-1}[E(\sum_{i=1}^n(x_i-\mu)^2) - nE((\bar{x}-\mu)^2)]$ ,
이때 뒤의 항의 의미는 표본평균-모평균의 차이의 제곱에 기대값으로 표본평균의 분산으로 얘기할 수 있고, 이는 $\cfrac{\sigma^2}{n}$ 으로 표현할 수 있다(중심극한 정리).
그리고 앞의 항에서 $x_i$ 즉, $x_1, x_2$ 는 크기가 1인 표본이고, 크기가 1인 표본평균의 분산으로 얘기할 수 있다. $\rarr n\sigma^2$ 으로 큰 수의 법칙에 의해 표현할 수 있다.
결과적으로,
$=\cfrac{1}{n-1}(n\sigma^2-\sigma^2) \\ =\cfrac{1}{n-1}(n-1)\sigma^2 = E(S^2)$
결국 표본분산의 기대값이 모분산과 같아짐을 알 수 있고, 여기서 자유도가 n-1이 아닌 n이었다면 표본분산의 기대값이 모분산의 기대값보다 커져서 모분산을 과소평가하게 된다.