표본분산을 제대로 알고 구해보자

지원·2021년 1월 29일
1

들어가기

nn개의 표본이 있다면, 표본분산(s2s^2)은 다음과 같은 식으로 구한다.

s2=1n1i=1n(XiX)2s^2 = \frac 1{n-1}\displaystyle\sum_{i = 1}^n (X_i - \overline X )^2

그런데 여기서 의문이 생긴다. 왜 우변의 제곱합을 n1n-1로 나눠주는 것일까? 분산이 편차 제곱의 기댓값이라면, 표본 개수만큼 나눠주는 것이 맞지 않을까? 실제로, 표본이 아닌 전체 데이터에 대한 분산(σ2\sigma^2)은 다음과 같이 계산한다.

σ2=1ni=1n(Xiμ)2\sigma^2=\frac1n\displaystyle\sum_{i=1}^n(X_i - \mu)^2

언뜻 생각하면 앞뒤가 맞지 않는 이 상황을 이해하기 위해서는 표본분산이 무엇인지부터 살펴봐야 한다.

표본분산의 실체

표본분산은 표본의 분산을 말한다. 그런데 표본이란 무엇인가? 표본(sample)은 '전체 데이터를 대표할 수 있는 일부'를 뽑아놓은 것이다. 통계학에서 살펴보고자 하는 전체 데이터를 모집단(population)이라고 하는데, 표본을 통해 모집단이 어떤 모습을 하고 있는지 '추정'하고자 하는 것이다.

표본분산을 구하는 이유는 그것을 이용해 모집단의 분산을 추정하기 위함이다. 분산을 추정하는 이유는 분산이 확률분포를 결정한다고 생각하기 때문이다. 물론, 항상 무조건 분산이 중요한 것은 아니다. 모집단의 분포를 추정하기 위해 적절한 가정을 통해 '모델링'을 하기 마련인데, 어떠한 모델이냐에 따라 어떤 수를 알고 싶은지가 달라질 수 있다. 다시 말해 우리는 분산이 모집단을 잘 설명한다고 믿을 때, 표본분산을 통해 진짜 분산(이제부터는 모집단의 분산이라는 의미로 '모분산'이라고 부르기로 하자)을 추정하려 하는 것이다. 말하자면 모분산은 목적이고, 표본분산은 그것을 달성하기 위한 수단이다.

그렇다면 표본분산을 보고 모분산을 어떻게 맞출 수 있을까? 이상적으로는 표본이 모집단의 분포와 정확히 일치하여, 표본분산과 모분산이 일치하는 경우를 생각할 수 있을 것이다. 하지만 이러한 경우는 상상에서만 가능할 뿐이며, 실제로 그렇다 하더라도 모분산의 모습을 모르는 우리는 그것을 절대 확신할 수 없다. 다만 우리가 할 수 있는 최선의 방법은 적절한 방법으로 표본분산을 정의해서 그 값이 '평균적으로' 모분산과 일치하도록 하는 것이다. 즉 최소한 다음 관계를 보장할 수 있는 방법을 찾아야 한다.

E(s2)=σ2\mathbb E(s^2) = \sigma^2

그리고 어떠한 이유로, 그 '방법'은 표본분산 식에 nn 대신 n1n-1을 나눠주는 것이 되었다.

자유도?

그 '이유'는 표본분산이 표본평균에 의존할 수 밖에 없다는 데에서 비롯된다. 만약 우리가 모평균을 알고 있다면, 이를 이용해서 분산을 추정하는 것이 타당할 것이다. 하지만 대부분의 상황은 그렇지 못하다. 따라서 우리는 평균 또한 추정치를 사용해야 한다. 평균의 추정치로 표본의 평균(X\overline X)을 사용하며, 표본평균 역시 다음 식을 만족한다.

E(X)=μ\mathbb E(\overline X)=\mu

표본평균과 표본분산은 같은 표본으로부터 구해지며, 표본분산을 구하기 위해서는 표본평균을 먼저 구해야 한다. 따라서 표본분산을 구할 때는 표본평균을 아는 상태이고, n1n-1개의 표본 데이터가 있다면 나머지 하나는 종속적으로 정해질 수 밖에 없다. 다시 말해 모분산의 추정에 필요한 정보를 주는 독립적인 표본 개수는 n1n-1개이며, 이를 다른 말로 '자유도(degree of freedom)'가 n1n-1인 상태'라고 표현할 수 있다.

전체 크기에 데이터 한 개가 기여하는 정도를 평균이라고 생각할 수 있다면, 분산 또한 평균의 일종으로서 편차 제곱합에 데이터 한 개가 기여하는 정도라고 할 수 있을 것이다. 만약 표본 안에서의 분산이 우리의 목적이라면 '표본 한 개당' 기여도를 계산하는 것이 맞지만, 모분산과 같은 값을 기대하고 싶다면 '모집단에 대한 정보를 주는 표본 한 개당' 편차에 기여하는 정도를 생각해야만 하지 않을까?

수식으로 확인해 보자

자유도 개념을 잠시 잊고, 수식으로 이를 확인해 볼 수 있다. 가장 결정적인 차이는 확률변수 XX를 제곱한 X2X^2와 표본평균을 제곱한 X2\overline X^2의 기댓값이 다르다는 것에서 발생한다.

위에서 언급했듯이, 분산은 편차 제곱합의 기댓값으로 생각할 수 있다. \sum 안의 제곱식을 전개하고 E(Y+Z)=E(Y)+E(Z)\mathbb E(Y+Z) =\mathbb E(Y) + \mathbb E(Z), E(μX)=μE(X)\mathbb E(\mu X) = \mu\mathbb E(X)라는 점을 이용하면, 다음과 같이 E(X2)\mathbb E(X^2)를 표현할 수 있다.

σ2=E[(Xμ)2]=E(X2)μ2E(X2)=σ2+μ2\sigma^2 = \mathbb E[(X - \mu)^2] = \mathbb E(X^2) - \mu^2\quad \therefore\,\mathbb E(X^2)=\sigma^2 + \mu^2

E(X2)\mathbb E(\overline X^2)도 비슷한 방법으로 계산할 수 있다. 다만, 분산의 성질 한 가지를 더 이용해야 한다. 두 확률변수 YY, ZZ의 합 Y+ZY+Z의 분산 Var(Y+Z)=Var(Y)+Var(Z)+2Cov(Y,Z)Var(Y+Z) = Var(Y) + Var(Z) + 2Cov(Y, Z)이다. 여기서 CovCov는 두 확률변수의 공분산인데, 각각의 평균 μY\mu_Y, μZ\mu_Z에 대해서 Cov(Y,Z)=E[(YμY)(ZμZ)]Cov(Y, Z) = \mathbb E[(Y-\mu_Y)(Z-\mu_Z)]로 정의한다. 그런데 표본의 추정을 위해서는 표본의 독립성이 보장되어야 하므로(참고), 서로 독립인 두 확률변수의 공분산은 0이다. 즉, YY, ZZ가 서로 독립이라면, 분산도 기댓값과 같이 선형성을 가진다.

따라서, nn개의 표본 X1X_1, X2X_2, \dots, XnX_n의 평균 X\overline X의 분산은 다음과 같다.

Var(X2)=Var(1ni=1nXi)=1n2Var(i=1nXi)=1n2i=1nVar(Xi)Var(\overline X^2) = Var\left(\frac1{n}\displaystyle\sum_{i=1}^n X_i\right)=\frac1{n^2}Var\left(\displaystyle\sum_{i=1}^nX_i\right)=\frac1{n^2}\displaystyle\sum_{i=1}^nVar(X_i)

표본은 모집단의 부분집합이므로, Var(Xi)=Var(X)=σ2Var(X_i)=Var(X)=\sigma^2이다. 따라서,

Var(X2)=1n2i=1nσ2=σ2nVar(\overline X^2) = \frac1{n^2}\displaystyle\sum_{i=1}^n\sigma^2 = \frac{\sigma^2}n

한편, E(X)=μ\mathbb E(\overline X)=\mu이므로,

Var(X2)=E[(Xμ)2]=E(X2)μ2E(X2)=σ2n+μ2Var(\overline X^2) = \mathbb E[(\overline X - \mu)^2] = \mathbb E(\overline X^2) - \mu^2\quad \therefore\,\mathbb E(\overline X^2)=\frac{\sigma^2}n + \mu^2

이를 이용해서 표본분산의 기댓값을 구해보자. i=1nXi=nX\displaystyle\sum_{i=1}^nX_i=n\overline X, E(Xi2)=E(X2)\mathbb{E}(X_i^2)=\mathbb{E}(X^2)임을 기억하자.

E(s2)=E[1n1i=1n(XiX)2]=1n1E[i=1n(Xi22XXi+X2)]=1n1E(i=1nXi22Xi=1nXi+i=1nX2)=1n1[i=1nE(Xi2)E(2X(nX))+E(nX2)]=1n1[i=1nE(X2)nE(X2)]=1n1[i=1n(σ2+μ2)n(σ2n+μ2)]=1n1(nσ2+nμ2σ2nμ2)=σ2\begin{aligned} \mathbb E(s^2) &= \mathbb E\left[\frac 1{n-1}\displaystyle\sum_{i = 1}^n (X_i - \overline X )^2\right] \\ &= \frac1{n-1}\mathbb E\left[\displaystyle\sum_{i=1}^n(X_i^2 -2\overline X X_i + \overline X^2)\right]\\ &=\frac 1{n-1}\mathbb E\left(\displaystyle\sum_{i=1}^nX_i^2-2\overline X\displaystyle\sum_{i=1}^nX_i+\displaystyle\sum_{i=1}^n\overline X^2\right)\\ &=\frac 1{n-1}\left[\displaystyle\sum_{i=1}^n\mathbb E(X_i^2)-\mathbb{E}\left(2\overline X\left(n\overline X\right)\right)+\mathbb E\left(n\overline{X}^2\right)\right] \\ &=\frac{1}{n-1}\left[\displaystyle\sum_{i=1}^n\mathbb{E}(X^2)-n\mathbb{E}(\overline{X}^2)\right]\\ &=\frac 1{n-1}\left[\displaystyle\sum_{i=1}^n\left(\sigma^2+\mu^2\right)-n\left(\frac{\sigma^2}n+\mu^2\right)\right] \\ &=\frac{1}{n-1}\left(n\sigma^2+n\mu^2-\sigma^2-n\mu^2\right)\\ &=\sigma^2 \end{aligned}

이로써, 표본분산의 기댓값이 모분산과 일치함을 알 수 있다. 만약, s2=1ni=1n(XiX)2s^2 = \displaystyle\frac 1{n}\displaystyle\sum_{i = 1}^n (X_i - \overline X )^2로 정의했다면, E(s2)=nn1σ2\mathbb{E}(s^2)=\displaystyle\frac{n}{n-1}\sigma^2가 되었을 것이다.[1]



1. 이러한 경우, 편향된 추정량(biased estimator)을 구했다고 하기도 한다. 반대로 우리가 무조건 표본 크기를 고려하는 것이 아닌 자유도를 생각하는 것은 편향되지 않은, 즉 불편 추정량(unbiased estimator)을 구하기 위함이다.
profile
섬마을 초보 개발자

1개의 댓글

comment-user-thumbnail
2024년 4월 24일

잘 읽고 갑니다~

답글 달기