표본 표준편차(분산)는 왜 n-1로 나눌까?

정준환·2022년 10월 14일
1

그냥 그게 더 편하니까 그렇게 약속했다. 사실 이게 정답이다. 그럼 왜 n1n-1로 나누면 더 편한지 내 마음대로 정리해봤다.

표본과 표준편차


먼저 표본이란 무엇일까?

통계학에서 표본(sample, 標本)은 모집단(population)의 부분집합이다. 표본집단 또는 표집으로도 불리며 표본은 여러 통계 자료를 포함하는 집단 속에서 그 일부를 뽑아내어 조사한 결과로써 본디의 집단의 성질을 추측할 수 있는 통계 자료이다.

출처: 위키백과 에서 긁어왔다.

단순히 말하면, 우리가 구하고자 하는 모집단의 특징을 이해하기 위해서 모집단을 조금 뜯어온 모집단의 일부다. 표본은 표본 그 자체로는 아무짝에 쓸모가 없다. 그냥 모집단의 특징을 추론하기 위해 사용하는 도구일 뿐이다. 우리가 구하는 표본 평균이니, 표본 표준편차니 하는것들은 전부 그저 모 평균과 모 표준편차를 구하기위한 수단일 뿐이다.


다음은 표준편차다.

표준 편차(標準 偏差, 영어: standard deviation, SD)는 통계집단의 분산의 정도 또는 자료의 산포도를 나타내는 수치로, 분산의 음이 아닌 제곱근 즉, 분산을 제곱근한 것으로 정의된다. 표준편차가 작을수록 평균값에서 변량들의 거리가 가깝다.

마찬가지로 출처: 위키백과 에서 긁어왔다.

중심으로부터 얼마나 떨어져있는지를 나타내는 정도다.

모 표준편차


내가 어떤 데이터를 해석할 때에 있어서, 모집단이 어떻게 생겼는지가 궁금한것이지 그것의 일부를 떼온 표본집단은 원래 관심의 대상이 아니다. 그래서 모 표준편차(분산)를 정의하는게 우선이다.

σ=E[(Xμ)2]=E[X2]+E[2μX]+E[μ2]=E[X2]2μE[X]+μ2=E[X2]2μ2+μ2=E[X2]μ2=E[X2](E[X])2\begin{aligned} \sigma &= \sqrt{\operatorname E\left[(X - \mu)^2\right]} \\ &= \sqrt{\operatorname E\left[X^2\right] + \operatorname E[-2\mu X] + \operatorname E\left[\mu^2\right]} \\ &= \sqrt{\operatorname E\left[X^2\right] - 2\mu\operatorname E[X] + \mu^2}\\ &= \sqrt{\operatorname E\left[X^2\right] - 2\mu^2 + \mu^2}\\ &= \sqrt{\operatorname E\left[X^2\right] - \mu^2}\\ &= \sqrt{\operatorname E\left[X^2\right] - (\operatorname E[X])^2} \end{aligned}

여기까지는 쉽다.

표본 표준편차


위에서 말한것처럼 모 표준편차를 구할 수 있는 상황은 흔치 않다. 대부분의 상황에서 모집단은 너무 크기 때문에, 우리는 거기서 표본을 뽑아 일부를 통해 추론 할 뿐이다.

우리는 표본을 한번만 뽑지 않는다. 우연히 표본이 편향되어 뽑힐 가능성이 있기 때문에, 표본 안에 있는 데이터의 개수는 많을수록 좋고, 표본 추출 자체도 많을수록 좋다.

이제 우리가 하고싶은것은 이렇게 여러번 추출한 표본들을 가지고 모집단을 추론 하는 것이다. 추론을 할 때에는 당연히 이 추론이 받아들이기 쉬우면 좋겠다. 예를 들면 아래와 같다.

표본 평균의 평균모평균과 같다.
표본 표준편차의 평균모 표준편차와 같다.

간략하게 풀어서 설명하자면
각각의 표본 안에 100개의 데이터가 있고, 이런 표본이 또 10개 있다고 해보자. 그러면 각각의 표본에 대해 평균, 표준편차가 있고 모든 표본들에 대해서 총 10개의 평균, 10개의 표준편차가 있을 것이다.

그러면 이 10개의 표본 평균들의 평균은 모평균
10개의 표본 표준편차들의 평균은 모 표준편차
가 되도록 표본 표준편차를 설정하는 것이다. 분산이나 표준편차나 그게 그거니까 편의상 분산으로 진행하겠다.

즉,

E(s2)=σ2\operatorname E(s ^2) = \sigma^2

이걸 만족하도록 ss를 설정하면 된다. 그러면 결론적으로

s2=(xxˉ)2n1s^2 = \frac{\sum (x - \bar x)^2}{n-1}

이 된다. 그러니까 표본 표준편차를 n1n-1로 나누는 이유는 다른게 아니라, 모평균의 추청을 쉽게 하게 위해가 정답이다.

해당 과정에 대한 증명은 여기에 잘 되어있으니 참고하자. 10줄 정도면 증명이 된다.

정리


만약에 우리가 예를 들어

모 표준편차표본 표준편차의 평균 - 1 과 같다.
모 표준편차표본 표준편차의 평균 / 2 과 같다.

이런식으로 모 표준편차를 추정하고자 했다면(물론 잘못된 추정이다) 다른 식이 나왔을 것이다.

우리는 단지

σ2=E[(Xμ)2],E(s2)=σ2\sigma^2 = \operatorname E\left[(X - \mu)^2\right] , \qquad \operatorname E(s ^2) = \sigma^2

라는 약속을 했을 뿐이고, 이로 인해 그냥 자연스럽게

s2=(xxˉ)2n1s^2 = \frac{\sum (x - \bar x)^2}{n-1}

라는 수식을 결과적으로 얻었을 뿐이다.

직관적 이해


이제 우리는 왜 n1n-1로 나누어야 하는지 수식적으로 이해했다. 그렇다면 조금 직관적으로 받아들여보자.

X={1,2,3,51,52,53,101,102,103}X = \{1,2,3,51,52,53,101,102, 103\} 이라는 데이터가 있다. 여기서 3개의 데이터를 뽑아서 표본 X1={1,2,3}X_1=\{1, 2, 3\} 을 만들었다. 이때, X1X_1의 표준편차는 원래 데이터의 표준편차에 한참 못미친다. X2={1,52,103}X_2 = \{1, 52, 103\} 으로 뽑아도 더 작은 표준편차가 나온다.

즉, 우리가 표본을 뽑을 때, 이 표본의 표준편차는 실제 모집단의 표준편차보다 작게 나온다. nn이 아니라 n1n-1을 나눔으로서 그 정도가 보정이 될 수 있다고 받아들일 수 있을 것이다.

profile
정준환

0개의 댓글