본 글은 칸아카데미의 확률과 통계에 대해서 공부하고 정리한 글입니다.
본 글에서는 표본통계량에 대해서 설명하고자 한다.
표본통계량은 모집단에서 추출한 표본을 통해 계산된 값을 말한다.
이는 모수를 추정하는 데 사용되며, 표본비율 / 표본평균 / 표본분산 등이 대표적인 예시다.
우리는 모집단으로부터 위에서 말한 표본통계량을 여러번 반복하여 구할 수 있다.
이렇게 해서 만들어지는 표본통계량의 분포를 표본분포(Sampling Distribution)라고 한다.
이러한 표본의 분포는, 표본의 크기/반복횟수 등 여러 변수로부터 영향을 받으며
우리는 표본분포의 형태에 따라 표본통계량으로 모수를 추정할 수 있는지 알 수 있다.
표본통계량이 모집단의 실제 모수를 얼마나 잘 추정하는지를 통해
편향추정량(Biased Estimator) 또는 불편추정량(Unbiased Estimator)이라고 말한다.
표본비율은 표본에서 특정 사건의 발생 비율을 말하며, 이에 대한 분포를 표본비율의 표본분포라고 말한다.
예로, 선거에서 후보자를 지지하는 사람들의 비율을 조사할 때,
여러 표본을 추출하여 각 표본에서 지지율을 계산한 결과들의 분포가 표본비율의 표본분포가 된다.
표본비율을 통해 모비율을 추정하기 위해서는, 표본분포가 정규분포 형태를 띄는지가 중요하다.
모비율을 알고 있다면 경험적 법칙에 의해서 정규성을 띄는지 살펴볼 수 있는데,
모비율 와 표본의 크기 이 존재할 때 아래 조건을 모두 만족하면 정규분포 형태를 듼다고 추정할 수 있다.
표본비율의 평균과 표준편차는, 이항확률변수의 평균과 표준편차로부터 유도할 수 있다.
먼저 이항확률변수의 평균과 표준편차는 이다.
그리고 표본비율의 정의에 대해서 생각해보자.
모집단으로부터 개(표본의 크기)를 추출했을때, 특정 사건의 발생 비율 이다.
이는 이항확률변수 관점에서 다시 생각해보면,
특정 사건에 대한 확률이 이고, 개의 시행을 할 때의 기댓값(특정 사건의 발생횟수)으로 볼 수 있다.
단 여기서 표본비율은 특정 사건의 발생횟수가 아닌 발생비율이기 때문에
아래와 같이 이항확률변수의 통계량을 으로 나눠줌으로써 표본비율의 평균과 표준편차를 구할 수 있다.
( = 이항확률변수)
표본평균은 표본의 평균값을 말하며, 이에 대한 분포를 표본평균의 표본분포라고 말한다.
표본평균의 표본분포와 밀접한 관련이 있는 중심극한정리에 대해서 먼저 알고 넘어가자.
중심극한정리(Central Limit Theorem)는
독립적이고 동일한 분포를 따르는 표본들의 합 또는 평균이 정규분포에 가까워진다는 이론이다.
표본의 크기 이 충분히 크다면, 모집단의 분포와 상관없이 표본평균의 분포는 정규 분포를 따르게 되고,
경험적 법칙에 따라 인 경우 정규 분포 형태를 띈다고 가정한다.
표본평균의 평균과 표준편차는 위에서의 표본비율을 구하는 방식과 동일하다.
( = 모집단에서 추출된 표본, = 표본평균)
표준오차(SE, Standard Error)란, 표본통계량의 표준편차를 의미한다.
위에서 말한 표본비율의 표준편차, 표본평균의 표준편차 모두 표준오차라고 말할 수 있다.
※ 표본평균의 표준오차는 SEM(Standard Error of the Mean)이라고도 표기한다.
표본통계량은 표본을 통해 모수를 추정하는 것이기 때문에
표본에 따라서 추정값에 대한 오차가 발생할 수 밖에 없는데, 이를 표준오차 라고 말한다.
표준오차와 표준편차가 굉장히 헷갈릴 수 있다. 유의하자.
표준오차는 모수에 대한 추정치가 아니고, 표본통계량의 표준편차이다.
표준편차는 모집단의 표준편차, 즉 모수를 말하는 것이고
이를 추정하고 싶다면 표본 표준편차를 구해야할 것이다.