기초통계 (8) 통계학에서의 표본분포(와 표준오차 표준편차 구분)

생각하는 마리오네트·2021년 8월 13일
1

통계

목록 보기
13/41

통계의 표본분포라는 용어는 하나의 동일한 모집단에서 얻은 여러 샘플에 대한 표본통계량의 분포를 나타낸다.

📈 용어정리

  • 표본통계량(sample statistic) : 더 큰 모집단에서 추출도니 표본 데이터들로부터 얻은 측정 지표
  • 데이터 분포(data distribution) : 어떤 데이터 집합에서의 각 개별 값의 도수분포(통계학에서 도수분포 또는 빈도분포는 표본의 다양한 산출 분포를 보여준다.)
  • 표본분포(sampling distribution) : 여러 표본들 혹은 재표본들로부터 얻은 표본 통계량의 도수분포
  • 중심극한정리(central limit theorem, CLT) : 표본크기가 커질수록 표본분포가 정규분포를 따르는 경향
  • 표준오차(standard error) : 여러 표본들로부터 얻은 표본통계량의 변량(개별 데이터 값들의 변량을 뜻하는 표준편차와 혼동하지 말 것)

우리는 표본을 통해서 추정이나 모델을 하기 때문에 어떤 표본을 뽑느냐에 따라 결과가 달라질 수 있다. 즉, 표본의 변동성(sampling variability)이 관심사이다.

📈 표준편차와 표준오차는 무엇이 다를까??

📈 표준 편차

  • 표준편차는 각 데이터가 평균과 얼마나 차이를 가지느냐를 알려주는 것이다.

📈 표준 오차

  • 표준오차는 표본평균의 표준편차이다.
  • 표준오차는 추정량의 정도를 나타내는 측도로서 샘플링을 여러 번 했을 때 각 샘플들의 평균이 전체 평균과 얼마나 차이를 보내는지에 대한 통계량이다.
  • 즉, 표본이 모집단에서 얼마나 떨어져 있는가를 나타낸다.(표준오차가 작을수록 표본의 대표성이 높다고 할 수 있다.)
  • 표준오차는 표본 값들의 표준편차s와 표본크기 n을 기반으로 한 통계량을 이용하여 추정할 수 있다.
  • 위의 수식을 보면 알 수 있듯이 표본의 크기가 커지면 표준오차는 줄어든다.
  • 이때 표준오차와 표본크기 사이의 관계를 n제곱근의 법칙이라고 부르기도 한다.(표준오차를 2배로 줄이려면 표본 크기를 4배를 증가시켜야한다.)
  • 표준오차는 표본의 크기가 커질수록 줄어든다.

정리하면, 표준편차의 경우 하나의 표본안에서 각 데이터들이 그들의 평균과 얼마나 떨어져 있는지를 나타낸 것이며, 표준오차는 여러 모집단에서 추출한 표본들을 샘플링(sampling)을 하고 각 샘플들의 평균이 전체 모집단의 평균과 얼마나 차이가 나는지를 보여주는것으로 모집단과의 차이가 적을수록 표본이 모집단을 잘 대표하고 있는 샘플이라고 할 수 있다.

📈 표준오차를 측정할 때 고려해야할 사항

  • 모집단에서 완전히 새로운 샘플들을 많이 수집한다.
  • 각각의 새 샘플에 대해 통계량(ex)평균)을 계산한다.
  • 두 번째 에서 얻은 통계량의 표준편차를 계산한다. 이를 표준오차의 추정치로 사용한다.

하지만, 실제로 표준오차를 추정하기 위해서 새 샘플을 수집하는 접근 방식은 일반적으로 불가능하다(통계적 낭비 심하다). 하지만 이는 부트스트랩 재표본을 사용할 수 있다.

부트스트랩은 다음 포스팅에서 다루어보고자 한다.

📈 정리

표준오차는 표본평균의 표준편차이다. 내가 뽑은 표본이 모집단을 얼마나 잘 반영했는지를 알아보기 위해 표준오차를 측정하는데 표본들을 무작정 늘릴수 없으니 부트스트랩 방법을 활용하여 표본을 늘린다.

profile
문제를해결하는도구로서의"데이터"

0개의 댓글