기초통계학 - (3-2) 추리통계-모집단과 표본

Kyung Jae, Cheong·2022년 8월 15일

기초통계학(요약)

목록 보기
6/9

모집단과 표본

Keyword - 모집단분포, 표본분포, 표집분포, 중심극한정리, 편파추정치, 불편파추정치, 자유도


모집단분포,표본분포

  • 모집단의 분포(population distribution)
    • 일반적으로 평균이 μ\mu, 표준편차가 σ\sigma인 정규분포를 나타냄
      PopulationN(μ,σ2)Population \sim N(\mu,\sigma^2)
  • 모수치 (Parameter)
    • 평균 : μ\mu
    • 분산 : σ2\sigma^2
    • 표준편차 : σ\sigma
    • 사례수 : NN
    • 모비율 : pp
  • 표본집단의 분포(sample distribution)
    • 일반적으로 평균이 Xˉ\bar X, 표준편차가 ss인 분포를 나타냄
    • 표본분포는 항상 정규분포가 되는것은 아님!
    • 표본크기 n이 커질수록 정규분포에 가까워질순 있음
  • 통계치 (statistics), 추정치(estimate)
    • 평균 : Xˉ\bar X or mm
    • 분산 : s2s^2
    • 표준편차 : ss
    • 사례수 : nn
    • 표본비율 : p^\hat p

표집분포(sampling distribution)

  • 가설검정을 위해 필요한 가상의 분포, 이론적분포라고도 불림
    • 추리통계에 있어 매우 중요한 역할을 수행함
  • 표집분포란, 표본의 크기가 n인 표본을 반복추출한 후, 표본들의 평균으로 그린 분포
    - 즉, 표본평균[Xˉ1,Xˉ2Xˉk1,XˉK\bar X_1,\bar X_2 \cdots \bar X_{k-1},\bar X_K], 혹은 표본표준편차[s1,s2sk1,sks_1,s2 \cdots s_{k-1},s_k]의 분포
  • 표집오차(표본오차)(sampling error) : 표본의 평균과 모집단의 평균의 차이
    ek=YˉkμYe_k = \bar Y_k - \mu_Y
  • 표준오차(standard error) : 표집오차들의 표준편차, 즉 표집분포의 표준편차
    σe=σYˉ\sigma_e=\sigma_{\bar Y}
    • (증명)
      σe=Σ(ekeˉ)2K\sigma_e = \sqrt{\frac{\Sigma(e_k-\bar e)^2}{K}}
      eˉ=0\bar e = 0 이므로
      σe=Σek2K=Σ(YˉkμY)2K=σYˉ\sigma_e = \sqrt{\frac{\Sigma e_k^2}{K}}= \sqrt{\frac{\Sigma (\bar Y_k-\mu_Y)^2}{K}}=\sigma_{\bar Y}

중심극한정리(Central Limit Theorem)

  • 큰수의 법칙(law of large number) : 표본집단의 크기(n)이 커질수록 표집분포의 통계값이 모집단의 모수에 가까워진다. 즉, 예측에대한 정확도가 오른다.
  • 중심극한정리(central limit theorem) :
    • 표집분포의 평균은 모집단의 평균과 같고
    • 표집분포의 분산은 모집단의 분산을 표본의 크기로 나눈 것과 같으며
    • 표본크기(n)가 충분히 클때(일반적으로 n>30) 모집단의 분포와 관계없이 표본평균의 분포는 정규분포가 된다.
      xˉxˉ=μx\bar x_{\bar x} = \mu_x
      σxˉ2=σe2=σx2n\sigma^2_{\bar x} = \sigma^2_e = \frac{\sigma^2_x}{n}
      σxˉ=σxn\sigma_{\bar x} = \frac{\sigma_x}{\sqrt n}
      xˉN(μx,σx2n)\bar x \sim N(\mu_x,\frac{\sigma^2_x}{n})
  • (참고)증명
    • 평균
      xˉxˉ=E(xˉ)=E(Σxi/n)\bar x_{\bar x} = E(\bar x) = E(\Sigma x_i/n)
      =E[x1+x2++xnn]=1nE[x1+x2++xn]= E[\frac{x_1+x_2+\cdots + x_n}{n}]=\frac{1}{n}E[x_1+x_2+\cdots + x_n]
      =1n[E(x1)+E(x2)++E(xn)]= \frac{1}{n}\cdot [E(x_1)+E(x_2)+\cdots+E(x_n)]
      =1nnμx=μx= \frac{1}{n}\cdot n \cdot \mu_x = \mu_x
    • 분산
      σxˉ2=Var(xˉ)=Var(x1+x2++xnn)\sigma^2_{\bar x}=Var(\bar x) = Var(\frac{x_1+x_2+\cdots + x_n}{n})
      =1n2Var(x1+x2++xn)= \frac{1}{n^2}\cdot Var(x_1+x_2+\cdots + x_n)
      =1n2[Var(x1)+Var(x2)++Var(xn)]= \frac{1}{n^2}\cdot[Var(x_1)+Var(x_2)+\cdots+Var(x_n)]
      =1n2nσx2=σx2n= \frac{1}{n^2}\cdot n\cdot \sigma^2_x = \frac{\sigma^2_x}{n}

편파추정치(Biased estimates)

  • 편파추정치(biased estimates) : 모집단을 추정하기 위해 계산된 표본의 분산 sy2s^2_y의 기댓값은 모집단의 분산 σy2\sigma^2_y보다 작은 값을 추정하게 되는데, 이를 모집단 분산의 편파추정치라 한다.

  • 증명과정

    • E(sy2)E(s^2_y)

      • E(sy2)E(s^2_y)
        =E(Σ(yiyˉ)2n)=E(\frac{\Sigma (y_i-\bar y)^2}{n})
        =E(Σ(yi22Yiyˉ+yˉ2)n)=E(\frac{\Sigma (y_i^2-2Y_i\bar y+\bar y^2)}{n})
        =E(Σyi22nyˉ2+nyˉ2n)=E(\frac{\Sigma y_i^2-2n\bar y^2+n\bar y^2}{n})
        =E(Σyi2n)E(yˉ2)=E(\frac{\Sigma y^2_i}{n})-E(\bar y^2)
      • 따라서 E(Σyi2n)E(\frac{\Sigma y^2_i}{n})E(yˉ2)E(\bar y^2) 를 알아야함
    • E(Σyi2n)E(\frac{\Sigma y^2_i}{n})

      • σy2=Σ(yiμy)2N\sigma^2_y=\frac{\Sigma(y_i-\mu_y)^2}{N}
        =Σyi2Nμy2=E(yi2)μy2=\frac{\Sigma y_i^2}{N}-\mu^2_y=E(y^2_i)-\mu^2_y
        따라서 E(yi2)=σy2+μy2E(y^2_i)=\sigma^2_y+\mu^2_y

      • E(Σyi2n)=1nΣE(yi2)E(\frac{\Sigma y^2_i}{n})=\frac{1}{n}\cdot \Sigma E(y^2_i)
        =1nΣ(σy2+μy2)= \frac{1}{n}\cdot \Sigma (\sigma^2_y+\mu^2_y)
        (σy\sigma_yμy\mu_y는 상수이므로)
        =1nn(σy2+μy2)= \frac{1}{n}\cdot n (\sigma^2_y+\mu^2_y)

      • E(Σyi2n)=σy2+μy2E(\frac{\Sigma y^2_i}{n}) =\sigma^2_y+\mu^2_y

    • E(yˉ2)E(\bar y^2)

      • σyˉ2=E(yˉ2)[E(yˉ)]2\sigma^2_{\bar y} = E(\bar y^2)-[E(\bar y)]^2
        (중심극한정리에의해 E(yˉ)=μyE(\bar y)=\mu_y)
        =E(yˉ2)μy2=E(\bar y^2)-\mu^2_y
      • E(yˉ2)=σyˉ2+μy2E(\bar y^2)=\sigma^2_{\bar y}+\mu^2_y
    • 다시 E(sy2)E(s^2_y)로 대입
      E(sy2)=E(Σyi2n)E(yˉ2)E(s^2_y)=E(\frac{\Sigma y^2_i}{n})-E(\bar y^2)
      =(σy2+μy2)(σyˉ2+μy2)=(\sigma^2_y+\mu^2_y)-(\sigma^2_{\bar y}+\mu^2_y)
      =σy2σyˉ2=\sigma^2_y-\sigma^2_{\bar y}
      (중심극한정리에의해 σyˉ2=σy2n\sigma^2_{\bar y}=\frac{\sigma^2_y}{n})
      =σy2σy2n=\sigma^2_y-\frac{\sigma^2_y}{n}
      =σy2(11n)=\sigma^2_y(1-\frac{1}{n})
      =σy2(n1n)=\sigma^2_y(\frac{n-1}{n})

    • 따라서 E(sy2)=σy2(n1n)E(s^2_y)=\sigma^2_y(\frac{n-1}{n})

  • 모집단의 분산을 추정하기 위해서는 표본의 분산값인 sy2s^2_y를 그대로 사용하면 안된다!


불편산추정치(Unbiased estimates)

  • 정확한 모집단의 분산을 추정하기 위해선 E(sy2)E(s^2_y)으로 E(Σ(yiyˉ)2n)E(\frac{\Sigma (y_i-\bar y)^2}{n})을 사용하면 안되고, E(Σ(yiyˉ)2n1)E(\frac{\Sigma (y_i-\bar y)^2}{n-1})을 사용해야함.
  • 이를 분산의 불편차추정치(unbiased estimates)라 부른다.
  • 편파추정치인 s2s^2와 구분하기 위해 s2s'^2, su2s_u^2, δ2\delta^2,σn1\sigma_{n-1}등으로 표기하긴하지만...
    일반적으로 s2s^2이라하면 불편산추정치를 의미함.

자유도(Degree of freedom)

  • 불편차추정치를 위한 표본의 분산 계산 공식의 분모 (n-1)을 자유도라 지칭함.
  • 기호로는 dfdf 또는 υ\upsilon으로 표기함.
  • 자유도란 통계적 추정을 할때 표본이 되는 자료 중 모집단에 대한 정보를 주는 독립적인 자료의 수를 말함. 즉, n-1값
    • 예를 들어, 표본의 크기가 4인 표본에서 3개는 어떤 점수라도 가질수 있지만, 나머지 1개의 값은 편차의 합이 0이 되게 하기 위해서는 어떠한 값도 자유롭게 가지지 못하고 고정된 값을 가짐.
      따라서 크기가 4인 표본의 자유도는 3이 된다.
    • 또 다른 예로 4개 집단의 피험자들이 각각 30명씩 random하게 배치됐을때, 자유도는 다음과 같음.
      • 전체자유도 : dftotal=(4×30)1=119df_{total}=(4\times30)-1=119
      • 집단내 자유도 : dfwithin=4×(301)=116df_{within}=4\times(30-1)=116
      • 집단간 자유도 : dfbetween=41=3df_{between}=4-1=3
profile
일 때문에 포스팅은 잠시 쉬어요 ㅠ 바쁘다 바빠 모두들 화이팅! // Machine Learning (AI) Engineer & BackEnd Engineer (Entry)

0개의 댓글