[zero-base/] DS Part 7. 통계기본 - 47일차 스터디 노트

손윤재·2024년 2월 6일

제로베이스 DS 22기

목록 보기
48/55
post-thumbnail

추정

추정이란, 모평균, 모표준편차와 같이 모집단의 특성을 나타내는 값을 표본을 이용하여 추측하는 것을 말한다.

  • 추정(estimation)
    모집단의 모수를 모를 경우 표본으로 추출된 통계량을 모집단의 근사값으로 사용하는 것을 추정이라고 한다.

  • 추정량(estimator)
    표본 평균으로 모평균을 추정할 때 표본 평균을 모평균에 대한 추정량이라고 한다.

  • 모수를 추정 하는 방법에는 점추정 과 구간 추정이 있다.

    • 점추정(point estimation) : 모수를 하나의 특정값으로 추정 하는 방법
    • 구간 추정(interval estimation) : 모수가 포함될 수 있는 구간을 추정하는 방법

🔰 점추정


🔰 구간추정



모평균의 구간추정


🔰 모평균의 신뢰구간


🔰 표본 크기 결정

  • 허용오차(d)(d)를 가지고 표본의 크기(n)(n)를 결정할 수 있다.

       n=(zα2×σd)2~~~ n= \left(\cfrac{z_{\frac{\alpha}{2}}\times \sigma}{d} \right)^2

  • 허용오차(Permissible Error) : 추정한 값이 틀려도 허용할 수 있는 오차

  • 정규분포의 신뢰구간을 통해 허용오차를 계산한다.

       P( Xˉμd )=1α~~~ P\left(~|\bar X - \mu| \le d ~\right)= 1-\alpha

        d=zα2×σn   n= zα/2  σ d~~~ \Rightarrow~ d= z_{\frac{\alpha}{2}} \times \frac{\sigma}{\sqrt{n~}} ~ \Rightarrow~ \sqrt{n} = \frac{~z_{\alpha/2}~\cdot~\sigma~}{d}



모비율의 추정

  • 모집단에서 어떤 사건에 대한 비율을 고려할 때 그 비율을 그 사건에 대한 모비율 pp라 한다.

🔰 모비율의 점추정:표본비율

  • 비율에 대한 추정으로 우리가 원하는 속성(class)에 속하면 ‘1’ 아니면 ‘0’ 일 때,
    1의 속성을 갖는 것의 개수를 XX라고 하면 XB(n, p)X\thicksim B(n,~p)이다.
    이때 모비율의 점추정량을 표본비율(Sample Proportion)이라고 한다.
           p^= X n~~~~~~~ \hat p= \cfrac{~X~}{n}

    • ex. A대학의 취업에 성공한 학생의 비율은 몇 %일까?
          표본을 통해 전체 비율을 추정할 수 있다.
  • 모집단에서 어떤 사건에 대한 모비율이 pp일 때, 크기가 nn인 표본을 임의추출하면 표본비율 p^\hat p에 대하여

    평균, E(p^)=E( X n)=1n E(X)=1n np=p,~ E(\hat{p})=E\left(\cfrac{~X~}{n} \right) = \cfrac{1}{n}~E(X) = \cfrac{1}{n}~np = \boxed{p}

    분산, V(p^)=V( X n)=1 n2 V(X)=1 n2 np(1p),~ V(\hat{p})=V\left(\cfrac{~X~}{n} \right) = \cfrac{1}{~n^2}~V(X) = \cfrac{1}{~n^2}~np(1-p)
                       = p(1p) n= pq n~~~~~~~~~~~~~~~~~~~= \boxed {\cfrac{~p(1-p)~}{n}=\cfrac{~pq~}{n}}

    표준편차, σ(p^)= pq n   (, q=1p),~ \sigma(\hat p)=\sqrt{\cfrac{~pq~}{n}}~~~(단,~q=1-p)


🔰 모비율의 구간추정

  • 모비율 구간 추정에서 정규분포의 근사가 가능한 대표본(n30)(n\ge30)은 보통 np>5,  n(1p)>5np>5,~~ n(1-p)>5를 동시에 만족해야 한다.

  • nn이 충분히 크면 C.L.T(중심극한정리)에 의해서
      Z= p^pp(1p)/n   N(0, 1)~~Z=\cfrac{~\hat{p}-p}{\sqrt{p(1-p)/n~}}~\thicksim~ N(0,~1)

  • 표본비율의 분포

    모비율이 pp이고 표본의 크기 nn이 충분히 클 때,

    표본비율 p^\hat p은 근사적으로 정규분포 N(p,   pq n)N \Big(p,~~ \cfrac{~pq~}{n} \Big)를 따른다. (단, q=1pq=1-p)

    • 확률변수 Z= p^ppq/n Z = \cfrac{~\hat p-p}{\sqrt{pq/n~}} 는 근사적으로 표준정규분포 N(0, 1)N(0, ~1)을 따른다.
  • 모집단에서 임의추출한 크기가 nn인 표본의 표본비율 p^\hat p에 대하여 표본의 크기 nn이 충분히 크면 모비율 pp의 신뢰구간은 다음과 같다. (단, q^=1p^\hat q = 1 - \hat p)

           P(zα2Zzα2)=1α~~~~~~~P\left(-z_{\frac{\alpha}{2}}\le Z \le z_{\frac{\alpha}{2}}\right) = 1 - \alpha

     P(zα2  p^p p(1p) nzα2)=1α~\Rightarrow P\left(-z_{\frac{\alpha}{2}}\le \cfrac{~~\hat p -p}{\sqrt{\frac{~p(1-p)~}{n}}} \le z_{\frac{\alpha}{2}}\right) = 1-\alpha

     P(zα2× p(1p) np^pzα2× p(1p) n)=1α~ \Rightarrow P\left(-z_{\frac{\alpha}{2}} \times \sqrt{\frac{~p(1-p)~}{n}} \le \hat p -p \le z_{\frac{\alpha}{2}}\times \sqrt{\frac{~p(1-p)~}{n}}\right) = 1-\alpha

     P(p^zα2× p(1p) np p^+zα2× p(1p) n)=1α~ \Rightarrow P\left(\hat p -z_{\frac{\alpha}{2}} \times \sqrt{\frac{~p(1-p)~}{n}} \le p \le~ \hat p +z_{\frac{\alpha}{2}}\times \sqrt{\frac{~p(1-p)~}{n}}\right) = 1-\alpha

  • ex.
    20대 전체의 A사 핸드폰 사용률을 알기 위해서 무작위로 500명을 대상으로 조사한 결과 212명이 A사 핸드폰을 사용 중이었다.
    20대 전체의 A사 핸드폰 사용률에 대한 추정값을 구하고 95% C.I.(신뢰구간)을 구하시오.

    •  p^=212500=0.424 ,   zα2=z0.025=1.96~\hat p = \frac{212}{500} = 0.424~,~~~z_{\frac{\alpha}{2}} = z_{0.025} = 1.96

    •  np^=500×212500 > 5 ,   n(1p^)=500×288500 > 5 ~n\hat p = 500 \times\cfrac{212}{500}~>~5~,~~~n(1-\hat p) = 500 \times\cfrac{288}{500}~>~5~를 만족하므로 정규분포를 따른다고 볼 수 있다.

    •  p^zα2× p(1p) np p^+zα2× p(1p) n~\hat p -z_{\frac{\alpha}{2}} \times \sqrt{\frac{~p(1-p)~}{n}} \le p \le~ \hat p +z_{\frac{\alpha}{2}}\times \sqrt{\frac{~p(1-p)~}{n}}

       0.4241.96× 0.424(10.424) 500p 0.424+1.96× 0.424(10.424) 500~~~\Rightarrow 0.424 - 1.96 \times \sqrt{\frac{~0.424(1-0.424)~}{500}} \le p \le~ 0.424 + 1.96 \times \sqrt{\frac{~0.424(1-0.424)~}{500}}
       (0.38, 0.46)~~~\Rightarrow (0.38,~0.46)


🔰 모비율의 표본 크기

  • 대표본(n30)(n\ge30)일 때,

    오차의 한계 : p^pzα2×p^(1p^)nd ,|\hat p-p| \le z_{\frac{\alpha}{2}} \times \sqrt{\cfrac{\hat p(1-\hat p)}{n}} \le d~,
       (, p^(1p^)의 최대값은  1 4이다.)~~~(단,~\hat p(1-\hat p)의~최대값은~\cfrac{~1~}{4}이다.)

       p^(1p^)n(d zα2)2    n p^(1p^)×(zα2d )2~~~\cfrac{\hat p(1-\hat p)}{n} \le \left(\cfrac{d~}{z_{\frac{\alpha}{2}}}\right)^2~~\Rightarrow~~ n \ge~ \hat p(1-\hat p) \times \left(\cfrac{z_{\frac{\alpha}{2}}}{d~}\right)^2

              n 1 4(zα2d )2~~~~~ \Rightarrow~~~\therefore~~ n \ge \cfrac{~1~}{4}\left(\cfrac{z_{\frac{\alpha}{2}}}{d~}\right)^2

  • ex.
    20대 전체의 A사 핸드폰 사용률을 알기 위해 A 사용률을 추정할 때,
    추정에 대한 95% 신뢰구간으로 오차의 한계를 0.01로 하기 위한 표본의 크기는?

    • 허용오차 d=0.01d=0.01

        n 1 4(zα2d )2= 1 4(1.960.01)2= 9604()\Rightarrow~~ n \ge \cfrac{~1~}{4}\left(\cfrac{z_{\frac{\alpha}{2}}}{d~}\right)^2 = \cfrac{~1~}{4}\left(\cfrac{1.96}{0.01}\right)^2 =~ 9604(명)



모평균 차이의 추정

각 모집단에서 추출한 두 표본(Sample)을 비교하는 방법이다.


🔰 모평균 차이의 점추정

     E(X1ˉX2ˉ)=E(X1ˉ)E(X2ˉ)=μ1μ2~~\bullet~~~E(\bar{X_1}-\bar{X_2}) = E(\bar{X_1})-E(\bar{X_2}) = \mu_1 - \mu_2

     Var(X1ˉX2ˉ)=Var(X1ˉ)Var(X2ˉ)=σ12n1+σ22n2~~\bullet~~~Var(\bar{X_1}-\bar{X_2}) = Var(\bar{X_1})-Var(\bar{X_2}) = \cfrac{\sigma_1^2}{n_1} + \cfrac{\sigma_2^2}{n_2}


🔰 모평균 차이의 구간 추정

  • 대표본 : n30n \ge 30

    • 모분산을 아는 경우 대표본이든 소표본이든 ZZ분포를 사용한다.

    •  Z= (X1ˉX2ˉ)(μ1μ2) σ12n1+σ22n2N(0, 1)~Z = \cfrac{~(\bar{X_1}-\bar{X_2})-(\mu_1-\mu_2)~}{\sqrt{\cfrac{\sigma_1^2}{n_1} + \cfrac{\sigma_2^2}{n_2}}} \thicksim N(0,~1)

    •  P(zα2Zzα2)=1α~ P\left(-z_{\frac{\alpha}{2}}\le Z \le z_{\frac{\alpha}{2}}\right) = 1 - \alpha

      P(zα2 (X1ˉX2ˉ)(μ1μ2) σ12/n1+σ22/n2zα2)=1α\Rightarrow P\left(-z_{\frac{\alpha}{2}}\le \cfrac{~(\bar{X_1}-\bar{X_2})-(\mu_1-\mu_2)~}{\sqrt{{\sigma_1^2}/{n_1} + {\sigma_2^2}/{n_2}}} \le z_{\frac{\alpha}{2}}\right) = 1-\alpha

      P((X1ˉX2ˉ)zα2σ12n1+σ22n2μ1μ2(X1ˉX2ˉ)+zα2σ12n1+σ22n2 )\Rightarrow P\left((\bar{X_1}-\bar{X_2})-z_{\frac{\alpha}{2}} \cdot {\sqrt{\cfrac{\sigma_1^2}{n_1} + \cfrac{\sigma_2^2}{n_2}}}\le \mu_1-\mu_2 \le (\bar{X_1}-\bar{X_2}) + z_{\frac{\alpha}{2}} \cdot {\sqrt{\cfrac{\sigma_1^2}{n_1} + \cfrac{\sigma_2^2}{n_2}}}~\right)

    • ex.

  • 소표본, 모분산을 모르는 경우

    • 모분산을 모르는 경우 소표본일 때 TT분포를 사용한다.

    • 두 모집단의 분산을 아는 경우 대표본과 동일하게 추정 가능하지만,
      모분산을 모르는 경우 등분산 가정이 추가적으로 필요하다.
      즉, 두 모집단의 분산이 같다는 가정이 필요~!!!  σ12=σ22=σ2~\boxed{\sigma_1^2=\sigma_2^2=\sigma^2}

    • 합동 분산 추정량(Pooled Variance Estimator)

      공통 분산의 추정량  Sp2= (n11)s12+(n21)s22 n1+n22~\boxed{{S_p}^2=\cfrac{~(n_1-1){s_1}^2 + (n_2-1){s_2}^2~}{n_1+n_2-2}}

          T= (X1ˉX2ˉ)(μ1μ2) Sp1n1+1n2T(n1+n22)~\circ~~~ T = \cfrac{~(\bar{X_1}-\bar{X_2})-(\mu_1-\mu_2)~}{S_p\sqrt{\frac{1}{n_1} + \frac{1}{n_2}}} \thicksim T(n_1+n_2-2)

         P(tα2, (n1+n22) (X1ˉX2ˉ)(μ1μ2) Sp1/n1+1/n2tα2, (n1+n22))=1α~\circ~~ P\left(-t_{\frac{\alpha}{2},~(n_1+n_2-2)} \le \cfrac{~(\bar{X_1}-\bar{X_2})-(\mu_1-\mu_2)~}{S_p\sqrt{{1}/{n_1} + {1}/{n_2}}} \le t_{\frac{\alpha}{2},~(n_1+n_2-2)}\right) = 1-\alpha

      P((X1ˉX2ˉ)tα2, (n1+n22)Sp1n1+1n2μ1μ2(X1ˉX2ˉ)+tα2, (n1+n22)Sp1n1+1n2 )\Rightarrow P\left((\bar{X_1}-\bar{X_2})-t_{\frac{\alpha}{2},~(n_1+n_2-2)} \cdot S_p{\sqrt{\cfrac{1}{n_1} + \cfrac{1}{n_2}}} \le \mu_1-\mu_2 \le (\bar{X_1}-\bar{X_2}) + t_{\frac{\alpha}{2},~(n_1+n_2-2)} \cdot S_p{\sqrt{\cfrac{1}{n_1} + \cfrac{1}{n_2}}}~\right)

    • ex.



모비율 차이의 추정


🔰 모비율 차이의 점추정

     E(p1^p2^)=E(p1^)E(p2^)=p1p2~~\bullet~~~E(\hat{p_1}-\hat{p_2}) = E(\widehat{p_1})-E(\widehat{p_2}) = p_1 - p_2

     Var(p1^p2^)=Var(p1^)Var(p2^)= p1(1p1) n1+ p2(1p2) n2~~\bullet~~~Var(\hat{p_1}-\hat{p_2}) = Var(\widehat{p_1})-Var(\widehat{p_2}) = \cfrac{~p_1(1-p_1)~}{n_1} + \cfrac{~p_2(1-p_2)~}{n_2}


🔰 모비율 차이의 구간 추정

    Z= (p1^p2^)(p1p2) p1(1p1)n1+p2(1p2)n2  N(0, 1)~\bullet~~~ Z = \cfrac{~(\widehat{p_1}-\widehat{p_2})-(p_1-p_2)~}{\sqrt{\cfrac{p_1(1-p_1)}{n_1} + \cfrac{p_2(1-p_2)}{n_2}}}~ \thicksim~ N(0,~1)

    P(zα2Zzα2)=1α~\bullet~~~ P\left(-z_{\frac{\alpha}{2}}\le Z \le z_{\frac{\alpha}{2}}\right) = 1 - \alpha

P(zα2 (p1^p2^)(p1p2) p1(1p1)n1+p2(1p2)n2zα2)=1α\Rightarrow P\left(-z_{\frac{\alpha}{2}} \le \cfrac{~(\widehat{p_1}-\widehat{p_2})-(p_1-p_2)~}{\sqrt{\frac{p_1(1-p_1)}{n_1} + \frac{p_2(1-p_2)}{n_2}}} \le z_{\frac{\alpha}{2}}\right) = 1-\alpha

P((p1^p2^)zα2p1(1p1)n1+p2(1p2)n2 p1p2(p1^p2^)+zα2p1(1p1)n1+p2(1p2)n2)\Rightarrow P\left((\widehat{p_1}-\widehat{p_2})-z_{\frac{\alpha}{2}}\cdot \sqrt{\frac{p_1(1-p_1)}{n_1} + \frac{p_2(1-p_2)}{n_2}} \le ~p_1-p_2 \le (\widehat{p_1}-\widehat{p_2})+z_{\frac{\alpha}{2}}\cdot \sqrt{\frac{p_1(1-p_1)}{n_1} + \frac{p_2(1-p_2)}{n_2}}\right)

  • ex.
profile
ISTP(정신승리), To Be Data Scientist

0개의 댓글