[037] 기초통계 - 추정 / 기초④

이연희·2023년 10월 10일
0

Chapter
📗 6. 추정
📝 (1) 추정
📝 (2) 모비율 추정

📗 6. 추정

📝 (1) 추정(estimation)

모집단의 모수를 모를 경우 표본으로 추출된 통계량을 모집단의 근사값으로 사용하는 것이다. 만약, 표본 평균으로 모평균을 추정한다면 표본 평균을 모평균에 대한 추정량(estimator)라고 한다.

1) 성질

  • 일치성(consistency): 표본의 크기가 모집단의 크기에 근접해야 함
    표본의 크기가 클수록 추정량의 오차가 작아진다.
  • 불편성(unbiased estimator): 추정량이 모수와 같아야 함
    예를 들어 모수가 θ\theta이고 추정량이 θ^\hat{\theta}라고 정의하면, E[θ^]=θE[\hat{\theta}]=\theta이고, 이를 불편추정량이라고 한다.
  • 유효성(efficiency): 추정량의 분산이 최소값이어야 함
    모수에 대한 추정량의 분산이 작을수록 추정량이 효율적이다.
  • 평균오차제곱(Mean Squared Error, MSE): 평균오차제곱이 최소값이어야함
    E[(θ^θ)2]E[(\hat{\theta}-\theta)^2]이 최소여야 한다.

추정의 종류는 점추정과 구간추정이 있다.
아래에서 하나씩 살펴보자!

.

2) 구간추정

모수가 포함될 수 있는 구간을 추정하는 방법이다.

✔ 신뢰구간(confidence level)

  • 추정값이 존재한는 구간에 모수가 포함될 확률
  • 100(1α)100*(1-\alpha)%로 계산하며, α\alpha는 오차수준이다.
  • 만약 신뢰수준이 95%라면, 이는 다시 말해 오차가 발생할 확률이 5%라는 것을 의미한다. 이때 이 오차를 유의수준(significant level)이라고 하며, p=0.05라고 표현한다.
  • 신뢰구간은 신뢰 하한, 신뢰 상한으로 표시한다.
    P[L(θ^)θU(θ^)]=1αP[L(\hat{\theta}) \leq \theta \leq U(\hat{\theta})]=1-\alpha
  • 모평균 μ\mu를 추정할때, 표본평균이 이고 표준오차가 s라고 하면 신뢰구간은 다음과 같다.
    xˉzsμxˉ+zs\bar{x} - z·s \leq \mu \leq \bar{x} + z·s

.

3) 모평균의 구간 추정

✔ 모집단의 분산을 아는 경우

  • X1,X2,...XnX_{1}, X_{2}, ... X_{n} ~ iidiid N(μ,σ2)N(\mu,\sigma^2), μ^=Xˉ\hat{\mu} = \bar{X} ~ N(μ,σ2n)N(\mu, \frac{\sigma^2}{n}), ZZ ~ N(0,1)N(0,1)
  • 예를 들어 μ\mu의 95% 신뢰구간(CI)을 계산한다고 하자.
    (xˉzα/2(1.96)σnμxˉ+zα/2(1.96)σn\bar{x} - z_{\alpha/2} (1.96) * \frac{\sigma}{\sqrt{n}} \leq \mu \leq \bar{x} + z_{\alpha/2} (1.96) * \frac{\sigma}{\sqrt{n}})
    P[1.96Z1.96]=0.95P[-1.96 \leq Z \leq 1.96] = 0.95
    P[1.96xˉμσ/n1.96]=0.95P[-1.96 * \leq \frac{\bar{x}-\mu}{\sigma/\sqrt{n}} \leq 1.96] = 0.95
    P[1.96σn xˉμ1.96σn]=0.95P[-1.96 * \frac{\sigma}{\sqrt{n}} \leq \ \bar{x}-\mu \leq 1.96 * \frac{\sigma}{\sqrt{n}}] = 0.95
    P[xˉ1.96σnμxˉ+1.96σn]=0.95P[\bar{x} -1.96 * \frac{\sigma}{\sqrt{n}} \leq \mu \leq \bar{x} +1.96 * \frac{\sigma}{\sqrt{n}}] = 0.95

.
✔ 모집단의 분산을 모르는 경우

  • X1,X2,...XnX_{1}, X_{2}, ... X_{n} ~ iidiid N(μ,σ2)N(\mu,\sigma^2), T=xˉμs/nT = \frac{\bar{x}-\mu}{s/\sqrt{n}}~t(n1)t(n-1)
  • μ\mu의 95% 신뢰구간을 계산해보자.
    P[tα2,n1xˉμs/ntα2,n1]=1αP[-t_{{\frac{\alpha}{2}},n-1} \leq \frac{\bar{x}-\mu}{s/\sqrt{n}} \leq t_{{\frac{\alpha}{2}},n-1}] = 1-\alpha
    P[tα2,n1snxˉμtα2,n1sn]=1αP[-t_{{\frac{\alpha}{2}},n-1} * \frac{s}{\sqrt{n}} \leq \bar{x}-\mu \leq t_{{\frac{\alpha}{2}},n-1} * \frac{s}{\sqrt{n}}] = 1-\alpha
    P[xˉtα2,n1snμxˉ+tα2,n1sn]=1αP[\bar{x} -t_{{\frac{\alpha}{2}},n-1} * \frac{s}{\sqrt{n}} \leq \mu \leq \bar{x} + t_{{\frac{\alpha}{2}},n-1} * \frac{s}{\sqrt{n}}] = 1-\alpha

.
✔ 표본의 크기 결정

  • 허용오차(permissible error): 추정한 값이 틀려도 허용할 수 있는 오차
    정규분포와 신뢰구간을 통해 허용오차를 계산한다.
  • n=(zα/2σd)2,dn = (\frac{z_{\alpha/2}\sigma}{d})^2, d:허용오차
  • P(Xˉμ)=1αP(|\bar{X}-\mu|)=1-\alpha
    d=zα/2σnd = z_{\alpha/2}*\frac{\sigma}{\sqrt{n}}
    dn=zα/2αd * \sqrt{n}=z_{\alpha/2}*\alpha
    n=zα/2α/d\sqrt{n} = z_{\alpha/2}*\alpha/d
    n=(zα/2σd)2n = (\frac{z_{\alpha/2}\sigma}{d})^2

.
.

📝 (2) 모비율 추정

1) 모비율의 점추정

  • 비율에 대한 추정으로 우리가 원하는 속성(class)에 속하면 1, 아니면 0일때, 1의 속성을 갖는 것의 개수를 X라고 하면 X~B(n,p)임
  • 이때, 모비율의 점추정량을 표본비율(sample proportion)이라고 함 (p^=X/n)(\hat{p}=X/n)
  • E(p^)=E(Xn)=npn=pE(\hat{p})=E(\frac{X}{n})=\frac{np}{n}=p,
    var(p^)=var(Xn)=np(1p)n2=p(1p)nvar(\hat{p})=var(\frac{X}{n})=\frac{np(1-p)}{n^2}=\frac{p(1-p)}{n}

.

✔ 모평균 차이의 추정

  • E(X1ˉX2ˉ)=E(X1ˉ)E(X2ˉ)=μ1μ2E(\bar{X_{1}}-\bar{X_{2}}) = E(\bar{X_{1}}) - E(\bar{X_{2}}) = \mu_{1}-\mu_{2}
  • var(X1ˉX2ˉ)=var(X1ˉ)var(X2ˉ)=σ12n1+σ22n2var(\bar{X_{1}}-\bar{X_{2}}) = var(\bar{X_{1}}) - var(\bar{X_{2}}) = \frac{\sigma_{1}^2}{n_{1}}+\frac{\sigma_{2}^2}{n_{2}}

.
✔ 모비율 차이의 추정

  • E(p1^p2^)=E(p1^)E(p2^)=p1p2E(\hat{p_{1}}-\hat{p_{2}}) = E(\hat{p_{1}}) - E(\hat{p_{2}}) = p_{1}-p_{2}
  • var(p1^p2^)=var(p1^)var(p2^)=p1(1p1)n1+p2(1p2)n2var(\hat{p_{1}}-\hat{p_{2}}) = var(\hat{p_{1}}) - var(\hat{p_{2}})= \frac{p_{1}(1-p_{1})}{n_{1}} + \frac{p_{2}(1-p_{2})}{n_{2}}

.

2) 모비율의 구간추정

  • 모비율의 구간 추정에서 정규분포의 근사가 가능한 대표본은 보통 np>5, np(1-p)>5를 동시에 만족해야 한다.
  • n이 충분히 크면 CLT에 의해서 Z=p^pp(1p)nZ=\frac{\hat{p}-p}{\sqrt{\frac{p(1-p)}{n}}} ~ N(0,1)N(0,1)
  • P(zα/2Zzα/2)=1αP(-z_{\alpha/2} \leq Z \leq z_{\alpha/2})=1-\alpha
    P(zα/2p^pp(1p)nzα/2)=1αP(-z_{\alpha/2} \leq \frac{\hat{p}-p}{\sqrt{\frac{p(1-p)}{n}}} \leq z_{\alpha/2}) = 1-\alpha
    P(zα/2p(1p)np^pzα/2p(1p)n)=1αP(-z_{\alpha/2} * \sqrt{\frac{p(1-p)}{n}} \leq \hat{p}-p \leq z_{\alpha/2}* \sqrt{\frac{p(1-p)}{n}}) = 1-\alpha
    P(p^zα/2p(1p)npp^+zα/2p(1p)n)=1αP(\hat{p}-z_{\alpha/2} * \sqrt{\frac{p(1-p)}{n}} \leq p \leq \hat{p}+z_{\alpha/2}* \sqrt{\frac{p(1-p)}{n}}) = 1-\alpha

.
✔ 모평균 차이의 추정(대표본일 때, n>=30)
Z=(X1ˉX2ˉ)(μ1μ2)σ12/n1+σ22/n2Z=\frac{(\bar{X_{1}}-\bar{X_{2}})-(\mu_{1}-\mu_{2})}{\sqrt{\sigma_{1}^2/n_{1}+\sigma_{2}^2/n_{2}}} ~ N(0,1)N(0,1)
P(zα/2<Z<zα/2)=1αP(-z_{\alpha/2} <Z < z_{\alpha/2})=1-\alpha
P(zα/2<(X1ˉX2ˉ)(μ1μ2)σ12/n1+σ22/n2<zα/2)=1αP(-z_{\alpha/2} < \frac{(\bar{X_{1}}-\bar{X_{2}})-(\mu_{1}-\mu_{2})}{\sqrt{\sigma_{1}^2/n_{1}+\sigma_{2}^2/n_{2}}} < z_{\alpha/2})=1-\alpha
P((X1ˉX2ˉ)zα/2σ12/n1+σ22/n2<μ1μ2<(X1ˉX2ˉ)+zα/2σ12/n1+σ22/n2)=1αP((\bar{X_{1}}-\bar{X_{2}})-z_{\alpha/2}*\sqrt{\sigma_{1}^2/n_{1}+\sigma_{2}^2/n_{2}} < \mu_{1} - \mu_{2} < (\bar{X_{1}}-\bar{X_{2}})+z_{\alpha/2}*\sqrt{\sigma_{1}^2/n_{1}+\sigma_{2}^2/n_{2}}) =1-\alpha

.
✔ 모평균 차이의 추정(소표본, 모분산을 모르는 경우)

  • 두 모집단의 분산을 아는 경우에는 대표본과 동일하게 추정이 가능하지만, 모르는 경우에는 등분산 가정이 필요한다.
  • 합동 분산 추정량(pooled variance estimator): 공통 분산의 추정량
    Sp2=(n11)s12+((n21)s22n1+n22S_{p}^2=\frac{(n_{1}-1)s_{1}^2+((n_{2}-1)s_{2}^2}{n_{1}+n_{2}-2}
    T=(X1ˉX2ˉ)(μ1μ2)Sp1/n1+1/n2T = \frac{(\bar{X_{1}}-\bar{X_{2}})-(\mu_{1}-\mu_{2})}{S_{p}\sqrt{1/n_{1}+1/n_{2}}} ~ T(n1+n22)T(n_{1}+n_{2}-2)
    P(tα2(n1+n22)<(X1ˉX2ˉ)(μ1μ2)Sp1/n1+1/n2<tα2(n1+n22))=1αP(-t_{\frac{\alpha}{2}}(n_{1}+n_{2}-2) < \frac{(\bar{X_{1}}-\bar{X_{2}})-(\mu_{1}-\mu_{2})}{S_{p}\sqrt{1/n_{1}+1/n_{2}}}< t_{\frac{\alpha}{2}}(n_{1}+n_{2}-2))=1-\alpha
    P((X1ˉX2ˉ)tα2(n1+n22)Sp1/n1+1/n2<μ1μ2<(X1ˉX2ˉ)+tα2(n1+n22)Sp1/n1+1/n2=1αP((\bar{X_{1}}-\bar{X_{2}})-t_{\frac{\alpha}{2}}(n_{1}+n_{2}-2) * S_{p}\sqrt{1/n_{1}+1/n_{2}} < \mu_{1}-\mu_{2}< (\bar{X_{1}}-\bar{X_{2}})+t_{\frac{\alpha}{2}}(n_{1}+n_{2}-2) * S_{p}\sqrt{1/n_{1}+1/n_{2}}=1-\alpha

.
✔ 모비율 차이의 추정

  • (p1^p2^)(p1p2)p1(1p1)n1+p2(1p2)n2\frac{(\hat{p_{1}}-\hat{p_{2}})-(p_{1}-p_{2})}{\sqrt{ \frac{p_{1}(1-p_{1})}{n_{1}} + \frac{p_{2}(1-p_{2})}{n_{2}}}} ~ Z(0,1)Z(0,1)
    P(zα/2<Z<zα/2)=1αP(-z_{\alpha/2} < Z < z_{\alpha/2})=1-\alpha
    P(zα/2<(p1^p2^)(p1p2)p1(1p1)n1+p2(1p2)n2<zα/2)=1αP(-z_{\alpha/2} < \frac{(\hat{p_{1}}-\hat{p_{2}})-(p_{1}-p_{2})}{\sqrt{ \frac{p_{1}(1-p_{1})}{n_{1}} + \frac{p_{2}(1-p_{2})}{n_{2}}}} < z_{\alpha/2})=1-\alpha
    P((p1^p2^)zα/2p1(1p1)n1+p2(1p2)n2<p1p2<(p1^p2^)+zα/2)p1(1p1)n1+p2(1p2)n2=1αP((\hat{p_{1}}-\hat{p_{2}})-z_{\alpha/2} *\sqrt{ \frac{p_{1}(1-p_{1})}{n_{1}} + \frac{p_{2}(1-p_{2})}{n_{2}}} < p_{1}-p_{2} < (\hat{p_{1}}-\hat{p_{2}}) + z_{\alpha/2}) * \sqrt{ \frac{p_{1}(1-p_{1})}{n_{1}} + \frac{p_{2}(1-p_{2})}{n_{2}}}=1-\alpha
profile
안녕하세요, 데이터 공부를 하고 있습니다.

0개의 댓글