Chapter
📗 6. 추정
📝 (1) 추정
📝 (2) 모비율 추정
📗 6. 추정
📝 (1) 추정(estimation)
모집단의 모수를 모를 경우 표본으로 추출된 통계량을 모집단의 근사값으로 사용하는 것이다. 만약, 표본 평균으로 모평균을 추정한다면 표본 평균을 모평균에 대한 추정량(estimator)라고 한다.
1) 성질
일치성(consistency): 표본의 크기가 모집단의 크기에 근접해야 함
표본의 크기가 클수록 추정량의 오차가 작아진다.
불편성(unbiased estimator): 추정량이 모수와 같아야 함
예를 들어 모수가 θ \theta θ 이고 추정량이 θ ^ \hat{\theta} θ ^ 라고 정의하면, E [ θ ^ ] = θ E[\hat{\theta}]=\theta E [ θ ^ ] = θ 이고, 이를 불편추정량이라고 한다.
유효성(efficiency): 추정량의 분산이 최소값이어야 함
모수에 대한 추정량의 분산이 작을수록 추정량이 효율적이다.
평균오차제곱(Mean Squared Error, MSE): 평균오차제곱이 최소값이어야함
E [ ( θ ^ − θ ) 2 ] E[(\hat{\theta}-\theta)^2] E [ ( θ ^ − θ ) 2 ] 이 최소여야 한다.
추정의 종류는 점추정과 구간추정이 있다.
아래에서 하나씩 살펴보자!
.
2) 구간추정
모수가 포함될 수 있는 구간을 추정하는 방법이다.
✔ 신뢰구간(confidence level)
추정값이 존재한는 구간에 모수가 포함될 확률
100 ∗ ( 1 − α ) 100*(1-\alpha)% 1 0 0 ∗ ( 1 − α ) 로 계산하며, α \alpha α 는 오차수준이다.
만약 신뢰수준이 95%라면, 이는 다시 말해 오차가 발생할 확률이 5%라는 것을 의미한다. 이때 이 오차를 유의수준(significant level)이라고 하며, p=0.05라고 표현한다.
신뢰구간은 신뢰 하한, 신뢰 상한으로 표시한다.
P [ L ( θ ^ ) ≤ θ ≤ U ( θ ^ ) ] = 1 − α P[L(\hat{\theta}) \leq \theta \leq U(\hat{\theta})]=1-\alpha P [ L ( θ ^ ) ≤ θ ≤ U ( θ ^ ) ] = 1 − α
모평균 μ \mu μ 를 추정할때, 표본평균이 이고 표준오차가 s라고 하면 신뢰구간은 다음과 같다.
x ˉ − z ⋅ s ≤ μ ≤ x ˉ + z ⋅ s \bar{x} - z·s \leq \mu \leq \bar{x} + z·s x ˉ − z ⋅ s ≤ μ ≤ x ˉ + z ⋅ s
.
3) 모평균의 구간 추정
✔ 모집단의 분산을 아는 경우
X 1 , X 2 , . . . X n X_{1}, X_{2}, ... X_{n} X 1 , X 2 , . . . X n ~ i i d iid i i d N ( μ , σ 2 ) N(\mu,\sigma^2) N ( μ , σ 2 ) , μ ^ = X ˉ \hat{\mu} = \bar{X} μ ^ = X ˉ ~ N ( μ , σ 2 n ) N(\mu, \frac{\sigma^2}{n}) N ( μ , n σ 2 ) , Z Z Z ~ N ( 0 , 1 ) N(0,1) N ( 0 , 1 )
예를 들어 μ \mu μ 의 95% 신뢰구간(CI)을 계산한다고 하자.
(x ˉ − z α / 2 ( 1.96 ) ∗ σ n ≤ μ ≤ x ˉ + z α / 2 ( 1.96 ) ∗ σ n \bar{x} - z_{\alpha/2} (1.96) * \frac{\sigma}{\sqrt{n}} \leq \mu \leq \bar{x} + z_{\alpha/2} (1.96) * \frac{\sigma}{\sqrt{n}} x ˉ − z α / 2 ( 1 . 9 6 ) ∗ n σ ≤ μ ≤ x ˉ + z α / 2 ( 1 . 9 6 ) ∗ n σ )
P [ − 1.96 ≤ Z ≤ 1.96 ] = 0.95 P[-1.96 \leq Z \leq 1.96] = 0.95 P [ − 1 . 9 6 ≤ Z ≤ 1 . 9 6 ] = 0 . 9 5
⇒ P [ − 1.96 ∗ ≤ x ˉ − μ σ / n ≤ 1.96 ] = 0.95 P[-1.96 * \leq \frac{\bar{x}-\mu}{\sigma/\sqrt{n}} \leq 1.96] = 0.95 P [ − 1 . 9 6 ∗ ≤ σ / n x ˉ − μ ≤ 1 . 9 6 ] = 0 . 9 5
⇒ P [ − 1.96 ∗ σ n ≤ x ˉ − μ ≤ 1.96 ∗ σ n ] = 0.95 P[-1.96 * \frac{\sigma}{\sqrt{n}} \leq \ \bar{x}-\mu \leq 1.96 * \frac{\sigma}{\sqrt{n}}] = 0.95 P [ − 1 . 9 6 ∗ n σ ≤ x ˉ − μ ≤ 1 . 9 6 ∗ n σ ] = 0 . 9 5
⇒ P [ x ˉ − 1.96 ∗ σ n ≤ μ ≤ x ˉ + 1.96 ∗ σ n ] = 0.95 P[\bar{x} -1.96 * \frac{\sigma}{\sqrt{n}} \leq \mu \leq \bar{x} +1.96 * \frac{\sigma}{\sqrt{n}}] = 0.95 P [ x ˉ − 1 . 9 6 ∗ n σ ≤ μ ≤ x ˉ + 1 . 9 6 ∗ n σ ] = 0 . 9 5
.
✔ 모집단의 분산을 모르는 경우
X 1 , X 2 , . . . X n X_{1}, X_{2}, ... X_{n} X 1 , X 2 , . . . X n ~ i i d iid i i d N ( μ , σ 2 ) N(\mu,\sigma^2) N ( μ , σ 2 ) , T = x ˉ − μ s / n T = \frac{\bar{x}-\mu}{s/\sqrt{n}} T = s / n x ˉ − μ ~t ( n − 1 ) t(n-1) t ( n − 1 )
μ \mu μ 의 95% 신뢰구간을 계산해보자.
P [ − t α 2 , n − 1 ≤ x ˉ − μ s / n ≤ t α 2 , n − 1 ] = 1 − α P[-t_{{\frac{\alpha}{2}},n-1} \leq \frac{\bar{x}-\mu}{s/\sqrt{n}} \leq t_{{\frac{\alpha}{2}},n-1}] = 1-\alpha P [ − t 2 α , n − 1 ≤ s / n x ˉ − μ ≤ t 2 α , n − 1 ] = 1 − α
⇒ P [ − t α 2 , n − 1 ∗ s n ≤ x ˉ − μ ≤ t α 2 , n − 1 ∗ s n ] = 1 − α P[-t_{{\frac{\alpha}{2}},n-1} * \frac{s}{\sqrt{n}} \leq \bar{x}-\mu \leq t_{{\frac{\alpha}{2}},n-1} * \frac{s}{\sqrt{n}}] = 1-\alpha P [ − t 2 α , n − 1 ∗ n s ≤ x ˉ − μ ≤ t 2 α , n − 1 ∗ n s ] = 1 − α
⇒ P [ x ˉ − t α 2 , n − 1 ∗ s n ≤ μ ≤ x ˉ + t α 2 , n − 1 ∗ s n ] = 1 − α P[\bar{x} -t_{{\frac{\alpha}{2}},n-1} * \frac{s}{\sqrt{n}} \leq \mu \leq \bar{x} + t_{{\frac{\alpha}{2}},n-1} * \frac{s}{\sqrt{n}}] = 1-\alpha P [ x ˉ − t 2 α , n − 1 ∗ n s ≤ μ ≤ x ˉ + t 2 α , n − 1 ∗ n s ] = 1 − α
.
✔ 표본의 크기 결정
허용오차(permissible error): 추정한 값이 틀려도 허용할 수 있는 오차
정규분포와 신뢰구간을 통해 허용오차를 계산한다.
n = ( z α / 2 σ d ) 2 , d n = (\frac{z_{\alpha/2}\sigma}{d})^2, d n = ( d z α / 2 σ ) 2 , d :허용오차
P ( ∣ X ˉ − μ ∣ ) = 1 − α P(|\bar{X}-\mu|)=1-\alpha P ( ∣ X ˉ − μ ∣ ) = 1 − α
⇒ d = z α / 2 ∗ σ n d = z_{\alpha/2}*\frac{\sigma}{\sqrt{n}} d = z α / 2 ∗ n σ
⇒ d ∗ n = z α / 2 ∗ α d * \sqrt{n}=z_{\alpha/2}*\alpha d ∗ n = z α / 2 ∗ α
⇒ n = z α / 2 ∗ α / d \sqrt{n} = z_{\alpha/2}*\alpha/d n = z α / 2 ∗ α / d
⇒ n = ( z α / 2 σ d ) 2 n = (\frac{z_{\alpha/2}\sigma}{d})^2 n = ( d z α / 2 σ ) 2
.
.
📝 (2) 모비율 추정
1) 모비율의 점추정
비율에 대한 추정으로 우리가 원하는 속성(class)에 속하면 1, 아니면 0일때, 1의 속성을 갖는 것의 개수를 X라고 하면 X~B(n,p)임
이때, 모비율의 점추정량을 표본비율(sample proportion)이라고 함 ( p ^ = X / n ) (\hat{p}=X/n) ( p ^ = X / n )
E ( p ^ ) = E ( X n ) = n p n = p E(\hat{p})=E(\frac{X}{n})=\frac{np}{n}=p E ( p ^ ) = E ( n X ) = n n p = p ,
v a r ( p ^ ) = v a r ( X n ) = n p ( 1 − p ) n 2 = p ( 1 − p ) n var(\hat{p})=var(\frac{X}{n})=\frac{np(1-p)}{n^2}=\frac{p(1-p)}{n} v a r ( p ^ ) = v a r ( n X ) = n 2 n p ( 1 − p ) = n p ( 1 − p )
.
✔ 모평균 차이의 추정
E ( X 1 ˉ − X 2 ˉ ) = E ( X 1 ˉ ) − E ( X 2 ˉ ) = μ 1 − μ 2 E(\bar{X_{1}}-\bar{X_{2}}) = E(\bar{X_{1}}) - E(\bar{X_{2}}) = \mu_{1}-\mu_{2} E ( X 1 ˉ − X 2 ˉ ) = E ( X 1 ˉ ) − E ( X 2 ˉ ) = μ 1 − μ 2
v a r ( X 1 ˉ − X 2 ˉ ) = v a r ( X 1 ˉ ) − v a r ( X 2 ˉ ) = σ 1 2 n 1 + σ 2 2 n 2 var(\bar{X_{1}}-\bar{X_{2}}) = var(\bar{X_{1}}) - var(\bar{X_{2}}) = \frac{\sigma_{1}^2}{n_{1}}+\frac{\sigma_{2}^2}{n_{2}} v a r ( X 1 ˉ − X 2 ˉ ) = v a r ( X 1 ˉ ) − v a r ( X 2 ˉ ) = n 1 σ 1 2 + n 2 σ 2 2
.
✔ 모비율 차이의 추정
E ( p 1 ^ − p 2 ^ ) = E ( p 1 ^ ) − E ( p 2 ^ ) = p 1 − p 2 E(\hat{p_{1}}-\hat{p_{2}}) = E(\hat{p_{1}}) - E(\hat{p_{2}}) = p_{1}-p_{2} E ( p 1 ^ − p 2 ^ ) = E ( p 1 ^ ) − E ( p 2 ^ ) = p 1 − p 2
v a r ( p 1 ^ − p 2 ^ ) = v a r ( p 1 ^ ) − v a r ( p 2 ^ ) = p 1 ( 1 − p 1 ) n 1 + p 2 ( 1 − p 2 ) n 2 var(\hat{p_{1}}-\hat{p_{2}}) = var(\hat{p_{1}}) - var(\hat{p_{2}})= \frac{p_{1}(1-p_{1})}{n_{1}} + \frac{p_{2}(1-p_{2})}{n_{2}} v a r ( p 1 ^ − p 2 ^ ) = v a r ( p 1 ^ ) − v a r ( p 2 ^ ) = n 1 p 1 ( 1 − p 1 ) + n 2 p 2 ( 1 − p 2 )
.
2) 모비율의 구간추정
모비율의 구간 추정에서 정규분포의 근사가 가능한 대표본은 보통 np>5, np(1-p)>5를 동시에 만족해야 한다.
n이 충분히 크면 CLT에 의해서 Z = p ^ − p p ( 1 − p ) n Z=\frac{\hat{p}-p}{\sqrt{\frac{p(1-p)}{n}}} Z = n p ( 1 − p ) p ^ − p ~ N ( 0 , 1 ) N(0,1) N ( 0 , 1 )
P ( − z α / 2 ≤ Z ≤ z α / 2 ) = 1 − α P(-z_{\alpha/2} \leq Z \leq z_{\alpha/2})=1-\alpha P ( − z α / 2 ≤ Z ≤ z α / 2 ) = 1 − α
⇒ P ( − z α / 2 ≤ p ^ − p p ( 1 − p ) n ≤ z α / 2 ) = 1 − α P(-z_{\alpha/2} \leq \frac{\hat{p}-p}{\sqrt{\frac{p(1-p)}{n}}} \leq z_{\alpha/2}) = 1-\alpha P ( − z α / 2 ≤ n p ( 1 − p ) p ^ − p ≤ z α / 2 ) = 1 − α
⇒ P ( − z α / 2 ∗ p ( 1 − p ) n ≤ p ^ − p ≤ z α / 2 ∗ p ( 1 − p ) n ) = 1 − α P(-z_{\alpha/2} * \sqrt{\frac{p(1-p)}{n}} \leq \hat{p}-p \leq z_{\alpha/2}* \sqrt{\frac{p(1-p)}{n}}) = 1-\alpha P ( − z α / 2 ∗ n p ( 1 − p ) ≤ p ^ − p ≤ z α / 2 ∗ n p ( 1 − p ) ) = 1 − α
⇒P ( p ^ − z α / 2 ∗ p ( 1 − p ) n ≤ p ≤ p ^ + z α / 2 ∗ p ( 1 − p ) n ) = 1 − α P(\hat{p}-z_{\alpha/2} * \sqrt{\frac{p(1-p)}{n}} \leq p \leq \hat{p}+z_{\alpha/2}* \sqrt{\frac{p(1-p)}{n}}) = 1-\alpha P ( p ^ − z α / 2 ∗ n p ( 1 − p ) ≤ p ≤ p ^ + z α / 2 ∗ n p ( 1 − p ) ) = 1 − α
.
✔ 모평균 차이의 추정(대표본일 때, n>=30)
Z = ( X 1 ˉ − X 2 ˉ ) − ( μ 1 − μ 2 ) σ 1 2 / n 1 + σ 2 2 / n 2 Z=\frac{(\bar{X_{1}}-\bar{X_{2}})-(\mu_{1}-\mu_{2})}{\sqrt{\sigma_{1}^2/n_{1}+\sigma_{2}^2/n_{2}}} Z = σ 1 2 / n 1 + σ 2 2 / n 2 ( X 1 ˉ − X 2 ˉ ) − ( μ 1 − μ 2 ) ~ N ( 0 , 1 ) N(0,1) N ( 0 , 1 )
⇒ P ( − z α / 2 < Z < z α / 2 ) = 1 − α P(-z_{\alpha/2} <Z < z_{\alpha/2})=1-\alpha P ( − z α / 2 < Z < z α / 2 ) = 1 − α
⇒ P ( − z α / 2 < ( X 1 ˉ − X 2 ˉ ) − ( μ 1 − μ 2 ) σ 1 2 / n 1 + σ 2 2 / n 2 < z α / 2 ) = 1 − α P(-z_{\alpha/2} < \frac{(\bar{X_{1}}-\bar{X_{2}})-(\mu_{1}-\mu_{2})}{\sqrt{\sigma_{1}^2/n_{1}+\sigma_{2}^2/n_{2}}} < z_{\alpha/2})=1-\alpha P ( − z α / 2 < σ 1 2 / n 1 + σ 2 2 / n 2 ( X 1 ˉ − X 2 ˉ ) − ( μ 1 − μ 2 ) < z α / 2 ) = 1 − α
⇒ P ( ( X 1 ˉ − X 2 ˉ ) − z α / 2 ∗ σ 1 2 / n 1 + σ 2 2 / n 2 < μ 1 − μ 2 < ( X 1 ˉ − X 2 ˉ ) + z α / 2 ∗ σ 1 2 / n 1 + σ 2 2 / n 2 ) = 1 − α P((\bar{X_{1}}-\bar{X_{2}})-z_{\alpha/2}*\sqrt{\sigma_{1}^2/n_{1}+\sigma_{2}^2/n_{2}} < \mu_{1} - \mu_{2} < (\bar{X_{1}}-\bar{X_{2}})+z_{\alpha/2}*\sqrt{\sigma_{1}^2/n_{1}+\sigma_{2}^2/n_{2}}) =1-\alpha P ( ( X 1 ˉ − X 2 ˉ ) − z α / 2 ∗ σ 1 2 / n 1 + σ 2 2 / n 2 < μ 1 − μ 2 < ( X 1 ˉ − X 2 ˉ ) + z α / 2 ∗ σ 1 2 / n 1 + σ 2 2 / n 2 ) = 1 − α
.
✔ 모평균 차이의 추정(소표본, 모분산을 모르는 경우)
두 모집단의 분산을 아는 경우에는 대표본과 동일하게 추정이 가능하지만, 모르는 경우에는 등분산 가정이 필요한다.
합동 분산 추정량(pooled variance estimator): 공통 분산의 추정량 S p 2 = ( n 1 − 1 ) s 1 2 + ( ( n 2 − 1 ) s 2 2 n 1 + n 2 − 2 S_{p}^2=\frac{(n_{1}-1)s_{1}^2+((n_{2}-1)s_{2}^2}{n_{1}+n_{2}-2} S p 2 = n 1 + n 2 − 2 ( n 1 − 1 ) s 1 2 + ( ( n 2 − 1 ) s 2 2 T = ( X 1 ˉ − X 2 ˉ ) − ( μ 1 − μ 2 ) S p 1 / n 1 + 1 / n 2 T = \frac{(\bar{X_{1}}-\bar{X_{2}})-(\mu_{1}-\mu_{2})}{S_{p}\sqrt{1/n_{1}+1/n_{2}}} T = S p 1 / n 1 + 1 / n 2 ( X 1 ˉ − X 2 ˉ ) − ( μ 1 − μ 2 ) ~ T ( n 1 + n 2 − 2 ) T(n_{1}+n_{2}-2) T ( n 1 + n 2 − 2 )
⇒P ( − t α 2 ( n 1 + n 2 − 2 ) < ( X 1 ˉ − X 2 ˉ ) − ( μ 1 − μ 2 ) S p 1 / n 1 + 1 / n 2 < t α 2 ( n 1 + n 2 − 2 ) ) = 1 − α P(-t_{\frac{\alpha}{2}}(n_{1}+n_{2}-2) < \frac{(\bar{X_{1}}-\bar{X_{2}})-(\mu_{1}-\mu_{2})}{S_{p}\sqrt{1/n_{1}+1/n_{2}}}< t_{\frac{\alpha}{2}}(n_{1}+n_{2}-2))=1-\alpha P ( − t 2 α ( n 1 + n 2 − 2 ) < S p 1 / n 1 + 1 / n 2 ( X 1 ˉ − X 2 ˉ ) − ( μ 1 − μ 2 ) < t 2 α ( n 1 + n 2 − 2 ) ) = 1 − α
⇒P ( ( X 1 ˉ − X 2 ˉ ) − t α 2 ( n 1 + n 2 − 2 ) ∗ S p 1 / n 1 + 1 / n 2 < μ 1 − μ 2 < ( X 1 ˉ − X 2 ˉ ) + t α 2 ( n 1 + n 2 − 2 ) ∗ S p 1 / n 1 + 1 / n 2 = 1 − α P((\bar{X_{1}}-\bar{X_{2}})-t_{\frac{\alpha}{2}}(n_{1}+n_{2}-2) * S_{p}\sqrt{1/n_{1}+1/n_{2}} < \mu_{1}-\mu_{2}< (\bar{X_{1}}-\bar{X_{2}})+t_{\frac{\alpha}{2}}(n_{1}+n_{2}-2) * S_{p}\sqrt{1/n_{1}+1/n_{2}}=1-\alpha P ( ( X 1 ˉ − X 2 ˉ ) − t 2 α ( n 1 + n 2 − 2 ) ∗ S p 1 / n 1 + 1 / n 2 < μ 1 − μ 2 < ( X 1 ˉ − X 2 ˉ ) + t 2 α ( n 1 + n 2 − 2 ) ∗ S p 1 / n 1 + 1 / n 2 = 1 − α
.
✔ 모비율 차이의 추정
( p 1 ^ − p 2 ^ ) − ( p 1 − p 2 ) p 1 ( 1 − p 1 ) n 1 + p 2 ( 1 − p 2 ) n 2 \frac{(\hat{p_{1}}-\hat{p_{2}})-(p_{1}-p_{2})}{\sqrt{ \frac{p_{1}(1-p_{1})}{n_{1}} + \frac{p_{2}(1-p_{2})}{n_{2}}}} n 1 p 1 ( 1 − p 1 ) + n 2 p 2 ( 1 − p 2 ) ( p 1 ^ − p 2 ^ ) − ( p 1 − p 2 ) ~ Z ( 0 , 1 ) Z(0,1) Z ( 0 , 1 )
⇒ P ( − z α / 2 < Z < z α / 2 ) = 1 − α P(-z_{\alpha/2} < Z < z_{\alpha/2})=1-\alpha P ( − z α / 2 < Z < z α / 2 ) = 1 − α
⇒ P ( − z α / 2 < ( p 1 ^ − p 2 ^ ) − ( p 1 − p 2 ) p 1 ( 1 − p 1 ) n 1 + p 2 ( 1 − p 2 ) n 2 < z α / 2 ) = 1 − α P(-z_{\alpha/2} < \frac{(\hat{p_{1}}-\hat{p_{2}})-(p_{1}-p_{2})}{\sqrt{ \frac{p_{1}(1-p_{1})}{n_{1}} + \frac{p_{2}(1-p_{2})}{n_{2}}}} < z_{\alpha/2})=1-\alpha P ( − z α / 2 < n 1 p 1 ( 1 − p 1 ) + n 2 p 2 ( 1 − p 2 ) ( p 1 ^ − p 2 ^ ) − ( p 1 − p 2 ) < z α / 2 ) = 1 − α
⇒ P ( ( p 1 ^ − p 2 ^ ) − z α / 2 ∗ p 1 ( 1 − p 1 ) n 1 + p 2 ( 1 − p 2 ) n 2 < p 1 − p 2 < ( p 1 ^ − p 2 ^ ) + z α / 2 ) ∗ p 1 ( 1 − p 1 ) n 1 + p 2 ( 1 − p 2 ) n 2 = 1 − α P((\hat{p_{1}}-\hat{p_{2}})-z_{\alpha/2} *\sqrt{ \frac{p_{1}(1-p_{1})}{n_{1}} + \frac{p_{2}(1-p_{2})}{n_{2}}} < p_{1}-p_{2} < (\hat{p_{1}}-\hat{p_{2}}) + z_{\alpha/2}) * \sqrt{ \frac{p_{1}(1-p_{1})}{n_{1}} + \frac{p_{2}(1-p_{2})}{n_{2}}}=1-\alpha P ( ( p 1 ^ − p 2 ^ ) − z α / 2 ∗ n 1 p 1 ( 1 − p 1 ) + n 2 p 2 ( 1 − p 2 ) < p 1 − p 2 < ( p 1 ^ − p 2 ^ ) + z α / 2 ) ∗ n 1 p 1 ( 1 − p 1 ) + n 2 p 2 ( 1 − p 2 ) = 1 − α