[zero-base/] DS Part 7. 통계기본 - 47일차 스터디 노트

손윤재·2024년 2월 6일

Statistics 스터디 노트 제로베이스 DS 22기 통계

제로베이스 DS 22기

목록 보기

48/55

추정

추정이란, 모평균, 모표준편차와 같이 모집단의 특성을 나타내는 값을 표본을 이용하여 추측하는 것을 말한다.

추정(estimation)
모집단의 모수를 모를 경우 표본으로 추출된 통계량을 모집단의 근사값으로 사용하는 것을 추정이라고 한다.
추정량(estimator)
표본 평균으로 모평균을 추정할 때 표본 평균을 모평균에 대한 추정량이라고 한다.
모수를 추정 하는 방법에는 점추정 과 구간 추정이 있다.
- 점추정(point estimation) : 모수를 하나의 특정값으로 추정 하는 방법
- 구간 추정(interval estimation) : 모수가 포함될 수 있는 구간을 추정하는 방법

🔰 점추정

🔰 구간추정

모평균의 구간추정

🔰 모평균의 신뢰구간

🔰 표본 크기 결정

허용오차 $(d)$ 를 가지고 표본의 크기 $(n)$ 를 결정할 수 있다.

$~~~ n= \left(\cfrac{z_{\frac{\alpha}{2}}\times \sigma}{d} \right)^2$
허용오차(Permissible Error) : 추정한 값이 틀려도 허용할 수 있는 오차
정규분포의 신뢰구간을 통해 허용오차를 계산한다.

$~~~ P\left(~|\bar X - \mu| \le d ~\right)= 1-\alpha$

$~~~ \Rightarrow~ d= z_{\frac{\alpha}{2}} \times \frac{\sigma}{\sqrt{n~}} ~ \Rightarrow~ \sqrt{n} = \frac{~z_{\alpha/2}~\cdot~\sigma~}{d}$

모비율의 추정

모집단에서 어떤 사건에 대한 비율을 고려할 때 그 비율을 그 사건에 대한 모비율 $p$ 라 한다.

🔰 모비율의 점추정:표본비율

비율에 대한 추정으로 우리가 원하는 속성(class)에 속하면 ‘1’ 아니면 ‘0’ 일 때,
1의 속성을 갖는 것의 개수를 $X$ 라고 하면 $X\thicksim B(n,~p)$ 이다.
이때 모비율의 점추정량을 표본비율(Sample Proportion)이라고 한다.
$~~~~~~~ \hat p= \cfrac{~X~}{n}$
- ex. A대학의 취업에 성공한 학생의 비율은 몇 %일까?
  표본을 통해 전체 비율을 추정할 수 있다.
모집단에서 어떤 사건에 대한 모비율이 $p$ 일 때, 크기가 $n$ 인 표본을 임의추출하면 표본비율 $\hat p$ 에 대하여

평균 $,~ E(\hat{p})=E\left(\cfrac{~X~}{n} \right) = \cfrac{1}{n}~E(X) = \cfrac{1}{n}~np = \boxed{p}$

분산 $,~ V(\hat{p})=V\left(\cfrac{~X~}{n} \right) = \cfrac{1}{~n^2}~V(X) = \cfrac{1}{~n^2}~np(1-p)$
$~~~~~~~~~~~~~~~~~~~= \boxed {\cfrac{~p(1-p)~}{n}=\cfrac{~pq~}{n}}$

표준편차 $,~ \sigma(\hat p)=\sqrt{\cfrac{~pq~}{n}}~~~(단,~q=1-p)$

🔰 모비율의 구간추정

모비율 구간 추정에서 정규분포의 근사가 가능한 대표본 $(n\ge30)$ 은 보통 $np>5,~~ n(1-p)>5$ 를 동시에 만족해야 한다.
$n$ 이 충분히 크면 C.L.T(중심극한정리)에 의해서
$~~Z=\cfrac{~\hat{p}-p}{\sqrt{p(1-p)/n~}}~\thicksim~ N(0,~1)$
표본비율의 분포

모비율이 $p$ 이고 표본의 크기 $n$ 이 충분히 클 때,

표본비율 $\hat p$ 은 근사적으로 정규분포 $N \Big(p,~~ \cfrac{~pq~}{n} \Big)$ 를 따른다. (단, $q=1-p$ )
- 확률변수 $Z = \cfrac{~\hat p-p}{\sqrt{pq/n~}}$ 는 근사적으로 표준정규분포 $N(0, ~1)$ 을 따른다.
모집단에서 임의추출한 크기가 $n$ 인 표본의 표본비율 $\hat p$ 에 대하여 표본의 크기 $n$ 이 충분히 크면 모비율 $p$ 의 신뢰구간은 다음과 같다. (단, $\hat q = 1 - \hat p$ )

$~~~~~~~P\left(-z_{\frac{\alpha}{2}}\le Z \le z_{\frac{\alpha}{2}}\right) = 1 - \alpha$

$~\Rightarrow P\left(-z_{\frac{\alpha}{2}}\le \cfrac{~~\hat p -p}{\sqrt{\frac{~p(1-p)~}{n}}} \le z_{\frac{\alpha}{2}}\right) = 1-\alpha$

$~ \Rightarrow P\left(-z_{\frac{\alpha}{2}} \times \sqrt{\frac{~p(1-p)~}{n}} \le \hat p -p \le z_{\frac{\alpha}{2}}\times \sqrt{\frac{~p(1-p)~}{n}}\right) = 1-\alpha$

$~ \Rightarrow P\left(\hat p -z_{\frac{\alpha}{2}} \times \sqrt{\frac{~p(1-p)~}{n}} \le p \le~ \hat p +z_{\frac{\alpha}{2}}\times \sqrt{\frac{~p(1-p)~}{n}}\right) = 1-\alpha$
ex.
20대 전체의 A사 핸드폰 사용률을 알기 위해서 무작위로 500명을 대상으로 조사한 결과 212명이 A사 핸드폰을 사용 중이었다.
20대 전체의 A사 핸드폰 사용률에 대한 추정값을 구하고 95% C.I.(신뢰구간)을 구하시오.
- $~\hat p = \frac{212}{500} = 0.424~,~~~z_{\frac{\alpha}{2}} = z_{0.025} = 1.96$
- $~n\hat p = 500 \times\cfrac{212}{500}~>~5~,~~~n(1-\hat p) = 500 \times\cfrac{288}{500}~>~5~$ 를 만족하므로 정규분포를 따른다고 볼 수 있다.
- $~\hat p -z_{\frac{\alpha}{2}} \times \sqrt{\frac{~p(1-p)~}{n}} \le p \le~ \hat p +z_{\frac{\alpha}{2}}\times \sqrt{\frac{~p(1-p)~}{n}}$
$~~~\Rightarrow 0.424 - 1.96 \times \sqrt{\frac{~0.424(1-0.424)~}{500}} \le p \le~ 0.424 + 1.96 \times \sqrt{\frac{~0.424(1-0.424)~}{500}}$
$~~~\Rightarrow (0.38,~0.46)$

🔰 모비율의 표본 크기

대표본 $(n\ge30)$ 일 때,

오차의 한계 : $|\hat p-p| \le z_{\frac{\alpha}{2}} \times \sqrt{\cfrac{\hat p(1-\hat p)}{n}} \le d~,$
$~~~(단,~\hat p(1-\hat p)의~최대값은~\cfrac{~1~}{4}이다.)$

$~~~\cfrac{\hat p(1-\hat p)}{n} \le \left(\cfrac{d~}{z_{\frac{\alpha}{2}}}\right)^2~~\Rightarrow~~ n \ge~ \hat p(1-\hat p) \times \left(\cfrac{z_{\frac{\alpha}{2}}}{d~}\right)^2$

$~~~~~ \Rightarrow~~~\therefore~~ n \ge \cfrac{~1~}{4}\left(\cfrac{z_{\frac{\alpha}{2}}}{d~}\right)^2$
ex.
20대 전체의 A사 핸드폰 사용률을 알기 위해 A 사용률을 추정할 때,
추정에 대한 95% 신뢰구간으로 오차의 한계를 0.01로 하기 위한 표본의 크기는?
- 허용오차 $d=0.01$
  
  $\Rightarrow~~ n \ge \cfrac{~1~}{4}\left(\cfrac{z_{\frac{\alpha}{2}}}{d~}\right)^2 = \cfrac{~1~}{4}\left(\cfrac{1.96}{0.01}\right)^2 =~ 9604(명)$

모평균 차이의 추정

각 모집단에서 추출한 두 표본(Sample)을 비교하는 방법이다.

🔰 모평균 차이의 점추정

$~~\bullet~~~E(\bar{X_1}-\bar{X_2}) = E(\bar{X_1})-E(\bar{X_2}) = \mu_1 - \mu_2$

$~~\bullet~~~Var(\bar{X_1}-\bar{X_2}) = Var(\bar{X_1})-Var(\bar{X_2}) = \cfrac{\sigma_1^2}{n_1} + \cfrac{\sigma_2^2}{n_2}$

🔰 모평균 차이의 구간 추정

대표본 : $n \ge 30$
- 모분산을 아는 경우 대표본이든 소표본이든 $Z$ 분포를 사용한다.
- $~Z = \cfrac{~(\bar{X_1}-\bar{X_2})-(\mu_1-\mu_2)~}{\sqrt{\cfrac{\sigma_1^2}{n_1} + \cfrac{\sigma_2^2}{n_2}}} \thicksim N(0,~1)$
- $~ P\left(-z_{\frac{\alpha}{2}}\le Z \le z_{\frac{\alpha}{2}}\right) = 1 - \alpha$
  
  $\Rightarrow P\left(-z_{\frac{\alpha}{2}}\le \cfrac{~(\bar{X_1}-\bar{X_2})-(\mu_1-\mu_2)~}{\sqrt{{\sigma_1^2}/{n_1} + {\sigma_2^2}/{n_2}}} \le z_{\frac{\alpha}{2}}\right) = 1-\alpha$
  
  $\Rightarrow P\left((\bar{X_1}-\bar{X_2})-z_{\frac{\alpha}{2}} \cdot {\sqrt{\cfrac{\sigma_1^2}{n_1} + \cfrac{\sigma_2^2}{n_2}}}\le \mu_1-\mu_2 \le (\bar{X_1}-\bar{X_2}) + z_{\frac{\alpha}{2}} \cdot {\sqrt{\cfrac{\sigma_1^2}{n_1} + \cfrac{\sigma_2^2}{n_2}}}~\right)$
- ex.
소표본, 모분산을 모르는 경우
- 모분산을 모르는 경우 소표본일 때 $T$ 분포를 사용한다.
- 두 모집단의 분산을 아는 경우 대표본과 동일하게 추정 가능하지만,
  모분산을 모르는 경우 등분산 가정이 추가적으로 필요하다.
  즉, 두 모집단의 분산이 같다는 가정이 필요~!!! $~\boxed{\sigma_1^2=\sigma_2^2=\sigma^2}$
- 합동 분산 추정량(Pooled Variance Estimator)
  
  공통 분산의 추정량 $~\boxed{{S_p}^2=\cfrac{~(n_1-1){s_1}^2 + (n_2-1){s_2}^2~}{n_1+n_2-2}}$
  
  $~\circ~~~ T = \cfrac{~(\bar{X_1}-\bar{X_2})-(\mu_1-\mu_2)~}{S_p\sqrt{\frac{1}{n_1} + \frac{1}{n_2}}} \thicksim T(n_1+n_2-2)$
  
  $~\circ~~ P\left(-t_{\frac{\alpha}{2},~(n_1+n_2-2)} \le \cfrac{~(\bar{X_1}-\bar{X_2})-(\mu_1-\mu_2)~}{S_p\sqrt{{1}/{n_1} + {1}/{n_2}}} \le t_{\frac{\alpha}{2},~(n_1+n_2-2)}\right) = 1-\alpha$
  
  $\Rightarrow P\left((\bar{X_1}-\bar{X_2})-t_{\frac{\alpha}{2},~(n_1+n_2-2)} \cdot S_p{\sqrt{\cfrac{1}{n_1} + \cfrac{1}{n_2}}} \le \mu_1-\mu_2 \le (\bar{X_1}-\bar{X_2}) + t_{\frac{\alpha}{2},~(n_1+n_2-2)} \cdot S_p{\sqrt{\cfrac{1}{n_1} + \cfrac{1}{n_2}}}~\right)$
- ex.

모비율 차이의 추정

🔰 모비율 차이의 점추정

$~~\bullet~~~E(\hat{p_1}-\hat{p_2}) = E(\widehat{p_1})-E(\widehat{p_2}) = p_1 - p_2$

$~~\bullet~~~Var(\hat{p_1}-\hat{p_2}) = Var(\widehat{p_1})-Var(\widehat{p_2}) = \cfrac{~p_1(1-p_1)~}{n_1} + \cfrac{~p_2(1-p_2)~}{n_2}$

🔰 모비율 차이의 구간 추정

$~\bullet~~~ Z = \cfrac{~(\widehat{p_1}-\widehat{p_2})-(p_1-p_2)~}{\sqrt{\cfrac{p_1(1-p_1)}{n_1} + \cfrac{p_2(1-p_2)}{n_2}}}~ \thicksim~ N(0,~1)$

$~\bullet~~~ P\left(-z_{\frac{\alpha}{2}}\le Z \le z_{\frac{\alpha}{2}}\right) = 1 - \alpha$

$\Rightarrow P\left(-z_{\frac{\alpha}{2}} \le \cfrac{~(\widehat{p_1}-\widehat{p_2})-(p_1-p_2)~}{\sqrt{\frac{p_1(1-p_1)}{n_1} + \frac{p_2(1-p_2)}{n_2}}} \le z_{\frac{\alpha}{2}}\right) = 1-\alpha$

$\Rightarrow P\left((\widehat{p_1}-\widehat{p_2})-z_{\frac{\alpha}{2}}\cdot \sqrt{\frac{p_1(1-p_1)}{n_1} + \frac{p_2(1-p_2)}{n_2}} \le ~p_1-p_2 \le (\widehat{p_1}-\widehat{p_2})+z_{\frac{\alpha}{2}}\cdot \sqrt{\frac{p_1(1-p_1)}{n_1} + \frac{p_2(1-p_2)}{n_2}}\right)$