통계방법론 W3 - Estimation

ese2o·2024년 4월 14일
0

1. Estimating the Population Mean Using σ\sigma

use the z statistic, FPC(if necessary)

Point Estimate

: a statistic taken from a sample as a single value that is used to estimate a population parameter

추정은 점추정과 구간추정 두 가지로 구분되는데, 점추정은 모수를 어떤 하나의 값으로 추정(추정값이 하나의 값으로 나옴)하는 것이고 구간추정은 어떤 구간으로 추정하는 것이다.

Let {Xi}i=1n\{X_i\}^n_{i=1} are i.i.d. random variables with XiN(μ,σ2)X_i \sim N(\mu, \sigma^2)
μ\mu의 점추정값: Xˉ=X1+X2++Xnn\bar{X}=\frac{X_1+X_2+\cdots+X_n}{n}

좋은 추정량의 기준으로 비편향성, 효율성, 일치성이 있다.
여기서 우리가 추정하고 싶은 parameter θ\theta는 모평균, θ\theta의 점추정값 θ^\hat \theta는 표본평균으로 둔다.

Criteria for good point estimate

  • Unbiasedness : E[θ^]=θ\mathbb{E}[\hat{\theta}]=\theta
  • Efficiency : variance V(θ^)=E[(θ^E[θ^])2]\mathbb{V}(\hat{\theta})=\mathbb{E}\left[(\hat{\theta}-\mathbb{E}[\hat{\theta}])^2\right] is small
  • Consistency : limnPr(θ^θ>ε)=0\lim _{n \rightarrow \infty} \operatorname{Pr}(|\hat{\theta}-\theta|>\varepsilon)=0 for all ε>0\varepsilon>0

통계학에서 효율은 추정량의 작은 분산, 즉 작은 변동폭을 뜻한다.

θ^1\hat \theta_1의 분산이 더 작으므로, 더 효율적이다.

통계학에서 일치성은 추정량의 모수로의 확률적 수렴성을 뜻한다. 좋은 추정량의 갖추어야 할 최소한의 조건으로 생각되기도 한다.
중심극한정리에 따라, 표본평균의 분산은 표본 크기가 늘어나면 0으로 수렴한다. 어느 추정량의 분산이 0으로 수렴한다는 것은 그 추정량의 표본추출로 인한 변동이 점차 줄어들고, 결국 그 추정량의 평균으로 수렴함을 의미한다. (통계학에서 수렴은 수학과 달리 0이 될 수 있다.)
모평균에서 아무리 작은 값 이상을 벗어날 확률은 표본크기가 커짐에 따라 0이 되게 되는데, 이 경우 표본평균은 모평균에 확률적으로 수렴한다고 한다.

limnPr(θ^θ>ε)=0\lim _{n \rightarrow \infty} \operatorname{Pr}(|\hat{\theta}-\theta|>\varepsilon)=0

for all ε>0\varepsilon>0
(세타 값에서 아무리 작은 값이라도 벗어날 확률이 0이 된다)

Pr(θ^=θ)n1\operatorname{Pr}(\hat{\theta}=\theta) \underset{n \rightarrow \infty}{\longrightarrow} 1이 되는 θ^\hat \theta은 일치추정량이다.

example

E[Xˉ]=μV[Xˉ]=σ2/nPr(Xˉ=μ)1 as n\begin{aligned} & \mathbb{E}[\bar{X}]=\mu \\ & \mathbb{V}[\bar{X}]=\sigma^2 / n \\ & \operatorname{Pr}(\bar{X}=\mu) \rightarrow 1 \text { as } n \rightarrow \infty \end{aligned}

Interval Estimate (Confidence Interval)

: a range of values within which the analyst can declare, with some confidence, the population parameter is contained

구간추정은 모수를 하나의 값으로 추정하는 것이 아니라, 오차의 크기가 고려된 구간으로 나타내는 것. 표본통계량의 변동성 때문에, 보통 구간추정을 더 선호한다.

Level of confidence(신뢰수준) = 1α1 - \alpha
: 신뢰구간이 모수를 포함할 확률(비율)

여기서 α\alpha는 유의수준(Significance level)으로, 귀무가설이 참인데도 기각할 확률(잘못 추정할 확률).

표본을 100번 추출하여 신뢰구간을 구했다면 그 100개의 신뢰구간 중 95개가 모수를 포함했다: 신뢰수준은 95%이다.

σ\sigma를 알고 있을 때, μ\mu를 추정하기 위한 100(1α)100(1-\alpha)% 신뢰구간

xˉzα/2σnμxˉ+zα/2σn\bar{x}-z_{\alpha / 2} \frac{\sigma}{\sqrt{n}} \leq \mu \leq \bar{x}+z_{\alpha / 2} \frac{\sigma}{\sqrt{n}}

  • 표준정규분포의 z값을 사용한다.
  • α\alpha: 신뢰구간 밖의 확률
  • α/2\alpha/2: 신뢰구간 밖의 확률 중, 한쪽 꼬리의 확률

ex. Estimating # of texts
n=85, 표준편차=160, 표본평균=1300, 95% 신뢰구간을 사용한다고 가정.

alpha=0.05 alpha/2=0.025
0.5-0.025=0.475
z분포표에 따라 -> P(0<=Z<=1.96) = 0.4750
16001.9616085μ1600+1.9616085=1265.99μ1334.011600-{1.96} \frac{160}{\sqrt{85}} \leq \mu \leq 1600+{1.96} \frac{160}{\sqrt{85}} = 1265.99 \leq \mu \leq 1334.01
-> The telephone company can conclude with 95% confidence of number of texts is between 1265.99 texts and 1334.01 texts.

  • zα/2σnz_{\alpha / 2} \frac{\sigma}{\sqrt{n}}margin of error(표본오차)라고 불린다.
    • 신뢰수준 하에서 샘플에 의한 추정이 모집단의 측정치와 표본오차 범위만큼 차이가 날 수 있다
    • 신뢰수준의 상한선, 하한선을 결정

Finite Correction Factor

모집단이 유한할 경우, 결과의 정확도를 높이기 위해 Finite Correction Factor를 사용할 수 있다.

xˉzα/2σnNnN1μxˉ+zα/2σnNnN1\bar{x}-z_{\alpha / 2} \frac{\sigma}{\sqrt{n}} \sqrt{\frac{N-n}{N-1}} \leq \mu \leq \bar{x}+z_{\alpha / 2} \frac{\sigma}{\sqrt{n}} \sqrt{\frac{N-n}{N-1}}

2. Estimating the Population Mean When σ\sigma Unknown

use the t statistic

모집단의 표준편차는 알려지지 않은 경우가 많다.

  • σ\sigma를 표본표준편차 s로 대체
  • z분포 대신 자유도가 n-1인 t분포를 따름
t=xˉμs/ntn1t=\frac{\bar{x}-\mu}{s / \sqrt{n}} \sim t_{n-1}

카이제곱분포
카이제곱분포 설명
확률변수 Z1,Z2,...,ZnZ_1, Z_2, ..., Z_n가 각각 표준정규분포를 따르고 서로 독립일 때,
Z12+Z22+...+Zn2χ2(n)Z_1^2+Z_2^2+...+Z_n^2 \sim \chi^2(n)
n: 자유도

t분포
t분포 설명

  • 꼬리가 더 두꺼운 표준정규분포
  • 표본 크기가 커질수록 z분포와 유사해진다.
    Z가 표준정규분포의 확률변수, Y가 자유도 n인 카이제곱분포의 확률변수이며 Z와 Y가 독립일 때,
    X=ZnYX=Z \sqrt{\frac{n}{Y}}는 자유도가 n인 t분포를 따른다.
xˉtα/2,n1snμxˉ+tα/2,n1sn,df=n1\bar{x}-t_{\alpha / 2, n-1} \frac{s}{\sqrt{n}} \leq \mu \leq \bar{x}+t_{\alpha / 2, n-1} \frac{s}{\sqrt{n}}, \quad d f=n-1
  • 원하는 자유도가 t분포표에 없을 수도 있는데, 그때는 원하는 자유도보다 작은 수 중 가장 가까운 수를 사용한다.
    • 더 작은 값을 사용하는 이유는, 더 보수적으로 결과 구하기

3. Estimating the Population Proportion

use the z statistic

표본비율 p를 추정한다.
ex. 생산품 중 불량품의 비율을 추정

p^=XnN(p,pqn)\hat{p}=\frac{X}{n} \sim N\left(p, \frac{p q}{n}\right)

CLT에 따라 z값을 다음과 같이 구할 수 있다.

z=p^ppq/n,q=1pz=\frac{\hat{p}-p}{\sqrt{p q / n}}, q=1-p
  • 표본평균 추정
    xˉN(μ,σ2n)\bar x \sim N(\mu, \frac{\sigma^2}{n})
    Z=xˉμσ/nZ=\frac{\bar{x}-\mu}{\sqrt{\sigma / n}}

  • 표본비율 추정
    p^N(p,pqn)\hat p \sim N(p, \frac{pq}{n})
    Z=p^ppq/nZ=\frac{\hat p-p}{\sqrt{pq / n}}


    두 추정 모두 N(0,1)의 표준정규분포를 따르는 Z값으로 추정한다

p를 알기가 어렵기 때문에 p를 p^\hat p로 대체하고, 표본 크기가 클 경우와 신뢰구간 추정의 경우만 추정이 가능하다.
보통 문제에서 p^\hat p가 주어짐

p^zα/2p^q^npp^+zα/2p^q^n,q^=1p^\hat{p}-z_{\alpha / 2} \sqrt{\frac{\hat{p} \hat{q}}{n}} \leq p \leq \hat{p}+z_{\alpha / 2} \sqrt{\frac{\hat{p} \hat{q}}{n}}, \quad \hat{q}=1-\hat{p}

4. Estimating the Population Variance

given sample variance s2s^2

use the chi-square statistic

모분산의 점추정값은 표본분산 s^2이다.

s2=1n1i=1n(xixˉ)2s^2=\frac{1}{n-1} \sum_{i=1}^n\left(x_i-\bar{x}\right)^2

모분산에 대한 구간추정에는 (n1)s2/σ2(n-1)s^2/\sigma^2의 분포가 유용한데, 이 분포는 자유도가 n-1인 카이제곱분포를 따른다.

χ2=(n1)s2σ2χn12\chi^2=\frac{(n-1) s^2}{\sigma^2} \sim \chi_{n-1}^2

카이제곱분포의 신뢰구간은 다음과 같다.

(n1)s2χα/22σ2(n1)s2χ1α/22\frac{(n-1) s^2}{\chi_{\alpha / 2}^2} \leq \sigma^2 \leq \frac{(n-1) s^2}{\chi_{1-\alpha / 2}^2}

카이제곱분포는 대칭이 아님에 유의한다.

5. Estimating Sample Size

표본수 n을 추정한다.
표본오차를 E=xˉμE=\bar x - \mu라고 하자.

z=xˉμσn=EσnN(0,1)z=\frac{\bar{x}-\mu}{\frac{\sigma}{\sqrt{n}}}=\frac{E}{\frac{\sigma}{\sqrt{n}}} \sim N(0,1)

5-1. given σ\sigma

n=(zα/2σE)2n=\left(\frac{z_{\alpha / 2} \sigma}{E}\right)^2

5-2. population proportion

p가 주어지지 않았다면, 보통 0.5로 생각한다.

n=zα/22pqE2n=\frac{z_{\alpha / 2}^2 p q}{E^2}

ex. Suppose a business analyst wants to estimate what proportion of IT workers are self-employed. The analyst wants to be 99 % confident of the result and be within 0.05 of the actual proportion. How large sample size should be taken?

풀이
p=0.5, E=0.05

n=z0.0052pqE2=2.5752×0.520.052=663.1n=\frac{z_{0.005}^2 p q}{E^2}=\frac{2.575^2 \times 0.5^2}{0.05^2}=663.1

-> The analyst would have to sample at least 664 workers to attain a 99% level of confidence and produce an error no bigger than 0.05.

0개의 댓글