모집단의 분산을 아는 경우
X 1 , X 2 , … , X n ∼ i i d N ( μ , σ 2 ) , μ ^ = X ˉ ∼ N ( μ , σ 2 n ) , Z ∼ N ( 0 , 1 ) X_1, X_2, \dots, X_n \sim iid\ N(\mu, \sigma^2),\ \hat{\mu}= \bar X \sim N (\mu, \frac{\sigma^2}{n}),\ Z \sim N(0,1) X 1 , X 2 , … , X n ∼ i i d N ( μ , σ 2 ) , μ ^ = X ˉ ∼ N ( μ , n σ 2 ) , Z ∼ N ( 0 , 1 )
모집단의 분산을 모르는 경우
X 1 , X 2 , … , X n ∼ i i d N ( μ , σ 2 ) , T = X ˉ − μ S / n ∼ t ( n − 1 ) X_1, X_2, \dots, X_n \sim iid\ N(\mu, \sigma^2),\ \ T=\frac{\bar X - \mu}{S / \sqrt n} \sim t(n-1) X 1 , X 2 , … , X n ∼ i i d N ( μ , σ 2 ) , T = S / n X ˉ − μ ∼ t ( n − 1 )
표본의 크기 결정
허용오차(permissible error) : 추정한 값이 틀려도 허용할 수 있는 오차
정규분포의 신뢰구간을 통해 허용 오차를 계산
n = ( z a / s ∗ σ d ) 2 n = (\frac{z_a / s*{\sigma}}{d})^2 n = ( d z a / s ∗ σ ) 2 , d d d : 허용오차
P ( ∣ X ˉ − μ ∣ ≤ d ) = 1 − a P(|\bar X -\mu| \leq d) = 1-a P ( ∣ X ˉ − μ ∣ ≤ d ) = 1 − a
모비율의 점추정
비율에 대한 추정으로 우리가 원하는 속성(class)에 속하면 ‘1’ 아니면 ‘0’일 때, 1의 속성을 갖는 것의 개수를 X라고 하면 X ~ B(n,p) 임
이 때 모비율의 점추정량을 표본 비율(sample proportion)이라고 함 (p ^ = X / n \hat p = X / n p ^ = X / n )
E ( p ^ ) = E ( x n ) = n p n = p E(\hat p) = E(\frac{x}{n}) = \frac{np}{n} = p E ( p ^ ) = E ( n x ) = n n p = p , V a r ( p ^ ) = V a r ( X n ) = n p ( 1 − p ) n 2 = p ( 1 − p ) n Var(\hat p)= Var(\frac{X}{n})= \frac{np(1-p)}{n^2} = \frac{p(1-p)}{n} V a r ( p ^ ) = V a r ( n X ) = n 2 n p ( 1 − p ) = n p ( 1 − p )
모비율의 구간 추정
모비율 구간 추정에서 정규분포의 근사가 가능한 대표본은 보통 np>5, n(1-p)>5 를 동시에 만족 해야 함
N이 충분히 크면 C.L.T에 의해서 Z = p ^ − p p ( 1 − p ) / n ∼ N ( 0 , 1 ) Z= \frac{\hat p - p}{\sqrt{p(1-p)/n}} \sim N(0,1) Z = p ( 1 − p ) / n p ^ − p ∼ N ( 0 , 1 )
모평균 차이의 추정(점추정)
E ( X ˉ 1 − X ˉ 2 ) = E ( X ˉ 1 ) − E ( X ˉ 2 ) = μ 1 − μ 2 E(\bar X_1 - \bar X_2) = E(\bar X_1)-E(\bar X_2)= \mu_1 - \mu_2 E ( X ˉ 1 − X ˉ 2 ) = E ( X ˉ 1 ) − E ( X ˉ 2 ) = μ 1 − μ 2
V a r ( X ˉ 1 − X ˉ 2 ) = V a r ( X ˉ 1 ) − V a r ( X ˉ 2 ) = σ 1 2 n 1 + σ 2 2 n 2 Var(\bar X_1 - \bar X_2) = Var(\bar X_1)-Var(\bar X_2)= \frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2} V a r ( X ˉ 1 − X ˉ 2 ) = V a r ( X ˉ 1 ) − V a r ( X ˉ 2 ) = n 1 σ 1 2 + n 2 σ 2 2
모평균 차이의 추정(구간추정: 대표본)
Z = ( X ˉ 1 − X ˉ 2 ) − ( μ 1 − μ 2 ) σ 1 2 / n 1 + σ 2 2 / n 2 ∼ N ( 0 , 1 ) Z=\frac{(\bar X_1 - \bar X_2)-(\mu_1 - \mu_2)}{\sqrt{\sigma_1^2 / n_1 + \sigma_2^2/n_2}}\sim N(0,1) Z = σ 1 2 / n 1 + σ 2 2 / n 2 ( X ˉ 1 − X ˉ 2 ) − ( μ 1 − μ 2 ) ∼ N ( 0 , 1 )
모평균 차이의 추정(구간추정: 소표본, 모분산을 모르는 경우)
두 모집단의 분산을 아는 경우에는 대표본과 동일하게 추정 가능하지만 모르는 경우에는 등분산 가정이 필요 (두 모집단의 분산이 같다는 가정이 필요 σ 1 2 = σ 2 2 = σ 2 \sigma_1^2 = \sigma_2^2 = \sigma^2 σ 1 2 = σ 2 2 = σ 2 )
합동 분산 추정량(pooled variance estimator) : 공통 분산의 추정량
S p 2 = ( n 1 − 1 ) S 1 2 + ( n 2 − 1 ) S 2 2 n 1 + n 2 − 2 S_p^2 = \frac{(n_1 -1)S_1^2 + (n_2 -1)S_2^2}{n_1 + n_2 -2} S p 2 = n 1 + n 2 − 2 ( n 1 − 1 ) S 1 2 + ( n 2 − 1 ) S 2 2
T = ( X ˉ 1 − X ˉ 2 ) − ( μ 1 − μ 2 ) S p 1 / n 1 + 1 / n 2 ∼ T ( n 1 + n 2 − 2 ) T = \frac{(\bar X_1 - \bar X_2) - (\mu_1 - \mu_2)}{S_p \sqrt{1/ n_1 + 1/ n_2}}\sim T(n_1 + n_2 -2) T = S p 1 / n 1 + 1 / n 2 ( X ˉ 1 − X ˉ 2 ) − ( μ 1 − μ 2 ) ∼ T ( n 1 + n 2 − 2 )
모비율 차이의 추정(점추정)
E ( p 1 ^ − p 2 ^ ) = E ( p 1 ^ ) − E ( p 2 ^ ) = p 1 − p 2 E(\hat{p_1} - \hat{p_2}) = E(\hat{p_1})-E(\hat{p_2}) = p_1 - p_2 E ( p 1 ^ − p 2 ^ ) = E ( p 1 ^ ) − E ( p 2 ^ ) = p 1 − p 2
모비율 차이의 추정(구간추정)
( p 1 ^ − p 2 ^ ) − p 1 − p 2 p 1 ( 1 − p 1 ) n 1 + p 2 ( 1 − p 2 ) n 2 ∼ Z ( 0 , 1 ) \frac{(\hat{p_1} - \hat{p_2})-p_1 -p_2}{\sqrt{\frac{p_1(1-p_1)}{n_1} + \frac{p_2(1-p_2)}{n_2}}} \sim Z(0,1) n 1 p 1 ( 1 − p 1 ) + n 2 p 2 ( 1 − p 2 ) ( p 1 ^ − p 2 ^ ) − p 1 − p 2 ∼ Z ( 0 , 1 )