X∼N(μ,σ2)일 때의 신뢰 구간
X1,X2,...,Xn을 N(μ,σ2)를 따르는 랜덤 표본이라고 하자.
Xˉ, s2이 각각 표본 평균, 표본 분산일 때, 다음과 같은 T분포 확률 변수를 생각할 수 있다.
T=S/nXˉ−μ∼t(n−1)
우리의 목표는 표본 평균과 표본 분산으로 μ의 신뢰 구간을 완성하는 것이고, T의 분포를 아는 상황이므로 T를 피봇 변수로 이용해 신뢰 구간을 도출한다.
1−α=P(−tα/2(n−1)<T<tα/2(n−1))=P(−tα/2(n−1)<S/nXˉ−μ<tα/2(n−1))=P(−tα/2(n−1)nS<Xˉ−μ<tα/2(n−1)nS)=P(Xˉ−tα/2(n−1)<μ<Xˉ+tα/2(n−1))
중심극한정리 (CLT)
X1,X2,...,Xn iid Random sample
∣μ∣<∞, ∣σ2∣<∞
Wn=σ/nXˉ−μ→N(0,1)
Zn=S/nXˉ−μ→N(0,1)
as n→∞
X가 정규 분포를 따른다는 가정이 없을 때의 신뢰구간
X의 정규성 가정이 없다면 T분포를 사용할 수 없다. 이 경우에는 중심극한정리를 적용해 표본 크기가 커질수록 표본 평균의 정규화 분포가 근사적으로 N(0,1)을 따른다는 것을 이용한다.
1−α≈P(−zα/2<S/nXˉ−μ<zα/2)=P(Xˉ−zα/2nS<μ<Xˉ+zα/2nS)
이 신뢰구간은 CLT를 사용하기 때문에 근사적인 신뢰 구간이며, CLT의 가정에 따라 표본 크기가 충분히 큰 경우에만 사용할 수 있다.
두 분포의 평균 차에 대한 신뢰구간
X1,X2,...,Xn1을 X의 랜덤 표본, Y1,Y2,...,Yn2를 Y의 랜덤 표본이라고 하자. 이 때 Xi⊥Yj이다.
두 확률변수의 평균의 차에 대한 신뢰 구간을 얻기 위해서 위와 같이 CLT를 이용할 수 있다.
Xˉ−Yˉ는 μ1−μ2의 점 추정량 역할을 한다. 또한 CLT에 의해 다음 결과가 도출된다.
W=n1S12+n2S22(Xˉ−Yˉ)−(μ1−μ2)→N(0,1)
W를 피봇 변수로 사용해 신뢰 구간을 도출하면 다음과 같다.
1−α≈P(−zα/2<W<zα/2)=P(−zα/2<n1S12+n2S22(Xˉ−Yˉ)−(μ1−μ2)<zα/2)=P((Xˉ−Yˉ)−zα/2n1S12+n2S22<μ1−μ2<(Xˉ−Yˉ)+zα/2n1S12+n2S22)
Location model
만약 X∼N(μ1,σ2),Y∼N(μ2,σ2)이라면, CLT를 이용한 근사된 신뢰 구간이 아닌 정확한 신뢰 구간을 구할 수 있다. 두 확률 변수가 동일한 분산을 가져야 하기 때문에 Location model이라고도 부른다.
X,Y가 정규분포를 따르기 때문에 Xˉ∼N(μ1,n1σ2), Yˉ∼N(μ2,n2σ2)⇒(Xˉ−Yˉ)∼N(μ1−μ2,n1σ2+n2σ2)이다. (Xˉ⊥Yˉ)
Z=σn11+n21(Xˉ−Yˉ)−(μ1−μ2)∼N(0,1)
Z는 T 통계량을 만들 때 분자로 사용된다.
X와 Y의 분산이 동일할 때, σ2의 점 추정량으로는 pooled estimator를 사용한다.
Sp2=n1+n2−2(n1−1)S12+(n2−1)S22E(Sp2)=n1+n2−2n1−1E(S12)+n1+n2−2n2−1E(S22)=σ2⇒pooled estimator is unbiased
Let n1+n2=n(n−2)Sp2/σ2=σ2(n1−1)S12+(n2−1)S22∼χ(n1+n2−2)2 (S12⊥S22)S12⊥Xˉ, S22⊥Yˉ, X⊥Y⇒Z⊥σ2(n−2)Sp2∴T=σ2(n−2)(n−2)Sp2Z∼T(n−2)T=Spn11+n21(Xˉ−Yˉ)−(μ1−μ2)⇒1−α=P(−tα/2(n−2)<T<tα/2(n−2))=P((Xˉ−Yˉ)−tα/2(n−2)Spn11+n21<μ1−μ2<(Xˉ−Yˉ)+tα/2(n−2)Spn11+n21)