카이제곱분포

choyunjeong·2024년 12월 25일

1. 확률밀도함수

정규분포로부터 얻은 랜덤표본에 근거한 함수의 분포로, 모수가 (k, θ)(k,\ \theta)감마분포에서 k=n/2, θ=2k=n/2,\ \theta=2인 확률변수 XX는 자유도가 nn인 카이제곱분포를 따른다고 한다. 카이제곱 확률변수의 분포형태은 모수인 자유도가 nn에 의해 결정된다.

fX(x)=1Γ(n/2)(12)n/2xn/21ex/2,x>0f_X(x)=\dfrac{1}{\Gamma(n/2)}\left(\dfrac{1}{2}\right)^{n/2}x^{n/2-1}e^{-x/2},\quad x>0

\\[20pt]

XGAM(n/2, 2)=χ2(n)X\sim \text{GAM}(n/2,\ 2)=\chi^2(n)

이와 같은 카이제곱분포는 모분산 σ2\sigma^2의 추정량로 사용되는 표본분산 Sn2S_n^2의 표본분포를 이해하는 데 중요한 역할을 한다. 또한 범주형 자료의 검정에서도 사용된다.

σ^2=Sn2=i=1n(XiXnˉ)2/(n1)\hat{\sigma}^2=S_n^2=\sum_{i=1}^{n}(X_i-\bar{X_n})^2/(n-1)

\\[30pt]

2. 적률생성함수

카이제곱 정의에 따라 적률생성함수도 k=n/2,θ=2k=n/2,\theta=2인 감마분포의 적률생성함수를 따른다.

MX(t)=(12t)n/2,(t<1/2)M_X(t)=(1-2t)^{-n/2},\quad (t<1/2)

참고

XGAM(k,θ)X\sim \text{GAM}(k,\theta) 의 적률생성함수.

MX(t)=E(etx)=0etx1θkΓ(k)xk1ex/θdx=1θkΓ(k)0xk1exp{(t1/θ)/x}dx=(1/θt)k1θkΓ(k)0uk1exp(u)du=(1θt)k,t<1θ\begin{aligned} M_X(t) &=E(e^{tx}) \\[10pt] &=\int_{0}^{\infty}e^{tx}\cdot\dfrac{1}{\theta^k\Gamma(k)}x^{k-1}e^{-x/\theta} dx\\[10pt] &=\dfrac{1}{\theta^k\Gamma(k)}\int_{0}^{\infty}x^{k-1}\exp\{(t-1/\theta)/x\} dx\\[10pt] &=(1/\theta-t)^{-k}\dfrac{1}{\theta^k\Gamma(k)}\int_{0}^{\infty}u^{k-1}\exp(-u) du \\[10pt] &=(1-\theta t)^{-k},\quad t<\dfrac{1}{\theta} \end{aligned}

\\[30pt]

3) 기댓값과 분산

확률밀도함수를 적분한 것보다 적률생성함수로 쉽게 구할 수 있다.

1) 기댓값

MX(1)(t)=(ddt)(1θt)k=k((1θt)k1(θ))E(X)=MX(1)(0)=kθ=n/22=n\begin{aligned} M^{(1)}_X(t) &=\left(\dfrac{d}{dt}\right)(1-\theta t)^{-k} \\[15pt] &=-k\left((1-\theta t)^{-k-1}\cdot (-\theta)\right)\\[20pt] \therefore E(X)&=M^{(1)}_X(0)=k\theta \\[5pt] &= n/2\cdot 2 \\[5pt] &=n \end{aligned}

\\[20pt]

2) 분산

MX(2)(t)=(ddt)(kθ(1θt)k+1)=kθ(ddt)((1θt)(k+1))=kθ(k+1)(1θt)(k+2)(θ)=k(1+k)θ2(1θt)k+2MX(2)(0)=k(1+k)θ2=(n/2)(n+2/2)4=n(n+2)Var(X)=MX(2)(0){MX(1)(0)}2=kθ2=n/24=2n\begin{aligned} M^{(2)}_X(t) &=\left(\dfrac{d}{dt}\right)\left(\dfrac{k\theta}{(1-\theta t)^{k+1}}\right) \\[15pt] &=k\theta \cdot \left(\dfrac{d}{dt}\right) \left( (1-\theta t)^{-(k+1)} \right) \\[15pt] &=k\theta \cdot -(k+1)(1-\theta t)^{-(k+2)} \cdot (-\theta) \\[10pt] &=\dfrac{k(1+k)\theta^2}{(1-\theta t)^{k+2}} \\[20pt] M^{(2)}_X(0)&=k(1+k)\theta^2 \\[10pt] &=(n/2)(n+2/2)4\\[10pt] &=n(n+2) \\[20pt] \therefore \text{Var}(X)&=M^{(2)}_X(0)-\left\{M^{(1)}_X(0)\right\}^2 \\[10pt] &=k\theta^2 \\[10pt] &=n/2\cdot 4 \\[10pt] &=2n \end{aligned}

\\[30pt]

3. 성질

정리 3.3
서로 독립인 확률변수 Xi, (i=1,2,,n)X_i,\ (i=1,2,\ldots,n)들이 각각 자유도가 kik_i인 카이제곱분포를 따르면 그들의 합인 Y=i=1nXiY=\sum_{i=1}^{n}X_i는 자유도가 i=1nki\sum_{i=1}^{n}k_i인 카이제곱분포를 따른다.

[증명]

MY(t)=E(etY)=E(etX1etX2etXn)=MX1(t)MX2(t)MXn(t)=(12t)k1/2(12t)kn/2=(12t)i=1nki/2\begin{aligned} M_Y(t)=E(e^{tY})&=E(e^{tX_1}e^{tX_2}\ldots e^{tX_n}) \\[10pt] &= M_{X_1}(t)M_{X_2}(t)\ldots M_{X_n}(t)\\[10pt] &=(1-2t)^{-k_1/2}\ldots(1-2t)^{-k_n/2} \\[10pt] &=(1-2t)^{-\sum_{i=1}^{n}k_i/2} \end{aligned}

이 되는데 이는 바로 χ2(i=1nki)\chi^2(\sum_{i=1}^{n}k_i)의 적률생성함수이다. 따라서 다음을 만족한다.

Y=i=1nXiχ2(i=1nki)Y=\sum_{i=1}^{n}X_i\sim \chi^2(\sum_{i=1}^{n}k_i)

\\[20pt]

정리 3.3에 따라 자유도가 nn인 카이제곱 확률변수는 서로 독립인 nn개의 자유도가 1인 카이제곱 확률변수의 합으로 표현될 수 있다. 자유도가 커짐에 따라 카이제곱분포의 확률밀도함수가 평균에 대하여 대칭형에 가까워진다. 이는 서로 독립이면서 같은 분포를 갖는 확률변수들의 합이 정규분포로 근사될 수 있다는 중심극한정리와 합치하는 결과이다.

\\[30pt]

정리 3.4
확률변수 ZZN(0,1)N(0,1)분포를 따를 때, Y=Z2Y=Z^2χ2(1)\chi^2(1)의 분포를 가진다.

[증명]

MZ2(t)=E[exp(tZ2)]=exp(tz2)12πexp(z2/2)dz=12πexp(tz2z2/2)dz=112t12t2πexp[z2(12t)/2]dz=(12t)1/2,t<1/2\begin{aligned} M_{Z^2}(t) &=E[\exp(tZ^2)] \\[10pt] &=\int_{-\infty}^{\infty}\exp(tz^2)\dfrac{1}{\sqrt{2\pi}}\exp(-z^2/2) dz\\[15pt] &=\int_{-\infty}^{\infty}\dfrac{1}{\sqrt{2\pi}}\exp(tz^2-z^2/2) dz\\[15pt] &=\dfrac{1}{\sqrt{1-2t}}\int_{-\infty}^{\infty}\dfrac{\sqrt{1-2t}}{\sqrt{2\pi}}\exp[-z^2(1-2t)/2] dz\\[15pt] &=(1-2t)^{-1/2}, \quad t<1/2 \end{aligned}

이 되며 이는 χ2(1)\chi^2(1)의 적률생성함수이다. 그러므로 Yχ2(1)Y\sim \chi^2(1)이다.

\\[30pt]

정리 3.5
서로 독립인 확률변수 XiX_i가 각각 정규분포 N(μ,σ2)N(\mu,\sigma^2)을 따른다면 다음은 자유도가 nn인 카이제곱분포를 따른다.

V=i=1k(Xiμiσi)2V=\sum_{i=1}^{k}\left(\dfrac{X_i-\mu_i}{\sigma_i}\right)^2

위 정리 3.5에 의하면, Xi(i=1,,n)X_i(i=1,\ldots,n)들이 정규분포 N(μ,σ2)N(\mu,\sigma^2)으로부터의 랜덤표본일 때 i=1k(Xiμi)2/σi2\sum_{i=1}^{k}(X_i-\mu_i)^2/\sigma_i^2은 자유도가 nn인 카이제곱분포를 따른다는 사실을 쉽게 알 수 있다.

예 2.55
확률변수 XXGAM(k,θ)\text{GAM}(k,\theta)을 따른다고 할 때 Y=2X/θY=2X/ \theta는 자유도가 kk인 카이제곱분포를 따른다. (t<1/2)(t<1/2)

  • 지수분포의 합은 감마분포를 따르므로 지수분포의 합의 2X/θ2X/ \theta는 카이제곱분포를 따른다.
MY(t)=E(etY)=E[exp(2tθX)]==(11θ(2t/θ))k=(12t)2k/2,t<1/2\begin{aligned} M_Y(t)&=E(e^{tY})=E\left[\exp\left(\dfrac{2t}{\theta}X\right)\right] \\ &=\quad\quad\quad \vdots \\ &=\left(\dfrac{1}{1-\theta(2t/\theta)}\right)^k \\[15pt] &=(1-2t)^{-2k/2},\quad t<1/2 \end{aligned}

YYmgf GAM(k,2)=χ2(2k)\text{mgf}\ \sim \text{GAM}(k,2)= \chi^2(2k). 즉, Yχ2(2k)Y\sim \chi^2(2k)

0개의 댓글