카이제곱분포

choyunjeong·2024년 12월 25일

수리통계학 여러 개의 확률분포

목록 보기

10/10

1. 확률밀도함수

정규분포로부터 얻은 랜덤표본에 근거한 함수의 분포로, 모수가 $(k,\ \theta)$ 인 감마분포에서 $k=n/2,\ \theta=2$ 인 확률변수 $X$ 는 자유도가 $n$ 인 카이제곱분포를 따른다고 한다. 카이제곱 확률변수의 분포형태은 모수인 자유도가 $n$ 에 의해 결정된다.

f_X(x)=\dfrac{1}{\Gamma(n/2)}\left(\dfrac{1}{2}\right)^{n/2}x^{n/2-1}e^{-x/2},\quad x>0

$\\[20pt]$

X\sim \text{GAM}(n/2,\ 2)=\chi^2(n)

이와 같은 카이제곱분포는 모분산 $\sigma^2$ 의 추정량로 사용되는 표본분산 $S_n^2$ 의 표본분포를 이해하는 데 중요한 역할을 한다. 또한 범주형 자료의 검정에서도 사용된다.

\hat{\sigma}^2=S_n^2=\sum_{i=1}^{n}(X_i-\bar{X_n})^2/(n-1)

$\\[30pt]$

2. 적률생성함수

카이제곱 정의에 따라 적률생성함수도 $k=n/2,\theta=2$ 인 감마분포의 적률생성함수를 따른다.

M_X(t)=(1-2t)^{-n/2},\quad (t<1/2)

참고

$X\sim \text{GAM}(k,\theta)$ 의 적률생성함수.

\begin{aligned} M_X(t) &=E(e^{tx}) \\[10pt] &=\int_{0}^{\infty}e^{tx}\cdot\dfrac{1}{\theta^k\Gamma(k)}x^{k-1}e^{-x/\theta} dx\\[10pt] &=\dfrac{1}{\theta^k\Gamma(k)}\int_{0}^{\infty}x^{k-1}\exp\{(t-1/\theta)/x\} dx\\[10pt] &=(1/\theta-t)^{-k}\dfrac{1}{\theta^k\Gamma(k)}\int_{0}^{\infty}u^{k-1}\exp(-u) du \\[10pt] &=(1-\theta t)^{-k},\quad t<\dfrac{1}{\theta} \end{aligned}

$\\[30pt]$

3) 기댓값과 분산

확률밀도함수를 적분한 것보다 적률생성함수로 쉽게 구할 수 있다.

1) 기댓값

\begin{aligned} M^{(1)}_X(t) &=\left(\dfrac{d}{dt}\right)(1-\theta t)^{-k} \\[15pt] &=-k\left((1-\theta t)^{-k-1}\cdot (-\theta)\right)\\[20pt] \therefore E(X)&=M^{(1)}_X(0)=k\theta \\[5pt] &= n/2\cdot 2 \\[5pt] &=n \end{aligned}

$\\[20pt]$

2) 분산

\begin{aligned} M^{(2)}_X(t) &=\left(\dfrac{d}{dt}\right)\left(\dfrac{k\theta}{(1-\theta t)^{k+1}}\right) \\[15pt] &=k\theta \cdot \left(\dfrac{d}{dt}\right) \left( (1-\theta t)^{-(k+1)} \right) \\[15pt] &=k\theta \cdot -(k+1)(1-\theta t)^{-(k+2)} \cdot (-\theta) \\[10pt] &=\dfrac{k(1+k)\theta^2}{(1-\theta t)^{k+2}} \\[20pt] M^{(2)}_X(0)&=k(1+k)\theta^2 \\[10pt] &=(n/2)(n+2/2)4\\[10pt] &=n(n+2) \\[20pt] \therefore \text{Var}(X)&=M^{(2)}_X(0)-\left\{M^{(1)}_X(0)\right\}^2 \\[10pt] &=k\theta^2 \\[10pt] &=n/2\cdot 4 \\[10pt] &=2n \end{aligned}

$\\[30pt]$

3. 성질

정리 3.3
서로 독립인 확률변수 $X_i,\ (i=1,2,\ldots,n)$ 들이 각각 자유도가 $k_i$ 인 카이제곱분포를 따르면 그들의 합인 $Y=\sum_{i=1}^{n}X_i$ 는 자유도가 $\sum_{i=1}^{n}k_i$ 인 카이제곱분포를 따른다.

[증명]

\begin{aligned} M_Y(t)=E(e^{tY})&=E(e^{tX_1}e^{tX_2}\ldots e^{tX_n}) \\[10pt] &= M_{X_1}(t)M_{X_2}(t)\ldots M_{X_n}(t)\\[10pt] &=(1-2t)^{-k_1/2}\ldots(1-2t)^{-k_n/2} \\[10pt] &=(1-2t)^{-\sum_{i=1}^{n}k_i/2} \end{aligned}

이 되는데 이는 바로 $\chi^2(\sum_{i=1}^{n}k_i)$ 의 적률생성함수이다. 따라서 다음을 만족한다.

Y=\sum_{i=1}^{n}X_i\sim \chi^2(\sum_{i=1}^{n}k_i)

$\\[20pt]$

정리 3.3에 따라 자유도가 $n$ 인 카이제곱 확률변수는 서로 독립인 $n$ 개의 자유도가 1인 카이제곱 확률변수의 합으로 표현될 수 있다. 자유도가 커짐에 따라 카이제곱분포의 확률밀도함수가 평균에 대하여 대칭형에 가까워진다. 이는 서로 독립이면서 같은 분포를 갖는 확률변수들의 합이 정규분포로 근사될 수 있다는 중심극한정리와 합치하는 결과이다.

$\\[30pt]$

정리 3.4
확률변수 $Z$ 가 $N(0,1)$ 분포를 따를 때, $Y=Z^2$ 은 $\chi^2(1)$ 의 분포를 가진다.

[증명]

\begin{aligned} M_{Z^2}(t) &=E[\exp(tZ^2)] \\[10pt] &=\int_{-\infty}^{\infty}\exp(tz^2)\dfrac{1}{\sqrt{2\pi}}\exp(-z^2/2) dz\\[15pt] &=\int_{-\infty}^{\infty}\dfrac{1}{\sqrt{2\pi}}\exp(tz^2-z^2/2) dz\\[15pt] &=\dfrac{1}{\sqrt{1-2t}}\int_{-\infty}^{\infty}\dfrac{\sqrt{1-2t}}{\sqrt{2\pi}}\exp[-z^2(1-2t)/2] dz\\[15pt] &=(1-2t)^{-1/2}, \quad t<1/2 \end{aligned}

이 되며 이는 $\chi^2(1)$ 의 적률생성함수이다. 그러므로 $Y\sim \chi^2(1)$ 이다.

$\\[30pt]$

정리 3.5
서로 독립인 확률변수 $X_i$ 가 각각 정규분포 $N(\mu,\sigma^2)$ 을 따른다면 다음은 자유도가 $n$ 인 카이제곱분포를 따른다.
$V=\sum_{i=1}^{k}\left(\dfrac{X_i-\mu_i}{\sigma_i}\right)^2$

위 정리 3.5에 의하면, $X_i(i=1,\ldots,n)$ 들이 정규분포 $N(\mu,\sigma^2)$ 으로부터의 랜덤표본일 때 $\sum_{i=1}^{k}(X_i-\mu_i)^2/\sigma_i^2$ 은 자유도가 $n$ 인 카이제곱분포를 따른다는 사실을 쉽게 알 수 있다.

예 2.55
확률변수 $X$ 가 $\text{GAM}(k,\theta)$ 을 따른다고 할 때 $Y=2X/ \theta$ 는 자유도가 $k$ 인 카이제곱분포를 따른다. $(t<1/2)$

지수분포의 합은 감마분포를 따르므로 지수분포의 합의 $2X/ \theta$ 는 카이제곱분포를 따른다.

\begin{aligned} M_Y(t)&=E(e^{tY})=E\left[\exp\left(\dfrac{2t}{\theta}X\right)\right] \\ &=\quad\quad\quad \vdots \\ &=\left(\dfrac{1}{1-\theta(2t/\theta)}\right)^k \\[15pt] &=(1-2t)^{-2k/2},\quad t<1/2 \end{aligned}

$Y$ 의 $\text{mgf}\ \sim \text{GAM}(k,2)= \chi^2(2k)$ . 즉, $Y\sim \chi^2(2k)$

choyunjeong

이전 포스트

카이제곱분포

수리통계학 여러 개의 확률분포

1. 확률밀도함수

2. 적률생성함수

3) 기댓값과 분산

1) 기댓값

2) 분산

3. 성질

베타분포

0개의 댓글