1. 확률밀도함수
정규분포로부터 얻은 랜덤표본에 근거한 함수의 분포로, 모수가 ( k , θ ) (k,\ \theta) ( k , θ ) 인 감마분포 에서 k = n / 2 , θ = 2 k=n/2,\ \theta=2 k = n / 2 , θ = 2 인 확률변수 X X X 는 자유도가 n n n 인 카이제곱분포를 따른다고 한다. 카이제곱 확률변수의 분포형태은 모수인 자유도가 n n n 에 의해 결정된다.
f X ( x ) = 1 Γ ( n / 2 ) ( 1 2 ) n / 2 x n / 2 − 1 e − x / 2 , x > 0 f_X(x)=\dfrac{1}{\Gamma(n/2)}\left(\dfrac{1}{2}\right)^{n/2}x^{n/2-1}e^{-x/2},\quad x>0 f X ( x ) = Γ ( n / 2 ) 1 ( 2 1 ) n / 2 x n / 2 − 1 e − x / 2 , x > 0
\\[20pt]
X ∼ GAM ( n / 2 , 2 ) = χ 2 ( n ) X\sim \text{GAM}(n/2,\ 2)=\chi^2(n) X ∼ GAM ( n / 2 , 2 ) = χ 2 ( n )
이와 같은 카이제곱분포는 모분산 σ 2 \sigma^2 σ 2 의 추정량로 사용되는 표본분산 S n 2 S_n^2 S n 2 의 표본분포를 이해하는 데 중요한 역할을 한다. 또한 범주형 자료의 검정에서도 사용된다.
σ ^ 2 = S n 2 = ∑ i = 1 n ( X i − X n ˉ ) 2 / ( n − 1 ) \hat{\sigma}^2=S_n^2=\sum_{i=1}^{n}(X_i-\bar{X_n})^2/(n-1) σ ^ 2 = S n 2 = i = 1 ∑ n ( X i − X n ˉ ) 2 / ( n − 1 )
\\[30pt]
2. 적률생성함수
카이제곱 정의에 따라 적률생성함수도 k = n / 2 , θ = 2 k=n/2,\theta=2 k = n / 2 , θ = 2 인 감마분포의 적률생성함수를 따른다.
M X ( t ) = ( 1 − 2 t ) − n / 2 , ( t < 1 / 2 ) M_X(t)=(1-2t)^{-n/2},\quad (t<1/2) M X ( t ) = ( 1 − 2 t ) − n / 2 , ( t < 1 / 2 )
참고
X ∼ GAM ( k , θ ) X\sim \text{GAM}(k,\theta) X ∼ GAM ( k , θ ) 의 적률생성함수.
M X ( t ) = E ( e t x ) = ∫ 0 ∞ e t x ⋅ 1 θ k Γ ( k ) x k − 1 e − x / θ d x = 1 θ k Γ ( k ) ∫ 0 ∞ x k − 1 exp { ( t − 1 / θ ) / x } d x = ( 1 / θ − t ) − k 1 θ k Γ ( k ) ∫ 0 ∞ u k − 1 exp ( − u ) d u = ( 1 − θ t ) − k , t < 1 θ \begin{aligned} M_X(t) &=E(e^{tx}) \\[10pt] &=\int_{0}^{\infty}e^{tx}\cdot\dfrac{1}{\theta^k\Gamma(k)}x^{k-1}e^{-x/\theta} dx\\[10pt] &=\dfrac{1}{\theta^k\Gamma(k)}\int_{0}^{\infty}x^{k-1}\exp\{(t-1/\theta)/x\} dx\\[10pt] &=(1/\theta-t)^{-k}\dfrac{1}{\theta^k\Gamma(k)}\int_{0}^{\infty}u^{k-1}\exp(-u) du \\[10pt] &=(1-\theta t)^{-k},\quad t<\dfrac{1}{\theta} \end{aligned} M X ( t ) = E ( e t x ) = ∫ 0 ∞ e t x ⋅ θ k Γ ( k ) 1 x k − 1 e − x / θ d x = θ k Γ ( k ) 1 ∫ 0 ∞ x k − 1 exp { ( t − 1 / θ ) / x } d x = ( 1 / θ − t ) − k θ k Γ ( k ) 1 ∫ 0 ∞ u k − 1 exp ( − u ) d u = ( 1 − θ t ) − k , t < θ 1
\\[30pt]
3) 기댓값과 분산
확률밀도함수를 적분한 것보다 적률생성함수로 쉽게 구할 수 있다.
1) 기댓값
M X ( 1 ) ( t ) = ( d d t ) ( 1 − θ t ) − k = − k ( ( 1 − θ t ) − k − 1 ⋅ ( − θ ) ) ∴ E ( X ) = M X ( 1 ) ( 0 ) = k θ = n / 2 ⋅ 2 = n \begin{aligned} M^{(1)}_X(t) &=\left(\dfrac{d}{dt}\right)(1-\theta t)^{-k} \\[15pt] &=-k\left((1-\theta t)^{-k-1}\cdot (-\theta)\right)\\[20pt] \therefore E(X)&=M^{(1)}_X(0)=k\theta \\[5pt] &= n/2\cdot 2 \\[5pt] &=n \end{aligned} M X ( 1 ) ( t ) ∴ E ( X ) = ( d t d ) ( 1 − θ t ) − k = − k ( ( 1 − θ t ) − k − 1 ⋅ ( − θ ) ) = M X ( 1 ) ( 0 ) = k θ = n / 2 ⋅ 2 = n
\\[20pt]
2) 분산
M X ( 2 ) ( t ) = ( d d t ) ( k θ ( 1 − θ t ) k + 1 ) = k θ ⋅ ( d d t ) ( ( 1 − θ t ) − ( k + 1 ) ) = k θ ⋅ − ( k + 1 ) ( 1 − θ t ) − ( k + 2 ) ⋅ ( − θ ) = k ( 1 + k ) θ 2 ( 1 − θ t ) k + 2 M X ( 2 ) ( 0 ) = k ( 1 + k ) θ 2 = ( n / 2 ) ( n + 2 / 2 ) 4 = n ( n + 2 ) ∴ Var ( X ) = M X ( 2 ) ( 0 ) − { M X ( 1 ) ( 0 ) } 2 = k θ 2 = n / 2 ⋅ 4 = 2 n \begin{aligned} M^{(2)}_X(t) &=\left(\dfrac{d}{dt}\right)\left(\dfrac{k\theta}{(1-\theta t)^{k+1}}\right) \\[15pt] &=k\theta \cdot \left(\dfrac{d}{dt}\right) \left( (1-\theta t)^{-(k+1)} \right) \\[15pt] &=k\theta \cdot -(k+1)(1-\theta t)^{-(k+2)} \cdot (-\theta) \\[10pt] &=\dfrac{k(1+k)\theta^2}{(1-\theta t)^{k+2}} \\[20pt] M^{(2)}_X(0)&=k(1+k)\theta^2 \\[10pt] &=(n/2)(n+2/2)4\\[10pt] &=n(n+2) \\[20pt] \therefore \text{Var}(X)&=M^{(2)}_X(0)-\left\{M^{(1)}_X(0)\right\}^2 \\[10pt] &=k\theta^2 \\[10pt] &=n/2\cdot 4 \\[10pt] &=2n \end{aligned} M X ( 2 ) ( t ) M X ( 2 ) ( 0 ) ∴ Var ( X ) = ( d t d ) ( ( 1 − θ t ) k + 1 k θ ) = k θ ⋅ ( d t d ) ( ( 1 − θ t ) − ( k + 1 ) ) = k θ ⋅ − ( k + 1 ) ( 1 − θ t ) − ( k + 2 ) ⋅ ( − θ ) = ( 1 − θ t ) k + 2 k ( 1 + k ) θ 2 = k ( 1 + k ) θ 2 = ( n / 2 ) ( n + 2 / 2 ) 4 = n ( n + 2 ) = M X ( 2 ) ( 0 ) − { M X ( 1 ) ( 0 ) } 2 = k θ 2 = n / 2 ⋅ 4 = 2 n
\\[30pt]
3. 성질
정리 3.3
서로 독립인 확률변수 X i , ( i = 1 , 2 , … , n ) X_i,\ (i=1,2,\ldots,n) X i , ( i = 1 , 2 , … , n ) 들이 각각 자유도가 k i k_i k i 인 카이제곱분포를 따르면 그들의 합인 Y = ∑ i = 1 n X i Y=\sum_{i=1}^{n}X_i Y = ∑ i = 1 n X i 는 자유도가 ∑ i = 1 n k i \sum_{i=1}^{n}k_i ∑ i = 1 n k i 인 카이제곱분포를 따른다.
[증명]
M Y ( t ) = E ( e t Y ) = E ( e t X 1 e t X 2 … e t X n ) = M X 1 ( t ) M X 2 ( t ) … M X n ( t ) = ( 1 − 2 t ) − k 1 / 2 … ( 1 − 2 t ) − k n / 2 = ( 1 − 2 t ) − ∑ i = 1 n k i / 2 \begin{aligned} M_Y(t)=E(e^{tY})&=E(e^{tX_1}e^{tX_2}\ldots e^{tX_n}) \\[10pt] &= M_{X_1}(t)M_{X_2}(t)\ldots M_{X_n}(t)\\[10pt] &=(1-2t)^{-k_1/2}\ldots(1-2t)^{-k_n/2} \\[10pt] &=(1-2t)^{-\sum_{i=1}^{n}k_i/2} \end{aligned} M Y ( t ) = E ( e t Y ) = E ( e t X 1 e t X 2 … e t X n ) = M X 1 ( t ) M X 2 ( t ) … M X n ( t ) = ( 1 − 2 t ) − k 1 / 2 … ( 1 − 2 t ) − k n / 2 = ( 1 − 2 t ) − ∑ i = 1 n k i / 2
이 되는데 이는 바로 χ 2 ( ∑ i = 1 n k i ) \chi^2(\sum_{i=1}^{n}k_i) χ 2 ( ∑ i = 1 n k i ) 의 적률생성함수이다. 따라서 다음을 만족한다.
Y = ∑ i = 1 n X i ∼ χ 2 ( ∑ i = 1 n k i ) Y=\sum_{i=1}^{n}X_i\sim \chi^2(\sum_{i=1}^{n}k_i) Y = i = 1 ∑ n X i ∼ χ 2 ( i = 1 ∑ n k i )
\\[20pt]
정리 3.3 에 따라 자유도가 n n n 인 카이제곱 확률변수는 서로 독립인 n n n 개의 자유도가 1인 카이제곱 확률변수의 합으로 표현될 수 있다. 자유도가 커짐에 따라 카이제곱분포의 확률밀도함수가 평균에 대하여 대칭형에 가까워진다. 이는 서로 독립이면서 같은 분포를 갖는 확률변수들의 합이 정규분포로 근사될 수 있다는 중심극한정리와 합치하는 결과이다.
\\[30pt]
정리 3.4
확률변수 Z Z Z 가 N ( 0 , 1 ) N(0,1) N ( 0 , 1 ) 분포를 따를 때, Y = Z 2 Y=Z^2 Y = Z 2 은 χ 2 ( 1 ) \chi^2(1) χ 2 ( 1 ) 의 분포를 가진다.
[증명]
M Z 2 ( t ) = E [ exp ( t Z 2 ) ] = ∫ − ∞ ∞ exp ( t z 2 ) 1 2 π exp ( − z 2 / 2 ) d z = ∫ − ∞ ∞ 1 2 π exp ( t z 2 − z 2 / 2 ) d z = 1 1 − 2 t ∫ − ∞ ∞ 1 − 2 t 2 π exp [ − z 2 ( 1 − 2 t ) / 2 ] d z = ( 1 − 2 t ) − 1 / 2 , t < 1 / 2 \begin{aligned} M_{Z^2}(t) &=E[\exp(tZ^2)] \\[10pt] &=\int_{-\infty}^{\infty}\exp(tz^2)\dfrac{1}{\sqrt{2\pi}}\exp(-z^2/2) dz\\[15pt] &=\int_{-\infty}^{\infty}\dfrac{1}{\sqrt{2\pi}}\exp(tz^2-z^2/2) dz\\[15pt] &=\dfrac{1}{\sqrt{1-2t}}\int_{-\infty}^{\infty}\dfrac{\sqrt{1-2t}}{\sqrt{2\pi}}\exp[-z^2(1-2t)/2] dz\\[15pt] &=(1-2t)^{-1/2}, \quad t<1/2 \end{aligned} M Z 2 ( t ) = E [ exp ( t Z 2 ) ] = ∫ − ∞ ∞ exp ( t z 2 ) 2 π 1 exp ( − z 2 / 2 ) d z = ∫ − ∞ ∞ 2 π 1 exp ( t z 2 − z 2 / 2 ) d z = 1 − 2 t 1 ∫ − ∞ ∞ 2 π 1 − 2 t exp [ − z 2 ( 1 − 2 t ) / 2 ] d z = ( 1 − 2 t ) − 1 / 2 , t < 1 / 2
이 되며 이는 χ 2 ( 1 ) \chi^2(1) χ 2 ( 1 ) 의 적률생성함수이다. 그러므로 Y ∼ χ 2 ( 1 ) Y\sim \chi^2(1) Y ∼ χ 2 ( 1 ) 이다.
\\[30pt]
정리 3.5
서로 독립인 확률변수 X i X_i X i 가 각각 정규분포 N ( μ , σ 2 ) N(\mu,\sigma^2) N ( μ , σ 2 ) 을 따른다면 다음은 자유도가 n n n 인 카이제곱분포를 따른다.
V = ∑ i = 1 k ( X i − μ i σ i ) 2 V=\sum_{i=1}^{k}\left(\dfrac{X_i-\mu_i}{\sigma_i}\right)^2 V = i = 1 ∑ k ( σ i X i − μ i ) 2
위 정리 3.5에 의하면, X i ( i = 1 , … , n ) X_i(i=1,\ldots,n) X i ( i = 1 , … , n ) 들이 정규분포 N ( μ , σ 2 ) N(\mu,\sigma^2) N ( μ , σ 2 ) 으로부터의 랜덤표본일 때 ∑ i = 1 k ( X i − μ i ) 2 / σ i 2 \sum_{i=1}^{k}(X_i-\mu_i)^2/\sigma_i^2 ∑ i = 1 k ( X i − μ i ) 2 / σ i 2 은 자유도가 n n n 인 카이제곱분포를 따른다는 사실을 쉽게 알 수 있다.
예 2.55
확률변수 X X X 가 GAM ( k , θ ) \text{GAM}(k,\theta) GAM ( k , θ ) 을 따른다고 할 때 Y = 2 X / θ Y=2X/ \theta Y = 2 X / θ 는 자유도가 k k k 인 카이제곱분포를 따른다. ( t < 1 / 2 ) (t<1/2) ( t < 1 / 2 )
지수분포의 합은 감마분포를 따르므로 지수분포의 합의 2 X / θ 2X/ \theta 2 X / θ 는 카이제곱분포를 따른다.
M Y ( t ) = E ( e t Y ) = E [ exp ( 2 t θ X ) ] = ⋮ = ( 1 1 − θ ( 2 t / θ ) ) k = ( 1 − 2 t ) − 2 k / 2 , t < 1 / 2 \begin{aligned} M_Y(t)&=E(e^{tY})=E\left[\exp\left(\dfrac{2t}{\theta}X\right)\right] \\ &=\quad\quad\quad \vdots \\ &=\left(\dfrac{1}{1-\theta(2t/\theta)}\right)^k \\[15pt] &=(1-2t)^{-2k/2},\quad t<1/2 \end{aligned} M Y ( t ) = E ( e t Y ) = E [ exp ( θ 2 t X ) ] = ⋮ = ( 1 − θ ( 2 t / θ ) 1 ) k = ( 1 − 2 t ) − 2 k / 2 , t < 1 / 2
Y Y Y 의 mgf ∼ GAM ( k , 2 ) = χ 2 ( 2 k ) \text{mgf}\ \sim \text{GAM}(k,2)= \chi^2(2k) mgf ∼ GAM ( k , 2 ) = χ 2 ( 2 k ) . 즉, Y ∼ χ 2 ( 2 k ) Y\sim \chi^2(2k) Y ∼ χ 2 ( 2 k )