1. 확률밀도함수
X ∼ N ( μ , σ 2 ) X\sim N(\mu,\sigma^2) X ∼ N ( μ , σ 2 ) 일 때 확률밀도함수는 다음과 같다.
f ( x ) = 1 2 π σ exp [ − ( x − μ ) 2 / 2 σ 2 ] ( − ∞ < x < ∞ ) f(x)=\dfrac{1}{\sqrt{2\pi}\sigma}\exp[-(x-\mu)^2/2\sigma^2]\quad (-\infty<x<\infty) f ( x ) = 2 π σ 1 exp [ − ( x − μ ) 2 / 2 σ 2 ] ( − ∞ < x < ∞ )
특징
이와 같은 정규확률변수의 중요한 특징 중 하나는 선형변환을 하여도 역시 정규분포를 만족함.
X ∼ N ( μ , σ 2 ) X~\sim N(\mu,\sigma^2) X ∼ N ( μ , σ 2 ) 일 때, 선형변환된 Y = a X + b Y=aX+b Y = a X + b 의 분포는 다음과 같이 구해진다.F Y ( y ) = P ( Y ≤ y ) = P ( a X + b ≤ y ) = P ( X ≤ y − b a ) = ∫ − ∞ y − b a 1 2 π σ exp [ − ( x − μ ) 2 / 2 σ 2 ] d x = ∫ − ∞ y 1 2 π a σ exp [ − ( t − ( a μ + b ) ) / ( 2 2 a 2 σ 2 ) ] d t ( ∵ t − b a = x ) \begin{aligned} F_Y(y) &=P(Y\leq y) \\[10pt] &=P(aX+b\leq y) \\[10pt] &=P(X\leq \dfrac{y-b}{a}) \\[10pt] &=\int_{-\infty}^{\frac{y-b}{a}}\dfrac{1}{\sqrt{2\pi}\sigma}\exp[-(x-\mu)^2/2\sigma^2]dx \\[10pt] &=\int_{-\infty}^{y}\dfrac{1}{\sqrt{2\pi}a\sigma}\exp[-(t-(a\mu+b))/(2^2a^2\sigma^2)]dt \quad (\because \dfrac{t-b}{a}=x) \\[10pt] \end{aligned} F Y ( y ) = P ( Y ≤ y ) = P ( a X + b ≤ y ) = P ( X ≤ a y − b ) = ∫ − ∞ a y − b 2 π σ 1 exp [ − ( x − μ ) 2 / 2 σ 2 ] d x = ∫ − ∞ y 2 π a σ 1 exp [ − ( t − ( a μ + b ) ) / ( 2 2 a 2 σ 2 ) ] d t ( ∵ a t − b = x ) 따라서 Y Y Y 의 확률밀도함수는f Y ( y ) = ( d / d y ) F Y ( y ) = 1 2 π a σ exp [ − ( y − ( a μ + b ) ) 2 a 2 / ( 2 2 a 2 σ 2 ) ] \begin{aligned} f_Y(y) &=(d/dy)F_Y(y) \\[10pt] &=\dfrac{1}{\sqrt{2\pi}a\sigma}\exp[-(y-(a\mu+b))^2a^2/(2^2a^2\sigma^2)] \\[10pt] \end{aligned} f Y ( y ) = ( d / d y ) F Y ( y ) = 2 π a σ 1 exp [ − ( y − ( a μ + b ) ) 2 a 2 / ( 2 2 a 2 σ 2 ) ] 이므로 Y ∼ N ( a μ + b , a 2 σ 2 ) Y\sim N(a\mu+b,a^2\sigma^2) Y ∼ N ( a μ + b , a 2 σ 2 ) 임을 알 수 있다.
\\[30pt]
2. 기댓값과 분산
X ∼ N ( μ , σ 2 ) X\sim N(\mu,\sigma^2) X ∼ N ( μ , σ 2 ) 일 때 기댓값과 분은 다음과 같다.
1) 기댓값
E ( X ) = ∫ − ∞ ∞ x ⋅ 1 2 π σ exp [ − 1 2 ( x − μ σ ) 2 ] d x = ∫ − ∞ ∞ ( μ + σ z ) ⋅ ϕ ( z ) d z ( ∵ x − b a = z ) = μ ∫ − ∞ ∞ ϕ ( z ) d z + σ ∫ − ∞ ∞ z ϕ ( z ) d z = μ \begin{aligned} E(X) &=\int_{-\infty}^{\infty}x\cdot\dfrac{1}{\sqrt{2\pi}\sigma}\exp\left[-\dfrac{1}{2}\left(\dfrac{x-\mu}{\sigma}\right)^2\right]dx \\[10pt] &=\int_{-\infty}^{\infty}(\mu+\sigma z)\cdot\phi(z)dz \quad (\because \dfrac{x-b}{a}=z) \\[10pt] &=\mu\int_{-\infty}^{\infty}\phi(z)dz+\sigma\int_{-\infty}^{\infty}z\phi(z)dz \\[10pt] &=\mu \end{aligned} E ( X ) = ∫ − ∞ ∞ x ⋅ 2 π σ 1 exp [ − 2 1 ( σ x − μ ) 2 ] d x = ∫ − ∞ ∞ ( μ + σ z ) ⋅ ϕ ( z ) d z ( ∵ a x − b = z ) = μ ∫ − ∞ ∞ ϕ ( z ) d z + σ ∫ − ∞ ∞ z ϕ ( z ) d z = μ
\\[20pt]
2) 분산
E ( X 2 ) = ∫ − ∞ ∞ x 2 ⋅ 1 2 π σ exp [ − 1 2 ( x − μ σ ) 2 ] d x = ∫ − ∞ ∞ ( μ + σ z ) 2 ⋅ ϕ ( z ) d z = μ 2 ∫ − ∞ ∞ ϕ ( z ) d z + 2 μ σ ∫ − ∞ ∞ z ϕ ( z ) d z + σ 2 ∫ − ∞ ∞ z 2 ϕ ( z ) d z = μ 2 + σ 2 ∴ Var ( X ) = μ 2 + σ 2 − μ 2 = σ 2 \begin{aligned} E(X^2) &=\int_{-\infty}^{\infty}x^2\cdot\dfrac{1}{\sqrt{2\pi}\sigma}\exp\left[-\dfrac{1}{2}\left(\dfrac{x-\mu}{\sigma}\right)^2\right]dx \\[15pt] &=\int_{-\infty}^{\infty}(\mu+\sigma z)^2\cdot\phi(z)dz \\[15pt] &=\mu^2\int_{-\infty}^{\infty}\phi(z)dz+2\mu\sigma\int_{-\infty}^{\infty}z\phi(z)dz +\sigma^2\int_{-\infty}^{\infty}z^2\phi(z)dz \\[15pt] &=\mu^2+\sigma^2 \\[20pt] \therefore \text{Var}(X) &=\mu^2+\sigma^2 -\mu^2=\sigma^2 \end{aligned} E ( X 2 ) ∴ Var ( X ) = ∫ − ∞ ∞ x 2 ⋅ 2 π σ 1 exp [ − 2 1 ( σ x − μ ) 2 ] d x = ∫ − ∞ ∞ ( μ + σ z ) 2 ⋅ ϕ ( z ) d z = μ 2 ∫ − ∞ ∞ ϕ ( z ) d z + 2 μ σ ∫ − ∞ ∞ z ϕ ( z ) d z + σ 2 ∫ − ∞ ∞ z 2 ϕ ( z ) d z = μ 2 + σ 2 = μ 2 + σ 2 − μ 2 = σ 2
\\[20pt]
참고σ 2 ∫ − ∞ ∞ z 2 ϕ ( z ) d z = σ 2 ∫ − ∞ ∞ [ ϕ ′ ′ ( z ) + ϕ ′ ( z ) ] d z = σ 2 ∫ − ∞ ∞ ϕ ′ ′ ( z ) d z = ( d 2 / d z 2 ) ∫ − ∞ ∞ ϕ ( z ) d z = 0 \sigma^2\int_{-\infty}^{\infty}z^2\phi(z)dz=\sigma^2\int_{-\infty}^{\infty} [\phi''(z)+\phi'(z)]dz=\sigma^2 \\[15pt] \int_{-\infty}^{\infty}\phi''(z)dz=(d^2/dz^2)\int_{-\infty}^{\infty}\phi(z)dz=0 σ 2 ∫ − ∞ ∞ z 2 ϕ ( z ) d z = σ 2 ∫ − ∞ ∞ [ ϕ ′ ′ ( z ) + ϕ ′ ( z ) ] d z = σ 2 ∫ − ∞ ∞ ϕ ′ ′ ( z ) d z = ( d 2 / d z 2 ) ∫ − ∞ ∞ ϕ ( z ) d z = 0
\\[30pt]
4. 적률생성함수
X ∼ N ( μ , σ 2 ) X\sim N(\mu,\sigma^2) X ∼ N ( μ , σ 2 ) 일 때 적률생성함수는 다음과 같다.
M Z ( t ) = E ( e t x ) = ∫ − ∞ ∞ exp ( t x ) 1 2 π σ exp [ − 1 2 ( x − μ σ ) 2 ] d x = ∫ − ∞ ∞ exp ( t ( μ + σ z ) ) 1 2 π exp ( − z 2 / 2 ) d z ( ∵ z = ( x − μ ) σ ) = e μ t ∫ − ∞ ∞ e σ z 1 2 π exp ( − z 2 / 2 ) d z ( ∵ z = ( x − μ ) σ ) = e μ t M Z ( σ t ) = exp ( μ t + 1 2 σ 2 t 2 ) ( ∵ M Z ( t ) = exp ( t 2 / 2 ) ) \begin{aligned} M_Z(t) &=E(e^{tx}) \\[10pt] &=\int_{-\infty}^{\infty}\exp(tx)\dfrac{1}{\sqrt{2\pi}\sigma}\exp\left[-\dfrac{1}{2}\left(\dfrac{x-\mu}{\sigma}\right)^2\right] dx\\[15pt] &=\int_{-\infty}^{\infty}\exp(t(\mu+\sigma z))\dfrac{1}{\sqrt{2\pi}}\exp(-z^2/2) dz \quad \left(\because z=\dfrac{(x-\mu)}{\sigma}\right)\\[15pt] &=e^{\mu t}\int_{-\infty}^{\infty}e^{\sigma z}\dfrac{1}{\sqrt{2\pi}}\exp(-z^2/2) dz \quad \left(\because z=\dfrac{(x-\mu)}{\sigma}\right)\\[15pt] &=e^{\mu t}M_Z(\sigma t) \\[10pt] &=\exp(\mu t+\dfrac{1}{2}\sigma^2t^2)\quad (\because M_Z(t)=\exp(t^2/2)) \end{aligned} M Z ( t ) = E ( e t x ) = ∫ − ∞ ∞ exp ( t x ) 2 π σ 1 exp [ − 2 1 ( σ x − μ ) 2 ] d x = ∫ − ∞ ∞ exp ( t ( μ + σ z ) ) 2 π 1 exp ( − z 2 / 2 ) d z ( ∵ z = σ ( x − μ ) ) = e μ t ∫ − ∞ ∞ e σ z 2 π 1 exp ( − z 2 / 2 ) d z ( ∵ z = σ ( x − μ ) ) = e μ t M Z ( σ t ) = exp ( μ t + 2 1 σ 2 t 2 ) ( ∵ M Z ( t ) = exp ( t 2 / 2 ) )
따라서 적률생성함수를 활용한 기댓값과 분산은
기댓값M X ( 1 ) ( t ) = ( d d t ) ( exp ( μ t + 1 2 σ 2 t 2 ) ) = exp ( μ t + 1 2 σ 2 t 2 ) ⋅ ( μ + σ 2 t ) ∴ E ( X ) = M X ( 1 ) ( 0 ) = μ \begin{aligned} M^{(1)}_X(t) &=\left(\dfrac{d}{dt}\right)\left(\exp(\mu t+\dfrac{1}{2}\sigma^2t^2)\right)= \exp(\mu t+\dfrac{1}{2}\sigma^2t^2)\cdot (\mu+\sigma^2t)\\[30pt] \therefore E(X) &=M^{(1)}_X(0)=\mu \end{aligned} M X ( 1 ) ( t ) ∴ E ( X ) = ( d t d ) ( exp ( μ t + 2 1 σ 2 t 2 ) ) = exp ( μ t + 2 1 σ 2 t 2 ) ⋅ ( μ + σ 2 t ) = M X ( 1 ) ( 0 ) = μ
\\[20pt]
M X ( 2 ) ( t ) = ( d d t ) ( exp ( μ t + 1 2 σ 2 t 2 ) ⋅ ( μ + σ 2 t ) ) = exp ( μ t + 1 2 σ 2 t 2 ) ⋅ [ ( μ + σ 2 t ) 2 + σ 2 ] M X ( 2 ) ( 0 ) = μ 2 + σ 2 ∴ Var ( X ) = M X ( 2 ) ( 0 ) − { M X ( 1 ) ( 0 ) } 2 = σ 2 \begin{aligned} M^{(2)}_X(t) &=\left(\dfrac{d}{dt}\right)\left(\exp(\mu t+\dfrac{1}{2}\sigma^2t^2)\cdot (\mu+\sigma^2t)\right) = \exp(\mu t+\dfrac{1}{2}\sigma^2t^2)\cdot [(\mu+\sigma^2t)^2+\sigma^2] \\[20pt] M^{(2)}_X(0)&=\mu^2+\sigma^2 \\[20pt] \therefore \text{Var}(X)&=M^{(2)}_X(0)-\left\{M^{(1)}_X(0)\right\}^2=\sigma^2 \end{aligned} M X ( 2 ) ( t ) M X ( 2 ) ( 0 ) ∴ Var ( X ) = ( d t d ) ( exp ( μ t + 2 1 σ 2 t 2 ) ⋅ ( μ + σ 2 t ) ) = exp ( μ t + 2 1 σ 2 t 2 ) ⋅ [ ( μ + σ 2 t ) 2 + σ 2 ] = μ 2 + σ 2 = M X ( 2 ) ( 0 ) − { M X ( 1 ) ( 0 ) } 2 = σ 2
\\[30pt]
6. 표본분포의 근사
X ∼ N ( μ , σ 2 ) X\sim N(\mu,\sigma^2) X ∼ N ( μ , σ 2 ) 으로부터 랜덤표본 X 1 , X 2 , … , X n X_1,X_2,\ldots,X_n X 1 , X 2 , … , X n 을 구했을 때 표본평균과 표본분산은 다음과 같다.
표본평균
E ( X ˉ n ) = μ , Var ( X ˉ n ) = σ 2 n ( X ˉ n = 1 n ∑ i = 1 n X i ) E(\bar{X}_n)=\mu,\quad \text{Var}(\bar{X}_n)=\dfrac{\sigma^2}{n} \\[15pt] (\bar{X}_n=\dfrac{1}{n}\sum_{i=1}^{n}X_i) E ( X ˉ n ) = μ , Var ( X ˉ n ) = n σ 2 ( X ˉ n = n 1 i = 1 ∑ n X i )
\\[20pt]
표본분산
E ( S n 2 ) = σ 2 , ( S n 2 = 1 n − 1 ∑ i = 1 n ( X − X ˉ n ) 2 ) E(S_n^2)=\sigma^2,\quad (S_n^2=\dfrac{1}{n-1}\sum_{i=1}^{n}(X-\bar{X}_n)^2) E ( S n 2 ) = σ 2 , ( S n 2 = n − 1 1 i = 1 ∑ n ( X − X ˉ n ) 2 )
\\[20pt]
1) 대수의 법칙
X ∼ N ( μ , σ 2 ) X\sim N(\mu,\sigma^2) X ∼ N ( μ , σ 2 ) 으로부터 랜덤표본 X 1 , X 2 , … , X n X_1,X_2,\ldots,X_n X 1 , X 2 , … , X n 을 구했을 때 표본평균은 모평균에 확률적으로 수렴한다.
X ˉ n → p μ \bar{X}_n \xrightarrow{p}\mu X ˉ n p μ
\\[20pt]
∵ P [ ∣ X n ˉ − μ ∣ < ϵ ] = P [ ∣ X n ˉ − μ ∣ 2 < ϵ 2 ] ≥ 1 − E ( X n ˉ − μ ) 2 ϵ 2 = 1 − σ 2 / n ϵ 2 → 1 \begin{aligned} \because \quad P[|\bar{X_n}-\mu|<\epsilon] &=P[|\bar{X_n}-\mu|^2<\epsilon^2] \\[10pt] &\ge 1-\dfrac{E(\bar{X_n}-\mu)^2}{\epsilon^2} \\[10pt] &= 1-\dfrac{\sigma^2/n}{\epsilon^2}\rightarrow1 \end{aligned} ∵ P [ ∣ X n ˉ − μ ∣ < ϵ ] = P [ ∣ X n ˉ − μ ∣ 2 < ϵ 2 ] ≥ 1 − ϵ 2 E ( X n ˉ − μ ) 2 = 1 − ϵ 2 σ 2 / n → 1
\\[20pt]
2) 중심극한정리
X ∼ N ( μ , σ 2 ) X\sim N(\mu,\sigma^2) X ∼ N ( μ , σ 2 ) 으로부터 랜덤표본 X 1 , X 2 , … , X n X_1,X_2,\ldots,X_n X 1 , X 2 , … , X n 을 구했을 때 n n n 이 증가함에 따라 (표준)정규분포로 분포수렴한다.
Z n = n ( X ˉ n − μ ) → d N ( 0 , σ 2 ) Z n = ( X ˉ n − μ ) σ 2 / n → d N ( 0 , 1 ) Z n = ∑ i = 1 n ( X i − μ ) n σ → d N ( 0 , 1 ) \begin{aligned} Z_n&=\sqrt{n}(\bar{X}_n-\mu)\xrightarrow{d}N(0,\ \sigma^2) \\[20pt] Z_n&=\dfrac{(\bar{X}_n-\mu)}{\sqrt{\sigma^2/n}}\xrightarrow{d}N(0,\ 1) \\[20pt] Z_n&=\dfrac{\sum_{i=1}^{n}(X_i-\mu)}{\sqrt{n}\sigma}\xrightarrow{d}N(0,\ 1) \end{aligned} Z n Z n Z n = n ( X ˉ n − μ ) d N ( 0 , σ 2 ) = σ 2 / n ( X ˉ n − μ ) d N ( 0 , 1 ) = n σ ∑ i = 1 n ( X i − μ ) d N ( 0 , 1 )
\\[20pt]
3) 델타방법
확률변수 열 X 1 , X 2 , … , X n , … X_1,X_2,\ldots,X_n,\ldots X 1 , X 2 , … , X n , … 이 중심극한정리를 만족한다면
n ( X ˉ n − μ ) → d N ( 0 , σ 2 ) \sqrt{n}(\bar{X}_n-\mu)\xrightarrow{d}N(0,\ \sigma^2) n ( X ˉ n − μ ) d N ( 0 , σ 2 )
이때 확률변수의 함수 g ( μ ) g(\mu) g ( μ ) 의 연속인 도함수 g ′ ( μ ) g'(\mu) g ′ ( μ ) 가 존재하고 0이 아니면
n ( g ( X n ) − g ( μ ) ) → d N ( 0 , σ 2 [ g ′ ( μ ) ] 2 ) \sqrt{n}(g(X_n)-g(\mu))\xrightarrow{d}N(0,\sigma^2[g'(\mu)]^2) n ( g ( X n ) − g ( μ ) ) d N ( 0 , σ 2 [ g ′ ( μ ) ] 2 )
이 성립하며 이를 델타 방법이라한다.
이제 함수 g ( x ) = x 2 g(x)=x^2 g ( x ) = x 2 를 고려하면 g ( μ ) = μ 2 g(\mu)=\mu^2 g ( μ ) = μ 2 , σ 2 = σ 2 \sigma^2=\sigma^2 σ 2 = σ 2 , g ′ ( λ ) = 2 μ g'(\lambda)=2\mu g ′ ( λ ) = 2 μ 이므로
n ( X ˉ n 2 − μ 2 ) → d N ( 0 , 4 μ 2 σ 2 ) \sqrt{n}(\bar{X}_n^2-\mu^2)\xrightarrow{d}N(0,4\mu^2\sigma^2) n ( X ˉ n 2 − μ 2 ) d N ( 0 , 4 μ 2 σ 2 )
\\[30pt]
7. 추정량
1) 적률 추정량
X ∼ N ( μ , σ 2 ) X\sim N(\mu,\sigma^2) X ∼ N ( μ , σ 2 ) 으로부터 랜덤표본 X 1 , … , X n X_1,\ldots,X_n X 1 , … , X n 을 구했을 때, μ \mu μ 와 σ 2 \sigma^2 σ 2 을 적률을 사용하는 방법으로 추정.
1) μ ^ \hat{\mu} μ ^ 추정
m 1 ′ = μ 1 ′ ( μ , σ 2 ) = μ → ∑ i = 1 n X i 1 / n = μ ^ ∴ μ ^ = X ˉ n \begin{aligned} m_1'&=\mu_1'(\mu,\sigma^2)=\mu \\[10pt] \rightarrow \sum_{i=1}^{n}X_i^1/n &= \hat{\mu} \\[15pt] \therefore \hat{\mu} &= \bar{X}_n \end{aligned} m 1 ′ → i = 1 ∑ n X i 1 / n ∴ μ ^ = μ 1 ′ ( μ , σ 2 ) = μ = μ ^ = X ˉ n
2) σ ^ 2 \hat{\sigma}^2 σ ^ 2 추정
m 2 ′ = μ 2 ′ ( μ , σ 2 ) = μ 2 + σ 2 → ∑ i = 1 n X i 2 / n = μ ^ 2 + σ ^ 2 ∴ σ ^ 2 = ∑ i = 1 n X i 2 / n − μ ^ 2 = ∑ i = 1 n X i 2 / n − ( X ˉ n ) 2 ( ∵ μ ^ = X ˉ n ) = ∑ i = 1 n X i 2 − n ( X ˉ n ) 2 n = ∑ i = 1 n X i 2 − ∑ i = 1 n ( X ˉ n ) 2 n = ∑ i = 1 n ( X i − X ˉ n ) 2 n ( ∵ E [ X 2 ] − [ E [ X ] ] 2 = E [ X − E ( X ) ] 2 ) \begin{aligned} m_2'&=\mu_2'(\mu,\sigma^2)=\mu^2+\sigma^2 \\[10pt] \rightarrow \sum_{i=1}^{n}X_i^2/n &= \hat{\mu}^2 + \hat{\sigma}^2\\[10pt] \therefore \hat{\sigma}^2 &= \sum_{i=1}^{n}X_i^2/n - \hat{\mu}^2 \\[15pt] &=\sum_{i=1}^{n}X_i^2/n-\left(\bar{X}_n\right)^2 \quad \left(\because\ \hat{\mu}=\bar{X}_n\right) \\[15pt] &=\dfrac{\sum_{i=1}^{n}X_i^2-n\left(\bar{X}_n\right)^2}{n} \\[10pt] &=\dfrac{\sum_{i=1}^{n}X_i^2-\sum_{i=1}^{n}\left(\bar{X}_n\right)^2}{n} \\[10pt] &=\dfrac{\sum_{i=1}^{n}\left(X_i-\bar{X}_n\right)^2}{n} \quad \left(\because\ E[X^2]-[E[X]]^2=E[X-E(X)]^2\right) \end{aligned} m 2 ′ → i = 1 ∑ n X i 2 / n ∴ σ ^ 2 = μ 2 ′ ( μ , σ 2 ) = μ 2 + σ 2 = μ ^ 2 + σ ^ 2 = i = 1 ∑ n X i 2 / n − μ ^ 2 = i = 1 ∑ n X i 2 / n − ( X ˉ n ) 2 ( ∵ μ ^ = X ˉ n ) = n ∑ i = 1 n X i 2 − n ( X ˉ n ) 2 = n ∑ i = 1 n X i 2 − ∑ i = 1 n ( X ˉ n ) 2 = n ∑ i = 1 n ( X i − X ˉ n ) 2 ( ∵ E [ X 2 ] − [ E [ X ] ] 2 = E [ X − E ( X ) ] 2 )
\\[20pt]
2) 최대가능도 추정량
X ∼ N ( μ , σ 2 ) X\sim N(\mu,\sigma^2) X ∼ N ( μ , σ 2 ) 으로부터 랜덤표본 X 1 , X 2 , … , X n X_1,X_2,\ldots,X_n X 1 , X 2 , … , X n 을 구했을 때, μ \mu μ 와 σ 2 \sigma^2 σ 2 의 최대가능도 추정량은 로그 가능도함수의 미분을 이용하여 다음과 같이 구한다.
우선 가능도함수는
L ( μ , σ 2 ; x 1 , x 2 , … , x n ) = ∏ i = 1 n f ( x i ; μ , σ 2 ) = 1 ( 2 π σ 2 ) n / 2 exp [ ∑ i = 1 n ( x i − μ ) 2 / 2 σ 2 ] \begin{aligned} L(\mu,\sigma^2;x_1,x_2,\ldots,x_n)&=\prod_{i=1}^{n}f(x_i;\mu,\sigma^2)\\[10pt] &=\dfrac{1}{(2\pi\sigma^2)^{n/2}}\exp\left[\sum_{i=1}^{n}(x_i-\mu)^2/2\sigma^2\right] \end{aligned} L ( μ , σ 2 ; x 1 , x 2 , … , x n ) = i = 1 ∏ n f ( x i ; μ , σ 2 ) = ( 2 π σ 2 ) n / 2 1 exp [ i = 1 ∑ n ( x i − μ ) 2 / 2 σ 2 ]
가 되며, 로그가능도함수는
log L ( μ , σ 2 ; x 1 , x 2 , … , x n ) = log { 1 ( 2 π σ 2 ) n / 2 } + log { exp [ ∑ i = 1 n ( x i − μ ) 2 / 2 σ 2 ] } = − ( n / 2 ) log ( 2 π σ 2 ) − ∑ i = 1 n ( x i − μ ) 2 / 2 σ 2 \begin{aligned} \text{log}L(\mu,\sigma^2;x_1,x_2,\ldots,x_n) &=\text{log}\left\{\dfrac{1}{(2\pi\sigma^2)^{n/2}}\right\}+ \text{log}\left\{\exp\left[\sum_{i=1}^{n}(x_i-\mu)^2/2\sigma^2\right]\right\}\\ &=-(n/2)\text{log}(2\pi\sigma^2) - \sum_{i=1}^{n}(x_i-\mu)^2/2\sigma^2 \end{aligned} log L ( μ , σ 2 ; x 1 , x 2 , … , x n ) = log { ( 2 π σ 2 ) n / 2 1 } + log { exp [ i = 1 ∑ n ( x i − μ ) 2 / 2 σ 2 ] } = − ( n / 2 ) log ( 2 π σ 2 ) − i = 1 ∑ n ( x i − μ ) 2 / 2 σ 2
가 된다. 이 로그가능도함수를 최대화하기 위해 각각 ( μ , σ 2 ) (\mu,\sigma^2) ( μ , σ 2 ) 로 미분한 후
1 ) d d μ log L ( μ , σ 2 ; x 1 , x 2 , … , x n ) = d d μ { − ( n / 2 ) log ( 2 π σ 2 ) − ∑ i = 1 n ( x i − μ ) 2 / 2 σ 2 } = − ∑ i = 1 n ( x i − μ ) σ 2 (1) \begin{aligned} 1)\quad \dfrac{d}{d\mu}\text{log}L(\mu,\sigma^2;x_1,x_2,\ldots,x_n) &=\dfrac{d}{d\mu}\{ -(n/2)\text{log}(2\pi\sigma^2) - \sum_{i=1}^{n}(x_i-\mu)^2/2\sigma^2\} \\[10pt] &=-\sum_{i=1}^{n}\dfrac{(x_i-\mu)}{\sigma^2} \end{aligned} \tag{1} 1 ) d μ d log L ( μ , σ 2 ; x 1 , x 2 , … , x n ) = d μ d { − ( n / 2 ) log ( 2 π σ 2 ) − i = 1 ∑ n ( x i − μ ) 2 / 2 σ 2 } = − i = 1 ∑ n σ 2 ( x i − μ ) ( 1 )
\\[20pt]
2 ) d d σ 2 log L ( μ , σ 2 ; x 1 , x 2 , … , x n ) = d d μ { − ( n / 2 ) log ( 2 π σ 2 ) − ∑ i = 1 n ( x i − μ ) 2 / 2 σ 2 } = − n 2 2 π 2 π σ 2 − 2 ⋅ ∑ i = 1 n ( x i − μ ) 2 4 σ 4 = − n 2 σ 2 + ∑ i = 1 n ( x i − μ ) 2 2 σ 4 (2) \begin{aligned} 2)\quad \dfrac{d}{d\sigma^2}\text{log}L(\mu,\sigma^2;x_1,x_2,\ldots,x_n) &=\dfrac{d}{d\mu}\{ -(n/2)\text{log}(2\pi\sigma^2) - \sum_{i=1}^{n}(x_i-\mu)^2/2\sigma^2\} \\[10pt] &=-\dfrac{n}{2}\dfrac{2\pi}{2\pi\sigma^2}-\dfrac{2\cdot\sum_{i=1}^{n}(x_i-\mu)^2}{4\sigma^4} \\[10pt] &=-\dfrac{n}{2\sigma^2}+\dfrac{\sum_{i=1}^{n}(x_i-\mu)^2}{2\sigma^4} \tag{2} \end{aligned} 2 ) d σ 2 d log L ( μ , σ 2 ; x 1 , x 2 , … , x n ) = d μ d { − ( n / 2 ) log ( 2 π σ 2 ) − i = 1 ∑ n ( x i − μ ) 2 / 2 σ 2 } = − 2 n 2 π σ 2 2 π − 4 σ 4 2 ⋅ ∑ i = 1 n ( x i − μ ) 2 = − 2 σ 2 n + 2 σ 4 ∑ i = 1 n ( x i − μ ) 2 ( 2 )
두 연립방정식의 해를 구하여 μ , σ 2 \mu,\sigma^2 μ , σ 2 의 최대가능도 추정량을 계산한다.
1 ) d d μ log L ( μ , σ 2 ; x 1 , x 2 , … , x n ) = ∑ i = 1 n ( x i − μ ) σ 2 = 0 = ∑ i = 1 n ( x i − μ ) = 0 = n μ = ∑ i = 1 n x i ∴ μ = X n ˉ \begin{aligned} 1)\quad \dfrac{d}{d\mu}\text{log}L(\mu,\sigma^2;x_1,x_2,\ldots,x_n) &=\sum_{i=1}^{n}\dfrac{(x_i-\mu)}{\sigma^2}=0 \\[10pt] &=\sum_{i=1}^{n}(x_i-\mu)=0 \\[10pt] &= n\mu=\sum_{i=1}^{n}x_i \\[15pt] &\therefore \mu= \bar{X_n} \end{aligned} 1 ) d μ d log L ( μ , σ 2 ; x 1 , x 2 , … , x n ) = i = 1 ∑ n σ 2 ( x i − μ ) = 0 = i = 1 ∑ n ( x i − μ ) = 0 = n μ = i = 1 ∑ n x i ∴ μ = X n ˉ
\\[20pt]
2 ) d d σ 2 log L ( μ , σ 2 ; x 1 , x 2 , … , x n ) = − n 2 σ 2 + ∑ i = 1 n ( x i − μ ) 2 2 σ 4 = 0 = ∑ i = 1 n ( x i − μ ) 2 2 σ 4 = n 2 σ 2 = ∑ i = 1 n ( x i − μ ) 2 = n σ 2 ∴ σ 2 = ∑ i = 1 n ( X i − X ˉ ) 2 / n \begin{aligned} 2)\quad \dfrac{d}{d\sigma^2}\text{log}L(\mu,\sigma^2;x_1,x_2,\ldots,x_n) &=-\dfrac{n}{2\sigma^2}+\dfrac{\sum_{i=1}^{n}(x_i-\mu)^2}{2\sigma^4}=0 \\[10pt] &=\dfrac{\sum_{i=1}^{n}(x_i-\mu)^2}{2\sigma^4}=\dfrac{n}{2\sigma^2} \\[10pt] &=\sum_{i=1}^{n}(x_i-\mu)^2=n\sigma^2 \\[10pt] &\therefore \sigma^2 = \sum_{i=1}^{n}(X_i-\bar{X})^2/n \end{aligned} 2 ) d σ 2 d log L ( μ , σ 2 ; x 1 , x 2 , … , x n ) = − 2 σ 2 n + 2 σ 4 ∑ i = 1 n ( x i − μ ) 2 = 0 = 2 σ 4 ∑ i = 1 n ( x i − μ ) 2 = 2 σ 2 n = i = 1 ∑ n ( x i − μ ) 2 = n σ 2 ∴ σ 2 = i = 1 ∑ n ( X i − X ˉ ) 2 / n
따라서 최대 가능도 추정량은 다음과 같다.
( μ , σ 2 ) = ( X n ˉ , ∑ i = 1 n ( X i − X ˉ ) 2 / n ) (\mu,\sigma^2)=\left(\bar{X_n},\ \sum_{i=1}^{n}(X_i-\bar{X})^2/n\right) ( μ , σ 2 ) = ( X n ˉ , i = 1 ∑ n ( X i − X ˉ ) 2 / n )
\\[30pt]
최대가능도 추정량의 불변성
정규분포에서 얻어진 랜덤표본으로 표준편차 σ \sigma σ 의 최대가능도 추정량을 구할 때, σ 2 \sigma^2 σ 2 을 모수로 두는 것이 미분이 좀 더 쉽다고 한다면 σ 2 \sigma^2 σ 2 의 최대가능도를 먼저 구하고, 여기에 제곱근을 취하여 σ \sigma σ 의 최대가능도 추정량을 구할 수 있다.
정규분포로부터 σ 2 \sigma^2 σ 2 의 최대가능도 추정량은 σ ^ 2 = ∑ i = 1 n ( X i − X ˉ n ) / n \hat{\sigma}^2=\sum_{i=1}^{n}(X_i-\bar{X}_n)/n σ ^ 2 = ∑ i = 1 n ( X i − X ˉ n ) / n 이다. 이제 g ( σ 2 ) = σ g(\sigma^2)=\sigma g ( σ 2 ) = σ 의 최대가능도 추정량은
g ( σ ^ 2 ) = σ ^ = ∑ i = 1 n ( X i − X ˉ n ) / n g(\hat{\sigma}^2)=\hat{\sigma}=\sqrt{\sum_{i=1}^{n}(X_i-\bar{X}_n)/n} g ( σ ^ 2 ) = σ ^ = i = 1 ∑ n ( X i − X ˉ n ) / n
이다.
\\[30pt]
8. 좋은 추정량 조건
최대가능도 추정량인 경우만 고려하였다.
1) 비편향추정량
X 1 , X 2 , … , X n X_1,X_2,\ldots,X_{n} X 1 , X 2 , … , X n 을 N ( μ , σ 2 ) N(\mu,\sigma^2) N ( μ , σ 2 ) 으로부터 얻은 랜덤표본이라고 할 때 최대가능도 추정량의 기댓값은 E [ X ˉ n ] = μ E[\bar{X}_n]=\mu E [ X ˉ n ] = μ 이므로 이 추정량은 비편향추정량이다.
E [ T ( X ) ] − g ( μ ) = E [ X ˉ n ] − μ = μ − μ = 0 \begin{aligned} E[T(X)]-g(\mu) &=E[\bar{X}_n]-\mu \\[5pt] &=\mu-\mu \\[5pt] &=0 \end{aligned} E [ T ( X ) ] − g ( μ ) = E [ X ˉ n ] − μ = μ − μ = 0
E ( X ˉ n ) = E ( 1 n ∑ i = 1 n X i ) = 1 n { ∑ i = 1 n E ( X i ) } = 1 n ⋅ n ⋅ E ( X ) = μ \begin{aligned} E(\bar{X}_{n})&=E(\dfrac{1}{n}\sum_{i=1}^{n}X_i) \\[15pt] &=\dfrac{1}{n}\left\{\sum_{i=1}^{n}E(X_i)\right\} \\[15pt] &=\dfrac{1}{n}\cdot n\cdot E(X)=\mu \end{aligned} E ( X ˉ n ) = E ( n 1 i = 1 ∑ n X i ) = n 1 { i = 1 ∑ n E ( X i ) } = n 1 ⋅ n ⋅ E ( X ) = μ
\\[20pt]
2) 최소분산 비편향추정량
2-1. 크래머-라오 방법
X ∼ N ( μ , σ 2 ) X\sim N(\mu,\sigma^2) X ∼ N ( μ , σ 2 ) 으로부터 랜덤표본 X 1 , X 2 , … , X n X_1,X_2,\ldots,X_n X 1 , X 2 , … , X n 을 구했을 때 비편향 추정량인 최대 가능도 추정량의 분산에 대한 부등식은 다음과 같이 주어진다.
Var ( X ˉ n ) ≥ [ g ′ ( μ ) ] 2 n I ( μ ) \text{Var}(\bar{X}_n)\ge\dfrac{[g'(\mu)]^2}{nI(\mu)} Var ( X ˉ n ) ≥ n I ( μ ) [ g ′ ( μ ) ] 2
T ( X ) T(X) T ( X ) 가 g ( θ ) g(\theta) g ( θ ) 형태가 아닌 θ \theta θ 의 비편향추정량이라고 한다면 위 정리로부터
Var ( X ˉ n ) ≥ 1 n I ( μ ) \text{Var}(\bar{X}_n)\ge\dfrac{1}{nI(\mu)} Var ( X ˉ n ) ≥ n I ( μ ) 1
을 얻을 수 있다. 그러므로 어떤 비편향추정량 X ˉ n \bar{X}_n X ˉ n 의 분산이 1 n I ( μ ) \dfrac{1}{nI(\mu)} n I ( μ ) 1 이라면 이 추정량은 μ \mu μ 의 최소분산 비편향추정량이다.
\\[10pt]
이 때 피셔의 정보량 I ( θ ) I(\theta) I ( θ ) 은 다음과 같고
I ( θ ) = E [ ( ∂ ∂ θ log f ( X ; θ ) ) 2 ] = − E [ ( ∂ 2 ∂ θ 2 log f ( X ; θ ) ) ] I(\theta)=E\left[\left(\dfrac{\partial}{\partial\theta}\text{log }f(X;\theta)\right)^2\right]=-E\left[\left(\dfrac{\partial^2}{\partial\theta^2}\text{log }f(X;\theta)\right)\right] I ( θ ) = E [ ( ∂ θ ∂ log f ( X ; θ ) ) 2 ] = − E [ ( ∂ θ 2 ∂ 2 log f ( X ; θ ) ) ]
우선 ( ∂ ∂ μ log f ( X ; μ ) ) 2 \left(\dfrac{\partial}{\partial \mu}\text{log }f(X;\mu)\right)^2 ( ∂ μ ∂ log f ( X ; μ ) ) 2 계산을 하면
f ( X ; μ ) = ( 2 π σ 0 ) − 1 exp [ − 1 2 ⋅ ( X − μ σ 0 ) 2 ] log f ( X ; μ ) = log ( 2 π σ 0 ) − 1 + [ − 1 2 ⋅ ( X − μ σ 0 ) 2 ] ∂ ∂ μ log f ( X ; μ ) = [ − 2 ⋅ 1 2 ⋅ ( X − μ σ 0 ) ] ( X − μ σ 0 ) ′ = X − μ σ 0 2 \begin{aligned} f(X;\mu) &=(\sqrt{2\pi}\sigma_0)^{-1}\exp\left[-\dfrac{1}{2}\cdot\left(\dfrac{X-\mu}{\sigma_0}\right)^2\right] \\[15pt] \text{log }f(X;\mu) &=\text{log }(\sqrt{2\pi}\sigma_0)^{-1}+\left[-\dfrac{1}{2}\cdot\left(\dfrac{X-\mu}{\sigma_0}\right)^2\right] \\[15pt] \dfrac{\partial}{\partial\mu}\text{log }f(X;\mu) &=\left[-2\cdot\dfrac{1}{2}\cdot\left(\dfrac{X-\mu}{\sigma_0}\right)\right]\left(\dfrac{X-\mu}{\sigma_0}\right)^{'} \\[15pt] &=\dfrac{X-\mu}{\sigma_0^2} \end{aligned} f ( X ; μ ) log f ( X ; μ ) ∂ μ ∂ log f ( X ; μ ) = ( 2 π σ 0 ) − 1 exp [ − 2 1 ⋅ ( σ 0 X − μ ) 2 ] = log ( 2 π σ 0 ) − 1 + [ − 2 1 ⋅ ( σ 0 X − μ ) 2 ] = [ − 2 ⋅ 2 1 ⋅ ( σ 0 X − μ ) ] ( σ 0 X − μ ) ′ = σ 0 2 X − μ
따라서
I ( μ ) = E [ ( ∂ ∂ μ log f ( X ; μ ) ) 2 ] = E [ X − μ σ 0 2 ] 2 = E [ X − μ ] 2 σ 0 4 = σ 0 2 σ 0 4 = 1 σ 0 2 \begin{aligned} I(\mu) &=E\left[\left(\dfrac{\partial}{\partial\mu}\text{log }f(X;\mu)\right)^2\right] \\[15pt] &=E\left[\dfrac{X-\mu}{\sigma_0^2}\right]^2 \\[15pt] &=\dfrac{E\left[X-\mu\right]^2}{\sigma_0^4} \\[15pt] &=\dfrac{\sigma_0^2}{\sigma_0^4} \\[15pt] &=\dfrac{1}{\sigma_0^2} \end{aligned} I ( μ ) = E [ ( ∂ μ ∂ log f ( X ; μ ) ) 2 ] = E [ σ 0 2 X − μ ] 2 = σ 0 4 E [ X − μ ] 2 = σ 0 4 σ 0 2 = σ 0 2 1
이다. 그러므로
Var ( X ˉ n ) = 1 n I ( μ ) = σ 2 / n \text{Var}(\bar{X}_n)=\dfrac{1}{nI(\mu)}=\sigma^2/n Var ( X ˉ n ) = n I ( μ ) 1 = σ 2 / n 이므로 표본평균 X ˉ n \bar{X}_n X ˉ n 는 최소분산 비편향추정량이다.
\\[20pt]
3) 일치추정량
추정량이 일치성을 가질 조건을 평균제곱오차를 이용하여 표현할 수 있다.
T n ( X ) T_n(X) T n ( X ) 를 g ( θ ) g(\theta) g ( θ ) 의 추정량이라고 할 때, 모든 θ ∈ Ω \theta\in\Omega θ ∈ Ω 에 대하여
lim n → ∞ E [ T n ( X ) − g ( θ ) ] 2 = 0 \lim_{n\rightarrow\infty}E[T_n(X)-g(\theta)]^2=0 n → ∞ lim E [ T n ( X ) − g ( θ ) ] 2 = 0
이 성립하면, T n ( X ) T_n(X) T n ( X ) 는 일치성이 있다고 볼볼 수 있다. 그런데 이 때
MSE ( T n ) = Var ( T n ) + [ E ( T n ) − g ( θ ) ] 2 \text{MSE}(T_n)=\text{Var}(T_n)+[E(T_n)-g(\theta)]^2 MSE ( T n ) = Var ( T n ) + [ E ( T n ) − g ( θ ) ] 2
이므로 T n T_n T n 이 g ( θ ) g(\theta) g ( θ ) 의 비편향추정량인 경우 lim n → ∞ Var ( T n ) = 0 \lim_{n\rightarrow\infty}\text{Var}(T_n)=0 lim n → ∞ Var ( T n ) = 0 이 성립하면 추정량 T n T_n T n 의 일치성이 보장된다. (정리 4.9 참조)
X ∼ N ( μ , σ 2 ) X\sim N(\mu,\sigma^2) X ∼ N ( μ , σ 2 ) 으로부터 랜덤표본 X 1 , X 2 , … , X n X_1,X_2,\ldots,X_n X 1 , X 2 , … , X n 을 구했을 때 최대가능도 추정량 X ˉ n \bar{X}_n X ˉ n 은 비편향추정량이므로 MSE \text{MSE} MSE 는 0이다. 또한 n n n 이 증가할 때 Var ( X ˉ n ) \text{Var}(\bar{X}_n) Var ( X ˉ n ) 는
lim n → ∞ Var ( X ˉ n ) = lim n → ∞ σ 2 n = 0 \lim_{n\rightarrow\infty}\text{Var}(\bar{X}_n)=\lim_{n\rightarrow\infty}\dfrac{\sigma^2}{n}=0 n → ∞ lim Var ( X ˉ n ) = n → ∞ lim n σ 2 = 0
으로
MSE ( X ˉ n ) = Var ( X ˉ n ) = 0 \text{MSE}(\bar{X}_n)=\text{Var}(\bar{X}_n)=0 MSE ( X ˉ n ) = Var ( X ˉ n ) = 0
이므로 X ˉ n \bar{X}_n X ˉ n 는 일치추정량이다.
\\[30pt]
9. 구간추정
X ∼ N ( μ , σ 2 ) X\sim N(\mu,\sigma^2) X ∼ N ( μ , σ 2 ) 으로부터 랜덤표본 X 1 , X 2 , … , X n X_1,X_2,\ldots,X_n X 1 , X 2 , … , X n 을 구했을 때 다음과 같이 신뢰구간을 중심극한정리를 이용하여 다음과 같이 근사적으로 구할 수 있다.
1) 정규분포의 모평균에 대한 신뢰구간
모분산이 알려진 경우
n ( X ˉ n − μ ) / σ \sqrt{n}(\bar{X}_n-\mu)/\sigma n ( X ˉ n − μ ) / σ 의 분포는 N ( 0 , 1 ) N(0,1) N ( 0 , 1 ) 으로서 모수에 의존하지 않으므로 추축변량임.
P [ − z α / 2 ≤ n ( X ˉ n − μ ) σ ≤ z α / 2 ] = P [ X ˉ n − z α / 2 σ n ≤ μ ≤ X ˉ n + z α / 2 σ n ] = 1 − α \begin{aligned} P&\left[-z_{\alpha/2}\le \dfrac{\sqrt{n}(\bar{X}_n-\mu)}{\sigma}\le z_{\alpha/2}\right] \\[15pt] =P&\left[\bar{X}_n-z_{\alpha/2}\dfrac{\sigma}{\sqrt{n}} \le \mu\le \bar{X}_n+z_{\alpha/2}\dfrac{\sigma}{\sqrt{n}} \right] \\[15pt] =1&-\alpha \end{aligned} P = P = 1 [ − z α / 2 ≤ σ n ( X ˉ n − μ ) ≤ z α / 2 ] [ X ˉ n − z α / 2 n σ ≤ μ ≤ X ˉ n + z α / 2 n σ ] − α
\\[30pt]
모분산이 알려져 있지 않은 경우
모분산을 아는 경우와 달리 σ 2 \sigma^2 σ 2 에 의존하기 때문에 사용할 수 없다. 따라서 S n 2 = ∑ i = 1 n ( X i − X ˉ n ) 2 / ( n − 1 ) S_n^2=\sum_{i=1}^{n}(X_i-\bar{X}_n)^2/(n-1) S n 2 = ∑ i = 1 n ( X i − X ˉ n ) 2 / ( n − 1 ) 으로 추정한 추축변량 n ( X ˉ n − μ ) / S n \sqrt{n}(\bar{X}_n-\mu)/S_n n ( X ˉ n − μ ) / S n 이 자유도가 ( n − 1 ) (n-1) ( n − 1 ) 인 t t t 분포를 가지는 점을 이용하여 다음과 같이 구한다.
P [ − t α / 2 ( n − 1 ) ≤ n ( X ˉ n − μ ) S n ≤ t α / 2 ( n − 1 ) ] = P [ X ˉ n − t α / 2 ( n − 1 ) σ n ≤ μ ≤ X ˉ n + t α / 2 ( n − 1 ) σ n ] = 1 − α \begin{aligned} P&\left[-t_{\alpha/2}(n-1)\le \dfrac{\sqrt{n}(\bar{X}_n-\mu)}{S_n}\le t_{\alpha/2}(n-1)\right] \\[15pt] =P&\left[\bar{X}_n-t_{\alpha/2}(n-1)\dfrac{\sigma}{\sqrt{n}} \le \mu\le \bar{X}_n+t_{\alpha/2}(n-1)\dfrac{\sigma}{\sqrt{n}} \right] \\[15pt] =1&-\alpha \end{aligned} P = P = 1 [ − t α / 2 ( n − 1 ) ≤ S n n ( X ˉ n − μ ) ≤ t α / 2 ( n − 1 ) ] [ X ˉ n − t α / 2 ( n − 1 ) n σ ≤ μ ≤ X ˉ n + t α / 2 ( n − 1 ) n σ ] − α
\\[20pt]
신뢰구간은 x ˉ n \bar{x}_n x ˉ n 에 대해 대칭이며, 길이는 모분산 σ 2 \sigma^2 σ 2 이 작을수록 또 표본의 크기 n n n 이 커질수록 짧아짐을 볼 수 있다.
\\[30pt]
2) 정규분포의 모분산에 대한 신뢰구간
모평균이 알려진 경우
∑ i = 1 n ( X i − μ ) / σ 2 \sum_{i=1}^{n}(X_i-\mu)/\sigma^2 ∑ i = 1 n ( X i − μ ) / σ 2 이 자유도가 ( n ) (n) ( n ) 인 카이제곱 분포를 따르는 추축변량인 점에 근거하여 다음과 같이 구한다.
P [ χ 1 − α / 2 2 ( n ) ≤ n ( X ˉ n − μ ) σ 2 ≤ χ α / 2 2 ( n ) ] = P [ ∑ i = 1 n ( X ˉ i − μ 2 ) χ α / 2 2 ( n ) ≤ σ 2 ≤ ∑ i = 1 n ( X ˉ i − μ 2 ) χ 1 − α / 2 2 ( n ) ] = 1 − α \begin{aligned} P&\left[\chi^2_{1-\alpha/2}(n)\le \dfrac{\sqrt{n}(\bar{X}_n-\mu)}{\sigma^2}\le \chi^2_{\alpha/2}(n)\right] \\[15pt] =P&\left[\dfrac{\sum_{i=1}^{n}(\bar{X}_i-\mu^2)}{\chi^2_{\alpha/2}(n)} \le \sigma^2 \le \dfrac{\sum_{i=1}^{n}(\bar{X}_i-\mu^2)}{\chi^2_{1-\alpha/2}(n)} \right] \\[15pt] =1&-\alpha \end{aligned} P = P = 1 [ χ 1 − α / 2 2 ( n ) ≤ σ 2 n ( X ˉ n − μ ) ≤ χ α / 2 2 ( n ) ] [ χ α / 2 2 ( n ) ∑ i = 1 n ( X ˉ i − μ 2 ) ≤ σ 2 ≤ χ 1 − α / 2 2 ( n ) ∑ i = 1 n ( X ˉ i − μ 2 ) ] − α
\\[30pt]
모평균이 알려져 있지 않은 경우
μ \mu μ 를 표본평균 X ˉ n \bar{X}_n X ˉ n 로 추정한 통계량 ( n − 1 ) S n 2 / σ 2 = ∑ i = 1 n ( X i − X ˉ n ) / σ 2 (n-1)S_n^2/\sigma^2=\sum_{i=1}^{n}(X_i-\bar{X}_n)/\sigma^2 ( n − 1 ) S n 2 / σ 2 = ∑ i = 1 n ( X i − X ˉ n ) / σ 2 이 자유도가 ( n − 1 ) (n-1) ( n − 1 ) 인 카이제곱 분포를 따르는 추축변량인 점에 근거하여 다음과 같이 구한다.
P [ χ 1 − α / 2 2 ( n − 1 ) ≤ n ( X ˉ n − X ˉ n ) σ 2 ≤ χ α / 2 2 ( n − 1 ) ] = P [ ∑ i = 1 n ( X ˉ i − X ˉ n 2 ) χ α / 2 2 ( n − 1 ) ≤ σ 2 ≤ ∑ i = 1 n ( X ˉ i − X ˉ n 2 ) χ 1 − α / 2 2 ( n − 1 ) ] = 1 − α \begin{aligned} P&\left[\chi^2_{1-\alpha/2}(n-1)\le \dfrac{\sqrt{n}(\bar{X}_n-\bar{X}_n)}{\sigma^2}\le \chi^2_{\alpha/2}(n-1)\right] \\[15pt] =P&\left[\dfrac{\sum_{i=1}^{n}(\bar{X}_i-\bar{X}_n^2)}{\chi^2_{\alpha/2}(n-1)} \le \sigma^2 \le \dfrac{\sum_{i=1}^{n}(\bar{X}_i-\bar{X}_n^2)}{\chi^2_{1-\alpha/2}(n-1)} \right] \\[15pt] =1&-\alpha \end{aligned} P = P = 1 [ χ 1 − α / 2 2 ( n − 1 ) ≤ σ 2 n ( X ˉ n − X ˉ n ) ≤ χ α / 2 2 ( n − 1 ) ] [ χ α / 2 2 ( n − 1 ) ∑ i = 1 n ( X ˉ i − X ˉ n 2 ) ≤ σ 2 ≤ χ 1 − α / 2 2 ( n − 1 ) ∑ i = 1 n ( X ˉ i − X ˉ n 2 ) ] − α
\\[30pt]
10. 가설검정
1) 최강력 검정법 (네이만-피어슨 방법)
X ∼ N ( μ , σ 2 ) X\sim N(\mu,\sigma^2) X ∼ N ( μ , σ 2 ) 으로부터 랜덤표본 X 1 , X 2 , … , X n X_1,X_2,\ldots,X_n X 1 , X 2 , … , X n 이라 하고 다음 가설 검정을 한다.
H 0 : μ = μ 0 vs H 0 : μ = μ 1 ( > μ 0 ) H_0:\mu = \mu_0\quad\text{vs}\quad H_0:\mu = \mu_1(>\mu_0) H 0 : μ = μ 0 vs H 0 : μ = μ 1 ( > μ 0 )
에 대한 가능도비는 다음과 같이 주어진다.
L R ( μ 0 , μ 1 ; x 1 , x 2 , … , x n ) = ( 2 π ) − n / 2 exp [ − ∑ i = 1 n ( x i − μ 0 ) 2 / 2 ] ( 2 π ) − n / 2 exp [ − ∑ i = 1 n ( x i − μ 1 ) 2 / 2 ] = exp [ − ∑ i = 1 n ( x i − μ 0 ) 2 / 2 + ∑ i = 1 n ( x i − μ 1 ) 2 / 2 ] = exp [ − n ( μ 1 − μ 0 ) x ˉ n − n ( μ 0 2 − μ 1 2 ) / 2 ] \begin{aligned} LR(\mu_0,\mu_1;x_1,x_2,\ldots,x_n) &=\dfrac{(2\pi)^{-n/2}\exp\left[-\sum_{i=1}^{n}(x_i-\mu_0)^2/2\right]}{(2\pi)^{-n/2}\exp\left[-\sum_{i=1}^{n}(x_i-\mu_1)^2/2\right]} \\[15pt] &=\exp\left[-\sum_{i=1}^{n}(x_i-\mu_0)^2/2+\sum_{i=1}^{n}(x_i-\mu_1)^2/2\right] \\[15pt] &=\exp\left[-n(\mu_1-\mu_0)\bar{x}_n-n(\mu_0^2-\mu_1^2)/2\right] \end{aligned} L R ( μ 0 , μ 1 ; x 1 , x 2 , … , x n ) = ( 2 π ) − n / 2 exp [ − ∑ i = 1 n ( x i − μ 1 ) 2 / 2 ] ( 2 π ) − n / 2 exp [ − ∑ i = 1 n ( x i − μ 0 ) 2 / 2 ] = exp [ − i = 1 ∑ n ( x i − μ 0 ) 2 / 2 + i = 1 ∑ n ( x i − μ 1 ) 2 / 2 ] = exp [ − n ( μ 1 − μ 0 ) x ˉ n − n ( μ 0 2 − μ 1 2 ) / 2 ]
그런데 μ 1 − μ 0 > 0 \mu_1-\mu_0>0 μ 1 − μ 0 > 0 이고 μ 0 2 − μ 1 2 \mu_0^2-\mu_1^2 μ 0 2 − μ 1 2 은 상수이므로 따라서 L R ( μ 0 , μ 1 ; x 1 , x 2 , … , x n ) ≤ k LR(\mu_0,\mu_1;x_1,x_2,\ldots,x_n)\le k L R ( μ 0 , μ 1 ; x 1 , x 2 , … , x n ) ≤ k 가 성립하는 것은 x ˉ n ≥ k 1 \bar{x}_n\ge k_1 x ˉ n ≥ k 1 이 성립함과 동일하다. 이제 네이만-피어슨 정리에 의해 최강렵 검정법의 기각영역은
C = { ( x 1 , x 2 , … , x n ) : x ˉ n ≥ k 1 } C=\{(x_1,x_2,\ldots,x_n):\bar{x}_n\ge k_1\} C = { ( x 1 , x 2 , … , x n ) : x ˉ n ≥ k 1 }
의 꼴로 주어진다. 가설에 대한 유의수준 α \alpha α 인 기각영역은
P ( X ˉ n ≥ k 1 ∣ μ 0 ) = α P(\bar{X}_n\ge k_1|\mu_0)=\alpha P ( X ˉ n ≥ k 1 ∣ μ 0 ) = α
를 만족하고, n ( X ˉ − μ 0 ) \sqrt{n}(\bar{X}-\mu_0) n ( X ˉ − μ 0 ) 은 귀무가설 H 0 H_0 H 0 하에서 N ( 0 , 1 ) N(0,1) N ( 0 , 1 ) 을 따르므로
P ( X ˉ n ≥ k 1 ∣ μ 0 ) = P ( n ( X ˉ − μ 0 ) ≥ n ( k 1 − μ 0 ) ∣ μ 0 ) = α P(\bar{X}_n\ge k_1|\mu_0)=P(\sqrt{n}(\bar{X}-\mu_0)\ge \sqrt{n}(k_1-\mu_0)|\mu_0)=\alpha P ( X ˉ n ≥ k 1 ∣ μ 0 ) = P ( n ( X ˉ − μ 0 ) ≥ n ( k 1 − μ 0 ) ∣ μ 0 ) = α
로부터 n ( k 1 − μ 0 ) = z α \sqrt{n}(k_1-\mu_0)=z_{\alpha} n ( k 1 − μ 0 ) = z α , 즉 기각영역은
C = { ( x 1 , x 2 , … , x n ) : x ˉ n ≥ μ + z α / n } C=\{(x_1,x_2,\ldots,x_n):\bar{x}_n\ge \mu+z_{\alpha}/\sqrt{n}\} C = { ( x 1 , x 2 , … , x n ) : x ˉ n ≥ μ + z α / n }
이 된다.
\\[20pt]
2) 균일 가능도비 검정법
X ∼ N ( μ , σ 2 ) X\sim N(\mu,\sigma^2) X ∼ N ( μ , σ 2 ) 으로부터 랜덤표본 X 1 , X 2 , … , X n X_1,X_2,\ldots,X_n X 1 , X 2 , … , X n 이라 하고
H 0 : μ ≤ μ 0 vs H 0 : μ > μ 0 H_0:\mu\le \mu_0\quad\text{vs}\quad H_0:\mu > \mu_0 H 0 : μ ≤ μ 0 vs H 0 : μ > μ 0
고려해보자. μ 1 < μ 2 \mu_1<\mu_2 μ 1 < μ 2 일 때 가능도비는 다음과 같이 주어진다.
L R ( μ 1 , μ 2 ; x 1 , x 2 , … , x n ) = ( 2 π ) − n / 2 exp [ − ∑ i = 1 n ( x i − μ 1 ) 2 / 2 ] ( 2 π ) − n / 2 exp [ − ∑ i = 1 n ( x i − μ 2 ) 2 / 2 ] = exp [ − ∑ i = 1 n ( x i − μ 1 ) 2 / 2 + ∑ i = 1 n ( x i − μ 2 ) 2 / 2 ] = exp [ − ( μ 2 − μ 1 ) ∑ i = 1 n x i 2 + n ( μ 2 2 − μ 1 2 ) / 2 ] \begin{aligned} LR(\mu_1,\mu_2;x_1,x_2,\ldots,x_n) &=\dfrac{(2\pi)^{-n/2}\exp\left[-\sum_{i=1}^{n}(x_i-\mu_1)^2/2\right]}{(2\pi)^{-n/2}\exp\left[-\sum_{i=1}^{n}(x_i-\mu_2)^2/2\right]} \\[15pt] &=\exp\left[-\sum_{i=1}^{n}(x_i-\mu_1)^2/2+\sum_{i=1}^{n}(x_i-\mu_2)^2/2\right] \\[15pt] &=\exp\left[-(\mu_2-\mu_1)\sum_{i=1}^{n}x_i^2+n(\mu_2^2-\mu_1^2)/2\right] \end{aligned} L R ( μ 1 , μ 2 ; x 1 , x 2 , … , x n ) = ( 2 π ) − n / 2 exp [ − ∑ i = 1 n ( x i − μ 2 ) 2 / 2 ] ( 2 π ) − n / 2 exp [ − ∑ i = 1 n ( x i − μ 1 ) 2 / 2 ] = exp [ − i = 1 ∑ n ( x i − μ 1 ) 2 / 2 + i = 1 ∑ n ( x i − μ 2 ) 2 / 2 ] = exp [ − ( μ 2 − μ 1 ) i = 1 ∑ n x i 2 + n ( μ 2 2 − μ 1 2 ) / 2 ]
따라서 이 경우 가능도함수는 T ( x 1 , x 2 , … , x n ) = ∑ i = 1 n x i T(x_1,x_2,\ldots,x_n)=\sum_{i=1}^{n}x_i T ( x 1 , x 2 , … , x n ) = ∑ i = 1 n x i 에 대해 비증가인 단조가능도비 성격을 가진다. 그러므로 가설에 대한 유의수준 α \alpha α 인 균일최강력 검정법은 그 기각영역이
C = { ( x 1 , x 2 , … , x n ) : ∑ i = 1 n x i ≥ k } C=\{(x_1,x_2,\ldots,x_n):\sum_{i=1}^{n}x_i\ge k\} C = { ( x 1 , x 2 , … , x n ) : i = 1 ∑ n x i ≥ k }
로 주어지며, 상수 k k k 는P ( ∑ i = 1 n x i ≥ k ∣ λ 0 ) = α P(\sum_{i=1}^{n}x_i\ge k|\lambda_0)=\alpha P ( ∑ i = 1 n x i ≥ k ∣ λ 0 ) = α 에 의해 결정된다. 즉, k = n μ 0 + n z 0 k=n\mu_0+\sqrt{n}z_0 k = n μ 0 + n z 0 가 된다. (예 5.11)
로 주어지며, 상수 k k k 는 유의수준이 α = P ( ∑ i = 1 n x i ≥ k ∣ λ 0 ) \alpha=P(\sum_{i=1}^{n}x_i\ge k|\lambda_0) α = P ( ∑ i = 1 n x i ≥ k ∣ λ 0 ) 의해 결정된다. 구체적인 기각영역을 구하기 위해서는 중심극한정리에 의해
P ( ∑ i = 1 n x i ≥ k ∣ λ 0 ) = P [ ∑ i = 1 n x i − E [ ∑ i = 1 n x i ] Var ( ∑ i = 1 n x i ) ≥ k − E [ ∑ i = 1 n x i ] Var ( ∑ i = 1 n x i ) ∣ μ 0 ] = P [ ∑ i = 1 n x i − n μ 0 n σ 2 ≥ k − n μ 0 n σ 2 ∣ μ 0 ] ≈ P ( Z ≥ k − n μ 0 n σ 2 ) = α \begin{aligned} P(\sum_{i=1}^{n}x_i\ge k|\lambda_0) &=P\left[\left.\dfrac{\sum_{i=1}^{n}x_i - E[\sum_{i=1}^{n}x_i]}{\sqrt{\text{Var}(\sum_{i=1}^{n}x_i)}}\ge\dfrac{k - E[\sum_{i=1}^{n}x_i]}{\sqrt{\text{Var}(\sum_{i=1}^{n}x_i)}}\right|\mu_0\right] \\[15pt] &=P\left[\left.\dfrac{\sum_{i=1}^{n}x_i-n\mu_0}{\sqrt{n\sigma^2}}\ge\dfrac{k-n\mu_0}{\sqrt{n\sigma^2}}\right|\mu_0\right] \\[15pt] &\approx P\left(Z\ge\dfrac{k-n\mu_0}{\sqrt{n\sigma^2}}\right) \\[15pt] &=\alpha \end{aligned} P ( i = 1 ∑ n x i ≥ k ∣ λ 0 ) = P [ Var ( ∑ i = 1 n x i ) ∑ i = 1 n x i − E [ ∑ i = 1 n x i ] ≥ Var ( ∑ i = 1 n x i ) k − E [ ∑ i = 1 n x i ] ∣ ∣ ∣ ∣ ∣ ∣ μ 0 ] = P [ n σ 2 ∑ i = 1 n x i − n μ 0 ≥ n σ 2 k − n μ 0 ∣ ∣ ∣ ∣ ∣ μ 0 ] ≈ P ( Z ≥ n σ 2 k − n μ 0 ) = α
가 성립하므로, ( k − n μ 0 ) / n σ 2 = z α (k-n\mu_0)/\sqrt{n\sigma^2}=z_{\alpha} ( k − n μ 0 ) / n σ 2 = z α 이다. 즉, 기각 영역은 다음과 같다.
가 성립하므로, k = n μ 0 + z α n σ 2 k=n\mu_0+z_{\alpha}\sqrt{n\sigma^2} k = n μ 0 + z α n σ 2 이다. 즉, 기각 영역은 다음과 같다.
C = { ( x 1 , x 2 , … , x n ) : ∑ i = 1 n x i ≥ n μ 0 + z α n σ 2 } C=\{(x_1,x_2,\ldots,x_n):\sum_{i=1}^{n}x_i\ge n\mu_0+z_{\alpha}\sqrt{n\sigma^2}\} C = { ( x 1 , x 2 , … , x n ) : i = 1 ∑ n x i ≥ n μ 0 + z α n σ 2 }
\\[20pt]
3) 일반화 가능도비 검정법
X ∼ N ( μ , σ 2 ) X\sim N(\mu,\sigma^2) X ∼ N ( μ , σ 2 ) 으로부터 랜덤표본 X 1 , X 2 , … , X n X_1,X_2,\ldots,X_n X 1 , X 2 , … , X n 을 구했을 때, 모분산 σ 2 \sigma^2 σ 2 알려져 있는 경우
H 0 : μ = μ 0 vs H 1 : μ ≠ μ 0 H_0:\mu=\mu_0\quad\text{vs}\quad H_1:\mu\neq\mu_0 H 0 : μ = μ 0 vs H 1 : μ = μ 0
을 고려해보자. 가능도함수가 T ( X 1 , X 2 , … , X n ) = ∑ i = 1 n X i T(X_1,X_2,\ldots,X_n)=\sum_{i=1}^{n}X_i T ( X 1 , X 2 , … , X n ) = ∑ i = 1 n X i 에 대해 비증가하는 단조가능도비의 성질이 있으므로 대립가설이 H 1 : μ > μ 0 H_1:\mu>\mu_0 H 1 : μ > μ 0 이면 균일최강력 검정법의 기각영역이 { ∑ i = 1 n X i ≥ k } \{\sum_{i=1}^{n}X_i\ge k\} { ∑ i = 1 n X i ≥ k } 의 형태를 가지고 대립가설이 H 1 : μ < μ 0 H_1:\mu<\mu_0 H 1 : μ < μ 0 이면 균일최강력 검정법의 기각영역이 { ∑ i = 1 n X i ≤ k } \{\sum_{i=1}^{n}X_i\le k\} { ∑ i = 1 n X i ≤ k } 의 형태를 갖는다. 그러나 최강력 검정법의 기각영역이 μ − μ 0 \mu-\mu_0 μ − μ 0 의 부호에 의존하므로 대립가설이 H 1 : μ ≠ μ 0 H_1:\mu\neq\mu_0 H 1 : μ = μ 0 이면 균일최강력 검정법이 존재하지 않는다.
이제 양측 대립가설에 대해 일반화 가능도비 검정법의 기각영역을 구해 보자. μ \mu μ 의 최대가능도 추정량이 X ˉ n \bar{X}_n X ˉ n 이므로 일반화 가능도비는
Λ ( X 1 , X 2 , … , X n ) = ( 2 π σ 2 ) − n / 2 exp [ − ∑ i = 1 n ( X i − μ ) 2 / ( 2 σ 2 ) ] ( 2 π σ 2 ) − n / 2 exp [ − ∑ i = 1 n ( X i − X ˉ n ) 2 / ( 2 σ 2 ) ] = exp ( − n 2 σ 2 ( X ˉ n − μ ) 2 ) \begin{aligned} \Lambda(X_1,X_2,\ldots,X_n) &=\dfrac{(2\pi\sigma^2)^{-n/2}\exp\left[-\sum_{i=1}^{n}(X_i-\mu)^2/(2\sigma^2)\right]}{(2\pi\sigma^2)^{-n/2}\exp\left[-\sum_{i=1}^{n}(X_i-\bar{X}_n)^2/(2\sigma^2)\right]} \\[15pt] &=\exp\left(-\dfrac{n}{2\sigma^2}(\bar{X}_n-\mu)^2\right) \end{aligned} Λ ( X 1 , X 2 , … , X n ) = ( 2 π σ 2 ) − n / 2 exp [ − ∑ i = 1 n ( X i − X ˉ n ) 2 / ( 2 σ 2 ) ] ( 2 π σ 2 ) − n / 2 exp [ − ∑ i = 1 n ( X i − μ ) 2 / ( 2 σ 2 ) ] = exp ( − 2 σ 2 n ( X ˉ n − μ ) 2 )
이 되고, 기각영역은 exp ( − n 2 σ 2 ( X ˉ n − μ ) 2 ) ≤ λ ∗ \exp\left(-\dfrac{n}{2\sigma^2}(\bar{X}_n-\mu)^2\right)\le\lambda^* exp ( − 2 σ 2 n ( X ˉ n − μ ) 2 ) ≤ λ ∗ 가 된다. 여기에서 λ ∗ \lambda^* λ ∗ 는
α = P [ exp ( − n 2 σ 2 ( X ˉ n − μ ) 2 ) ≤ λ ∗ ∣ H 0 ] \alpha=P\left[\left.\exp\left(-\dfrac{n}{2\sigma^2}(\bar{X}_n-\mu)^2\right)\le\lambda^*\right|H_0\right] α = P [ exp ( − 2 σ 2 n ( X ˉ n − μ ) 2 ) ≤ λ ∗ ∣ ∣ ∣ ∣ H 0 ]
를 만족한다. 이 기각영역은 ∣ X ˉ n − μ ∣ ≥ c |\bar{X}_n-\mu|\ge c ∣ X ˉ n − μ ∣ ≥ c 와 동등하고 귀무가설하에서 X ˉ n ∼ N ( μ 0 , σ 2 / n ) \bar{X}_n\sim N(\mu_0,\sigma^2/n) X ˉ n ∼ N ( μ 0 , σ 2 / n ) 을 따르므로
α = P [ ∣ X ˉ n − μ ∣ ≥ c ∣ H 0 ] \alpha=P[|\bar{X}_n-\mu|\ge c|H_0] α = P [ ∣ X ˉ n − μ ∣ ≥ c ∣ H 0 ]
로부터 c = z α / 2 σ n c=z_{\alpha/2}\dfrac{\sigma}{\sqrt{n}} c = z α / 2 n σ 임을 알 수 있다. 즉, 유의수준 α \alpha α 인 일반화 가능도비 검정법의 기각영역은
{ ( x 1 , … , x n ) : x ˉ n ≥ μ + z α / 2 σ n or x ˉ n ≤ μ + z α / 2 σ n } \{(x_1,\ldots,x_n):\bar{x}_n\ge\mu+z_{\alpha/2}\dfrac{\sigma}{\sqrt{n}}\quad \text{or}\quad \bar{x}_n\le\mu+z_{\alpha/2}\dfrac{\sigma}{\sqrt{n}}\} { ( x 1 , … , x n ) : x ˉ n ≥ μ + z α / 2 n σ or x ˉ n ≤ μ + z α / 2 n σ }