최대가능도 추정량의 불변성
정리 4.1
X 1 , X 2 , … , X n X_1,X_2,\ldots,X_n X 1 , X 2 , … , X n 을 확률밀도함수 f ( x ; θ ) , θ ∈ Ω f(x;\theta),\ \theta\in \Omega f ( x ; θ ) , θ ∈ Ω 를 갖는 분포에서 얻은 랜덤표본이라고 하자. θ ^ n \hat{\theta}_n θ ^ n 이 모수 θ \theta θ 의 최대가능도 추정량이면, θ \theta θ 의 함수인 g ( θ ) g(\theta) g ( θ ) 에 대하여, g ( θ ^ n ) g(\hat{\theta}_n) g ( θ ^ n ) 이 g ( θ ) g(\theta) g ( θ ) 의 최대가능도 추정량이 된다.
\\[30pt]
예 4.13
정규분포에서 얻어진 랜덤표본으로 표준편차 σ \sigma σ 의 최대가능도 추정량을 구할 때, σ 2 \sigma^2 σ 2 을 모수로 두는 것이 미분이 좀 더 쉽다고 한다면 σ 2 \sigma^2 σ 2 의 최대가능도를 먼저 구하고, 여기에 제곱근을 취하여 σ \sigma σ 의 최대가능도 추정량을 구할 수 있다.
정규분포로부터 σ 2 \sigma^2 σ 2 의 최대가능도 추정량은 σ ^ 2 = ∑ i = 1 n ( X i − X ˉ n ) / n \hat{\sigma}^2=\sum_{i=1}^{n}(X_i-\bar{X}_n)/n σ ^ 2 = ∑ i = 1 n ( X i − X ˉ n ) / n 이다. 이제 g ( σ 2 ) = σ g(\sigma^2)=\sigma g ( σ 2 ) = σ 의 최대가능도 추정량은
g ( σ ^ 2 ) = σ ^ = ∑ i = 1 n ( X i − X ˉ n ) / n g(\hat{\sigma}^2)=\hat{\sigma}=\sqrt{\sum_{i=1}^{n}(X_i-\bar{X}_n)/n} g ( σ ^ 2 ) = σ ^ = i = 1 ∑ n ( X i − X ˉ n ) / n
이다.
\\[30pt]
예 4.14
X 1 , X 2 , … , X n X_1,X_2,\ldots,X_n X 1 , X 2 , … , X n 을 EXP ( λ ) \text{EXP}(\lambda) EXP ( λ ) 로부터 얻은 랜덤표본이라고 하자. 지수함수의 최대가능도 추정량은 λ ^ = X n ˉ \hat{\lambda}=\bar{X_n} λ ^ = X n ˉ 이다. 이 분포에서 나온 확률변수가 1보다 클 확률을 추정하는데 관심이 있다면
g ( λ ) = P ( X ≥ 1 ) = exp ( − 1 / λ ) g(\lambda)=P(X\ge 1)=\exp(-1/\lambda) g ( λ ) = P ( X ≥ 1 ) = exp ( − 1 / λ )
에 대한 추정량이 필요하고, 최대가능도 추정량의 불변성에 의하여 다음과 같다.
g ( λ ^ ) = exp ( − 1 / λ ^ ) = exp ( − 1 / X n ˉ ) g(\hat{\lambda})=\exp(-1/\hat{\lambda})=\exp(-1/\bar{X_n}) g ( λ ^ ) = exp ( − 1 / λ ^ ) = exp ( − 1 / X n ˉ )
또한 h ( λ ) = λ 2 h(\lambda)=\lambda^2 h ( λ ) = λ 2 이라면, 최대가능도 추정량은 다음과 같다.
h ( λ ^ ) = λ ^ 2 = X n ˉ 2 h(\hat{\lambda})=\hat{\lambda}^2=\bar{X_n}^2 h ( λ ^ ) = λ ^ 2 = X n ˉ 2
추정의 기준
표본의 함수인 추정량도 확률변수이므로 확률분포를 살피는 것은 추정량의 성격을 파악하는데 도움이 된다.
예 4.15
X 1 , X 2 , … , X n X_1,X_2,\ldots,X_n X 1 , X 2 , … , X n 을 U ( 0 , θ ) U(0,\ \theta) U ( 0 , θ ) 로부터 얻은 랜덤표본이라고 하자. 이 때 모수 θ \theta θ 의 최대가능도 추정량은 표본최댓값 X ˉ n \bar{X}_n X ˉ n 이다. 추정량 X ˉ n \bar{X}_n X ˉ n 의 확률밀도함수는 다음과 같다.
F X ( n ) ( x ) = P ( X ( n ) ≤ x ) = P ( X ( 1 ) ≤ x , X ( 2 ) ≤ x , … , X ( n ) ≤ x ) = { P ( X ≤ x ) } n = ( x θ ) n ∴ f ( x ) = n ( x θ ) n − 1 ( 1 θ ) \begin{aligned} F_{X_{(n)}}(x) &= P(X_{(n)}\le x) \\[5pt] &= P(X_{(1)}\le x,X_{(2)}\le x,\ldots, X_{(n)}\le x) \\[5pt] &= \left\{P(X\le x)\right\}^n \\[5pt] &=\left(\dfrac{x}{\theta}\right)^n \\[10pt] \therefore f(x)&=n\left(\dfrac{x}{\theta}\right)^{n-1} \left(\frac{1}{\theta}\right) \end{aligned} F X ( n ) ( x ) ∴ f ( x ) = P ( X ( n ) ≤ x ) = P ( X ( 1 ) ≤ x , X ( 2 ) ≤ x , … , X ( n ) ≤ x ) = { P ( X ≤ x ) } n = ( θ x ) n = n ( θ x ) n − 1 ( θ 1 )
θ = 1 , n = 5 \theta=1,\ n=5 θ = 1 , n = 5 인 경우 확률밀도함수는 다음과 같다.
f ( x ) = 5 x 4 f(x)=5x^4 f ( x ) = 5 x 4
이 확률밀도함수를 토대로 표본최댓값이 x x x 보다 작으면 모든 관측값들이 x x x 보다 작아야 하고, 모든 관착값들이 x x x 보다 작으면 표본최댓값도 x x x 보다 작다는 성질을 얻을 수 있다.
\\[30pt]
비편향추정량
정의 4.3
T ( X ) T(X) T ( X ) 를 g ( θ ) g(\theta) g ( θ ) 의 추정량이라고 할 때, 다음을 T ( X ) T(X) T ( X ) 의 편향(bias)이라 하며,
E [ T ( X ) ] − g ( θ ) E[T(X)]-g(\theta) E [ T ( X ) ] − g ( θ )
E [ T ( X ) ] = g ( θ ) E[T(X)]=g(\theta) E [ T ( X ) ] = g ( θ ) (즉, 편향 = 0)를 g ( θ ) g(\theta) g ( θ ) 의 비편향추정량이라고 한다.
추정량 T ( X ) T(X) T ( X ) 의 분산은 다음과 같다.
Var ( T ( X ) ) = E [ T ( X ) − E [ T ( X ) ] ] 2 \text{Var}(T(X))=E[T(X)-E[T(X)]]^2 Var ( T ( X ) ) = E [ T ( X ) − E [ T ( X ) ] ] 2
\\[30pt]
예 4.17
X 1 , X 2 , … , X 10 X_1,X_2,\ldots,X_{10} X 1 , X 2 , … , X 1 0 을 N ( μ , σ 2 ) N(\mu,\sigma^2) N ( μ , σ 2 ) 으로부터 얻은 랜덤표본이라고 할 때 T 1 ( X ) = X ˉ 10 T_1(X)=\bar{X}_{10} T 1 ( X ) = X ˉ 1 0 와 T 2 ( X ) = ( X 1 + X 2 ) / 2 T_2(X)=(X_1+X_2)/2 T 2 ( X ) = ( X 1 + X 2 ) / 2 는
E [ T 1 ( X ) ] = E [ T 2 ( X ) ] = μ E[T_1(X)]=E[T_2(X)]=\mu E [ T 1 ( X ) ] = E [ T 2 ( X ) ] = μ
이므로 모두 모평균 μ \mu μ 의 비편향추정량이다.
[풀이]
E ( X ˉ 10 ) = E ( 1 10 ∑ i = 1 10 X i ) = 1 10 { ∑ i = 1 10 E ( X i ) } = 1 10 ⋅ 10 ⋅ E ( X ) = μ \begin{aligned} E(\bar{X}_{10})&=E(\dfrac{1}{10}\sum_{i=1}^{10}X_i) \\[15pt] &=\dfrac{1}{10}\left\{\sum_{i=1}^{10}E(X_i)\right\} \\[15pt] &=\dfrac{1}{10}\cdot 10\cdot E(X)=\mu \end{aligned} E ( X ˉ 1 0 ) = E ( 1 0 1 i = 1 ∑ 1 0 X i ) = 1 0 1 { i = 1 ∑ 1 0 E ( X i ) } = 1 0 1 ⋅ 1 0 ⋅ E ( X ) = μ
E [ ( X 1 + X 2 ) 2 ] = 1 2 ⋅ E ( ∑ i = 1 2 X i ) = 1 2 { ∑ i = 1 2 E ( X i ) } = 1 2 ⋅ 2 ⋅ E ( X ) = μ \begin{aligned} E\left[\dfrac{(X_1+X_2)}{2}\right]&=\dfrac{1}{2}\cdot E\left(\sum_{i=1}^{2}X_i\right) \\[20pt] &=\dfrac{1}{2}\left\{\sum_{i=1}^{2}E(X_i)\right\} \\[15pt] &=\dfrac{1}{2}\cdot 2\cdot E(X)\\[10pt] &=\mu \end{aligned} E [ 2 ( X 1 + X 2 ) ] = 2 1 ⋅ E ( i = 1 ∑ 2 X i ) = 2 1 { i = 1 ∑ 2 E ( X i ) } = 2 1 ⋅ 2 ⋅ E ( X ) = μ
\\[30pt]
예 4.18
X 1 , X 2 , … , X n X_1,X_2,\ldots,X_n X 1 , X 2 , … , X n 을 U ( 0 , θ ) U(0,\ \theta) U ( 0 , θ ) 로부터 얻은 랜덤표본이라고 하자. 이 때 모수 θ \theta θ 의 최대가능도 추정량은 표본최댓값 X ˉ n \bar{X}_n X ˉ n 이다.
E ( X ( n ) ) = ∫ 0 θ t ⋅ n ⋅ t n − 1 θ d t = n t n + 1 ( n + 1 ) θ n ∣ 0 θ = n ( n + 1 ) θ \begin{aligned} E(X_{(n)}) &=\int_{0}^{\theta}t\cdot\dfrac{n\cdot t^{n-1}}{\theta} dt \\[10pt] &=\left.\dfrac{nt^{n+1}}{(n+1)\theta^n}\right|_{0}^{\theta} \\[10pt] &=\dfrac{n}{(n+1)}\theta \end{aligned} E ( X ( n ) ) = ∫ 0 θ t ⋅ θ n ⋅ t n − 1 d t = ( n + 1 ) θ n n t n + 1 ∣ ∣ ∣ ∣ ∣ 0 θ = ( n + 1 ) n θ
으로 비편향추정량이 아니다. 이 때
T 1 ( X ) = ( n + 1 n ) X ( n ) T_1(X)=\left(\dfrac{n+1}{n}\right)X_{(n)} T 1 ( X ) = ( n n + 1 ) X ( n )
이라고 하면
E ( T 1 ( X ) ) = n + 1 n ⋅ n n + 1 ⋅ θ = θ E(T_1(X))=\dfrac{n+1}{n}\cdot\dfrac{n}{n+1}\cdot\theta=\theta E ( T 1 ( X ) ) = n n + 1 ⋅ n + 1 n ⋅ θ = θ
이므로 T 1 ( X ) T_1(X) T 1 ( X ) 은 θ \theta θ 의 비편향추정량이다.
\\[30pt]
정리 4.2
모수의 함수 g ( θ ) g(\theta) g ( θ ) 의 추정량 T ( X ) T(X) T ( X ) 의 평균체곱오차(MSE)는
MSE = Var ( T ( X ) ) + ( b i a s ) 2 \text{MSE}=\text{Var}(T(X))+(bias)^2 MSE = Var ( T ( X ) ) + ( b i a s ) 2
을 만족한다.
[증명]
MSE = E [ T ( X ) − g ( θ ) ] 2 = E [ { T ( X ) − E ( T ( X ) ) } + { E ( T ( X ) ) − g ( θ ) } ] 2 = E { T ( X ) − E ( T ( X ) ) } 2 + { E ( T ( X ) ) − g ( θ ) } 2 + 2 E { T ( X ) − E ( T ( X ) ) } { E ( T ( X ) ) − g ( θ ) } = Var ( T ( X ) ) + { E ( T ( X ) ) − g ( θ ) } 2 + 2 { E ( T ( X ) ) − g ( θ ) } { E ( T ( X ) ) − E ( T ( X ) ) } ∴ Var ( T ( X ) ) + ( b i a s ) 2 \begin{aligned} \text{MSE} &=E[T(X)-g(\theta)]^2 \\[5pt] &=E[\{T(X)-E(T(X))\}+\{E(T(X))-g(\theta)\}]^2 \\[5pt] &=E\{T(X)-E(T(X))\}^2+\{E(T(X))-g(\theta)\}^2 \\[5pt] &\quad\quad +2E\{T(X)-E(T(X))\}\{E(T(X))-g(\theta)\}\\[5pt] &=\text{Var}(T(X))+\{E(T(X))-g(\theta)\}^2 \\[5pt] &\quad\quad +2\{E(T(X))-g(\theta)\}\{E(T(X))-E(T(X))\}\\[10pt] &\therefore \text{Var}(T(X))+(bias)^2 \end{aligned} MSE = E [ T ( X ) − g ( θ ) ] 2 = E [ { T ( X ) − E ( T ( X ) ) } + { E ( T ( X ) ) − g ( θ ) } ] 2 = E { T ( X ) − E ( T ( X ) ) } 2 + { E ( T ( X ) ) − g ( θ ) } 2 + 2 E { T ( X ) − E ( T ( X ) ) } { E ( T ( X ) ) − g ( θ ) } = Var ( T ( X ) ) + { E ( T ( X ) ) − g ( θ ) } 2 + 2 { E ( T ( X ) ) − g ( θ ) } { E ( T ( X ) ) − E ( T ( X ) ) } ∴ Var ( T ( X ) ) + ( b i a s ) 2
정리 4.2에 의하면 평균제곱오차를 작게하는 추정량은 편향의 절댓값과 분산 둘 다 작은 값을 가져야 한다.
\\[30pt]
4.4 최소분산 비편향추정량
정의 4.5
확률변수 X 1 , X 2 , … , X n X_1,X_2,\ldots,X_n X 1 , X 2 , … , X n 의 결합 확률밀도함수가 f ( x 1 , x 2 , … , x n ; θ ) f(x_1,x_2,\ldots,x_n;\theta) f ( x 1 , x 2 , … , x n ; θ ) 라고 할 때 함수 g ( θ ) g(\theta) g ( θ ) 의 추정량 T ∗ ( X ) T^{*}(X) T ∗ ( X ) 가 다음의 조건 (1), (2)를 만족시키면 이를 g ( θ ) g(\theta) g ( θ ) 의 최소분산 비편향추정량이라고 한다.
1 ) E [ T ∗ ( X ) ] = g ( θ ) 2 ) Var ( T ∗ ( X ) ) ≤ Var ( T ( X ) ) \begin{aligned} &1)\quad E[T^{*}(X)]=g(\theta) \\[10pt] &2)\quad \text{Var}(T^{*}(X))\le \text{Var}(T(X)) \end{aligned} 1 ) E [ T ∗ ( X ) ] = g ( θ ) 2 ) Var ( T ∗ ( X ) ) ≤ Var ( T ( X ) )
g ( θ ) g(\theta) g ( θ ) 의 최소분산 비편향추정량을 구하는 데는 다음의 두 가지 방법이 가능하다.
크래머-라오 하한값
- T ( X ) T(X) T ( X ) 의 분산이 적절한 조건하에서 비편향추정량이 가질 수 있는 분산의 하한값.
라오-블랙웰 정리와 레만-쉐페 정리 (완비 충분통계량 활용)
\\[20pt]
크래머-라오 방법
적절한 조건하에서 비편향추정량이 가질 수 있는 분산의 하한값을 제공하는데 이는 어떠한 비편향추정량도 이보다 작은 분산을 가질 수 없기 때문에 이 추정량이 최소분산 비편향추정량이 된다.
크래머-라오 방법을 이해하기 위하여 우선 정보부등식에 사용되는 피셔의 정보 I ( θ ) I(\theta) I ( θ ) 에 대해 알아야 한다.
I ( θ ) = E [ ( ∂ ∂ θ log f ( X ; θ ) ) 2 ] = − E [ ( ∂ 2 ∂ θ 2 log f ( X ; θ ) ) ] I(\theta)=E\left[\left(\dfrac{\partial}{\partial\theta}\text{log }f(X;\theta)\right)^2\right]=-E\left[\left(\dfrac{\partial^2}{\partial\theta^2}\text{log }f(X;\theta)\right)\right] I ( θ ) = E [ ( ∂ θ ∂ log f ( X ; θ ) ) 2 ] = − E [ ( ∂ θ 2 ∂ 2 log f ( X ; θ ) ) ]
I ( θ ) I(\theta) I ( θ ) 의 값이 작을수록 정보량이 작아지면서 최소분산이 될 확률이 적어진다.
\\[30pt]
예 4.21
X ∼ N ( μ , σ 0 2 ) X\sim N(\mu,\sigma_0^2) X ∼ N ( μ , σ 0 2 ) (σ 0 2 \sigma_0^2 σ 0 2 은 알려진 값)이라고 할 때, 확률밀도함수는
f ( x ; μ ) = ( 2 π σ 0 ) − 1 exp [ − 1 2 ⋅ ( x − μ σ 0 ) 2 ] f(x;\mu)=(\sqrt{2\pi}\sigma_0)^{-1}\exp\left[-\dfrac{1}{2}\cdot\left(\dfrac{x-\mu}{\sigma_0}\right)^2\right] f ( x ; μ ) = ( 2 π σ 0 ) − 1 exp [ − 2 1 ⋅ ( σ 0 x − μ ) 2 ]
이며, 로그-확률밀도함수와 1차 도함수는
log f ( x ; μ ) = log ( 2 π σ 0 ) − 1 + [ − 1 2 ⋅ ( x − μ σ 0 ) 2 ] ∂ ∂ μ log f ( x ; μ ) = [ − 2 ⋅ 1 2 ⋅ ( x − μ σ 0 ) ] ( x − μ σ 0 ) ′ = x − μ σ 0 2 \begin{aligned} \text{log }f(x;\mu) &=\text{log }(\sqrt{2\pi}\sigma_0)^{-1}+\left[-\dfrac{1}{2}\cdot\left(\dfrac{x-\mu}{\sigma_0}\right)^2\right] \\[15pt] \dfrac{\partial}{\partial\mu}\text{log }f(x;\mu) &=\left[-2\cdot\dfrac{1}{2}\cdot\left(\dfrac{x-\mu}{\sigma_0}\right)\right]\left(\dfrac{x-\mu}{\sigma_0}\right)^{'} \\[15pt] &=\dfrac{x-\mu}{\sigma_0^2} \end{aligned} log f ( x ; μ ) ∂ μ ∂ log f ( x ; μ ) = log ( 2 π σ 0 ) − 1 + [ − 2 1 ⋅ ( σ 0 x − μ ) 2 ] = [ − 2 ⋅ 2 1 ⋅ ( σ 0 x − μ ) ] ( σ 0 x − μ ) ′ = σ 0 2 x − μ
따라서
I ( μ ) = E [ ( ∂ ∂ μ log f ( X ; μ ) ) 2 ] = E [ X − μ σ 0 2 ] 2 = 1 σ 0 2 \begin{aligned} I(\mu) &=E\left[\left(\dfrac{\partial}{\partial\mu}\text{log }f(X;\mu)\right)^2\right] \\[15pt] &=E\left[\dfrac{X-\mu}{\sigma_0^2}\right]^2 \\[10pt] &=\dfrac{1}{\sigma_0^2} \end{aligned} I ( μ ) = E [ ( ∂ μ ∂ log f ( X ; μ ) ) 2 ] = E [ σ 0 2 X − μ ] 2 = σ 0 2 1
이다.
\\[20pt]
위를 토대로
X ∼ N ( μ , σ 1 2 ) , Y ∼ N ( μ , σ 2 2 ) , σ 1 2 < σ 2 2 X\sim N(\mu,\sigma_1^2),\quad Y\sim N(\mu,\sigma_2^2),\quad \sigma_1^2<\sigma_2^2 X ∼ N ( μ , σ 1 2 ) , Y ∼ N ( μ , σ 2 2 ) , σ 1 2 < σ 2 2
이라고 하자. μ \mu μ 를 추정하기 위해 X X X 나 Y Y Y 를 이용할 수 있다면 X X X 를 쓰는 것이 더 나을 것이다. 왜냐하면 X X X 의 분산이 작기 때문에(정보량 큼) 관측값이 μ \mu μ 에 가까이 있을 확률이 더 높기 때문이다. 이와 같이 정규분포의 경우 분산이 작으면 관측값이 모평균에 대하여 가지는 정보가 커진다는 것이 타당해 보인다.
\\[30pt]
예 4.22
X X X 가 성공 확률이 p p p 인 베르누이 확률변수라고 하자.
f X ( x ; p ) = p x ( 1 − p ) 1 − x log f X ( X ; p ) = X log p + ( 1 − X ) log ( 1 − p ) ∂ ∂ p log f X ( X ; p ) = X p − 1 − X 1 − p = ( X − p ) p ( 1 − p ) \begin{aligned} f_X(x;p) &=p^x(1-p)^{1-x} \\[10pt] \text{log }f_X(X;p) &=X\text{log }p+(1-X)\text{log }(1-p) \\[10pt] \dfrac{\partial}{\partial p}\text{ log }f_X(X;p) &=\dfrac{X}{p}-\dfrac{1-X}{1-p} \\[15pt] &=\dfrac{(X-p)}{p(1-p)} \end{aligned} f X ( x ; p ) log f X ( X ; p ) ∂ p ∂ log f X ( X ; p ) = p x ( 1 − p ) 1 − x = X log p + ( 1 − X ) log ( 1 − p ) = p X − 1 − p 1 − X = p ( 1 − p ) ( X − p )
가 된다. 따라서 피셔의 정보는 다음과 같이 계산된다.
I ( p ) = E [ ( ∂ ∂ p log f ( X ; p ) ) 2 ] = E ( X − p ) 2 p 2 ( 1 − p ) 2 = 1 p ( 1 − p ) \begin{aligned} I(p) &=E\left[\left(\dfrac{\partial}{\partial p}\text{log }f(X;p)\right)^2\right] \\[10pt] &=\dfrac{E(X-p)^2}{p^2(1-p)^2} \\[10pt] &=\dfrac{1}{p(1-p)} \end{aligned} I ( p ) = E [ ( ∂ p ∂ log f ( X ; p ) ) 2 ] = p 2 ( 1 − p ) 2 E ( X − p ) 2 = p ( 1 − p ) 1
p = 1 / 2 p=1/2 p = 1 / 2 일 때 피셔의 정보가 가장 작음
정규분포와 마찬가지로 피셔의 정보는 분산의 역수이므로 분산이 작은 베르누이 확률변수가 그 평균에 대한 정보를 더 많이 가지고 있다고 말할 수 있다.
\\[30pt]
정리 4.3
X 1 , X 2 , … , X n X_1,X_2,\ldots,X_n X 1 , X 2 , … , X n 이 확률밀도함수가 f ( x ; θ ) , θ ∈ Ω f(x;\theta),\ \theta\in\Omega f ( x ; θ ) , θ ∈ Ω 인 분포로부터 얻은 랜덤표본이라고 하자. 그러면 g ( θ ) g(\theta) g ( θ ) 의 비편향추정량 T ( X ) = T ( X 1 , X 2 , … , X n ) T(X)=T(X_1,X_2,\ldots,X_n) T ( X ) = T ( X 1 , X 2 , … , X n ) 의 분산에 대한 부등식은 다음과 같이 주어진다.
모든 θ ∈ Ω \theta\in\Omega θ ∈ Ω 에 대하여 Var ( T ( X ) ) < ∞ , E ( T ( X ) ) = g ( θ ) , 0 < I ( θ ) < ∞ \text{Var}(T(X))<\infty,\ E(T(X))=g(\theta),\ 0<I(\theta)<\infty Var ( T ( X ) ) < ∞ , E ( T ( X ) ) = g ( θ ) , 0 < I ( θ ) < ∞ 라고 하면, g ( θ ) g(\theta) g ( θ ) 는 미분가능하며 다음이 성립한다.
Var ( T ( X ) ) ≥ [ g ′ ( θ ) ] 2 n I ( θ ) \text{Var}(T(X))\ge\dfrac{[g'(\theta)]^2}{nI(\theta)} Var ( T ( X ) ) ≥ n I ( θ ) [ g ′ ( θ ) ] 2
T ( X ) T(X) T ( X ) 가 g ( θ ) g(\theta) g ( θ ) 형태가 아닌 θ \theta θ 의 비편향추정량이라고 한다면 위 정리로부터
Var ( T ( X ) ) ≥ 1 n I ( θ ) \text{Var}(T(X))\ge\dfrac{1}{nI(\theta)} Var ( T ( X ) ) ≥ n I ( θ ) 1
을 얻을 수 있다. 그러므로 어떤 비편향추정량 T ( X ) T(X) T ( X ) 의 분산이 1 n I ( θ ) \dfrac{1}{nI(\theta)} n I ( θ ) 1 이라면 이 추정량은 θ \theta θ 의 최소분산 비편향추정량이다.
\\[10pt]
위와 같은 결론을 내기 위해 우선 확률밀도함수 f ( x ; θ ) f(x;\theta) f ( x ; θ ) 와 T ( X ) T(X) T ( X ) 에 대해 다음과 같은 가정을 한다 (정보부등식).
\\[10pt]
1. 모수가 다르면 확률밀도함수가 다르다.
f ( x ; θ ) ≠ f ( x ; θ ′ ) ( θ ≠ θ ′ ) f(x;\theta)\neq f(x;\theta')\quad(\theta\neq\theta') f ( x ; θ ) = f ( x ; θ ′ ) ( θ = θ ′ )
\\[10pt]
2. 집합 A = { x ; f ( x ; θ ) > 0 } A=\{x;f(x;\theta)>0\} A = { x ; f ( x ; θ ) > 0 } 는 모수 θ \theta θ 에 의존하지 않으며, 모든 x ∈ A x\in A x ∈ A , θ ∈ Ω \theta\in\Omega θ ∈ Ω 에 대하여 log f ( x ; θ ) \text{log } f(x;\theta) log f ( x ; θ ) 는 θ \theta θ 에 대해 두번 미분 가능하고 도함수>\\[10pt]
3. 통계량 T ( X ) T(X) T ( X ) 가 모든 θ ∈ Ω \theta\in\Omega θ ∈ Ω 에 대하여 E ( T ( X ) ) < ∞ E(T(X))<\infty E ( T ( X ) ) < ∞ 이면 다음과 같다.
∂ ∂ θ ∫ − ∞ ∞ ⋯ ∫ − ∞ ∞ T ( x 1 , x 2 , … , x n ) ∏ i = 1 n f ( x i ; θ ) d x 1 ⋯ d x n = ∫ − ∞ ∞ ⋯ ∫ − ∞ ∞ T ( x 1 , x 2 , … , x n ) ∂ ∂ θ ∏ i = 1 n f ( x i ; θ ) d x 1 ⋯ d x n \begin{aligned} \dfrac{\partial}{\partial\theta}&\int_{-\infty}^{\infty}\cdots\int_{-\infty}^{\infty}T(x_1,x_2,\ldots,x_n)\prod_{i=1}^{n}f(x_i;\theta)dx_1\cdots dx_n \\[10pt] &=\int_{-\infty}^{\infty}\cdots\int_{-\infty}^{\infty}T(x_1,x_2,\ldots,x_n)\dfrac{\partial}{\partial\theta}\prod_{i=1}^{n}f(x_i;\theta)dx_1\cdots dx_n \end{aligned} ∂ θ ∂ ∫ − ∞ ∞ ⋯ ∫ − ∞ ∞ T ( x 1 , x 2 , … , x n ) i = 1 ∏ n f ( x i ; θ ) d x 1 ⋯ d x n = ∫ − ∞ ∞ ⋯ ∫ − ∞ ∞ T ( x 1 , x 2 , … , x n ) ∂ θ ∂ i = 1 ∏ n f ( x i ; θ ) d x 1 ⋯ d x n
\\[30pt]
예 4.23
X i ∼ P O I ( λ ) X_i\sim POI(\lambda) X i ∼ P O I ( λ ) 로부터 구한 랜덤표본이라고 하자. 우선 피셔의 정보 I ( λ ) I(\lambda) I ( λ ) 를 계산하면 다음과 같다.
I ( λ ) = E [ ( ∂ ∂ p log f ( X ; λ ) ) 2 ] = E [ − 1 + X λ ] 2 = E [ X − λ λ ] 2 = 1 λ \begin{aligned} I(\lambda) &=E\left[\left(\dfrac{\partial}{\partial p}\text{log }f(X;\lambda)\right)^2\right] \\[10pt] &=E\left[-1+\dfrac{X}{\lambda}\right]^2 \\[10pt] &=E\left[\dfrac{X-\lambda}{\lambda}\right]^2 \\[10pt] &=\dfrac{1}{\lambda} \end{aligned} I ( λ ) = E [ ( ∂ p ∂ log f ( X ; λ ) ) 2 ] = E [ − 1 + λ X ] 2 = E [ λ X − λ ] 2 = λ 1
그런데 Var ( X ˉ n ) = λ / n \text{Var}(\bar{X}_n)=\lambda/n Var ( X ˉ n ) = λ / n 이므로 표본평균 X ˉ n \bar{X}_n X ˉ n 는 최소분산 비편향추정량이다.
\\[30pt]
예 4.24
X i ∼ N ( μ , σ 2 ) X_i\sim N(\mu,\sigma^2) X i ∼ N ( μ , σ 2 ) 로부터 구한 랜덤표본이라고 하자. 이 때 피셔의 정보 I ( μ ) = 1 / σ 2 I(\mu)=1/\sigma^2 I ( μ ) = 1 / σ 2 이고 Var ( X ˉ n ) = σ 2 / n \text{Var}(\bar{X}_n)=\sigma^2/n Var ( X ˉ n ) = σ 2 / n 이므로 X ˉ n \bar{X}_n X ˉ n 는 최소분산 비편향추정량이다.
[참고문헌]