추정의 기준

choyunjeong·2024년 12월 20일

최대가능도 추정량의 불변성

정리 4.1
X1,X2,,XnX_1,X_2,\ldots,X_n을 확률밀도함수 f(x;θ), θΩf(x;\theta),\ \theta\in \Omega를 갖는 분포에서 얻은 랜덤표본이라고 하자. θ^n\hat{\theta}_n이 모수 θ\theta의 최대가능도 추정량이면, θ\theta의 함수인 g(θ)g(\theta)에 대하여, g(θ^n)g(\hat{\theta}_n)g(θ)g(\theta)의 최대가능도 추정량이 된다.

\\[30pt]

예 4.13
정규분포에서 얻어진 랜덤표본으로 표준편차 σ\sigma의 최대가능도 추정량을 구할 때, σ2\sigma^2을 모수로 두는 것이 미분이 좀 더 쉽다고 한다면 σ2\sigma^2의 최대가능도를 먼저 구하고, 여기에 제곱근을 취하여 σ\sigma의 최대가능도 추정량을 구할 수 있다.

정규분포로부터 σ2\sigma^2의 최대가능도 추정량은 σ^2=i=1n(XiXˉn)/n\hat{\sigma}^2=\sum_{i=1}^{n}(X_i-\bar{X}_n)/n이다. 이제 g(σ2)=σg(\sigma^2)=\sigma의 최대가능도 추정량은

g(σ^2)=σ^=i=1n(XiXˉn)/ng(\hat{\sigma}^2)=\hat{\sigma}=\sqrt{\sum_{i=1}^{n}(X_i-\bar{X}_n)/n}

이다.

\\[30pt]

예 4.14
X1,X2,,XnX_1,X_2,\ldots,X_nEXP(λ)\text{EXP}(\lambda)로부터 얻은 랜덤표본이라고 하자. 지수함수의 최대가능도 추정량은 λ^=Xnˉ\hat{\lambda}=\bar{X_n}이다. 이 분포에서 나온 확률변수가 1보다 클 확률을 추정하는데 관심이 있다면

g(λ)=P(X1)=exp(1/λ)g(\lambda)=P(X\ge 1)=\exp(-1/\lambda)

에 대한 추정량이 필요하고, 최대가능도 추정량의 불변성에 의하여 다음과 같다.

g(λ^)=exp(1/λ^)=exp(1/Xnˉ)g(\hat{\lambda})=\exp(-1/\hat{\lambda})=\exp(-1/\bar{X_n})

또한 h(λ)=λ2h(\lambda)=\lambda^2이라면, 최대가능도 추정량은 다음과 같다.

h(λ^)=λ^2=Xnˉ2h(\hat{\lambda})=\hat{\lambda}^2=\bar{X_n}^2

추정의 기준

표본의 함수인 추정량도 확률변수이므로 확률분포를 살피는 것은 추정량의 성격을 파악하는데 도움이 된다.

예 4.15
X1,X2,,XnX_1,X_2,\ldots,X_nU(0, θ)U(0,\ \theta)로부터 얻은 랜덤표본이라고 하자. 이 때 모수 θ\theta의 최대가능도 추정량은 표본최댓값 Xˉn\bar{X}_n이다. 추정량 Xˉn\bar{X}_n의 확률밀도함수는 다음과 같다.

FX(n)(x)=P(X(n)x)=P(X(1)x,X(2)x,,X(n)x)={P(Xx)}n=(xθ)nf(x)=n(xθ)n1(1θ)\begin{aligned} F_{X_{(n)}}(x) &= P(X_{(n)}\le x) \\[5pt] &= P(X_{(1)}\le x,X_{(2)}\le x,\ldots, X_{(n)}\le x) \\[5pt] &= \left\{P(X\le x)\right\}^n \\[5pt] &=\left(\dfrac{x}{\theta}\right)^n \\[10pt] \therefore f(x)&=n\left(\dfrac{x}{\theta}\right)^{n-1} \left(\frac{1}{\theta}\right) \end{aligned}

θ=1, n=5\theta=1,\ n=5인 경우 확률밀도함수는 다음과 같다.

f(x)=5x4f(x)=5x^4

이 확률밀도함수를 토대로 표본최댓값이 xx보다 작으면 모든 관측값들이 xx보다 작아야 하고, 모든 관착값들이 xx보다 작으면 표본최댓값도 xx보다 작다는 성질을 얻을 수 있다.

\\[30pt]

비편향추정량

정의 4.3
T(X)T(X)g(θ)g(\theta)의 추정량이라고 할 때, 다음을 T(X)T(X)의 편향(bias)이라 하며,

E[T(X)]g(θ)E[T(X)]-g(\theta)

E[T(X)]=g(θ)E[T(X)]=g(\theta) (즉, 편향 = 0)를 g(θ)g(\theta)의 비편향추정량이라고 한다.

추정량 T(X)T(X)의 분산은 다음과 같다.

Var(T(X))=E[T(X)E[T(X)]]2\text{Var}(T(X))=E[T(X)-E[T(X)]]^2

\\[30pt]

예 4.17
X1,X2,,X10X_1,X_2,\ldots,X_{10}N(μ,σ2)N(\mu,\sigma^2)으로부터 얻은 랜덤표본이라고 할 때 T1(X)=Xˉ10T_1(X)=\bar{X}_{10}T2(X)=(X1+X2)/2T_2(X)=(X_1+X_2)/2

E[T1(X)]=E[T2(X)]=μE[T_1(X)]=E[T_2(X)]=\mu

이므로 모두 모평균 μ\mu의 비편향추정량이다.

[풀이]

E(Xˉ10)=E(110i=110Xi)=110{i=110E(Xi)}=11010E(X)=μ\begin{aligned} E(\bar{X}_{10})&=E(\dfrac{1}{10}\sum_{i=1}^{10}X_i) \\[15pt] &=\dfrac{1}{10}\left\{\sum_{i=1}^{10}E(X_i)\right\} \\[15pt] &=\dfrac{1}{10}\cdot 10\cdot E(X)=\mu \end{aligned}
E[(X1+X2)2]=12E(i=12Xi)=12{i=12E(Xi)}=122E(X)=μ\begin{aligned} E\left[\dfrac{(X_1+X_2)}{2}\right]&=\dfrac{1}{2}\cdot E\left(\sum_{i=1}^{2}X_i\right) \\[20pt] &=\dfrac{1}{2}\left\{\sum_{i=1}^{2}E(X_i)\right\} \\[15pt] &=\dfrac{1}{2}\cdot 2\cdot E(X)\\[10pt] &=\mu \end{aligned}

\\[30pt]

예 4.18
X1,X2,,XnX_1,X_2,\ldots,X_nU(0, θ)U(0,\ \theta)로부터 얻은 랜덤표본이라고 하자. 이 때 모수 θ\theta의 최대가능도 추정량은 표본최댓값 Xˉn\bar{X}_n이다.

E(X(n))=0θtntn1θdt=ntn+1(n+1)θn0θ=n(n+1)θ\begin{aligned} E(X_{(n)}) &=\int_{0}^{\theta}t\cdot\dfrac{n\cdot t^{n-1}}{\theta} dt \\[10pt] &=\left.\dfrac{nt^{n+1}}{(n+1)\theta^n}\right|_{0}^{\theta} \\[10pt] &=\dfrac{n}{(n+1)}\theta \end{aligned}

으로 비편향추정량이 아니다. 이 때

T1(X)=(n+1n)X(n)T_1(X)=\left(\dfrac{n+1}{n}\right)X_{(n)}

이라고 하면

E(T1(X))=n+1nnn+1θ=θE(T_1(X))=\dfrac{n+1}{n}\cdot\dfrac{n}{n+1}\cdot\theta=\theta

이므로 T1(X)T_1(X)θ\theta의 비편향추정량이다.

\\[30pt]

정리 4.2
모수의 함수 g(θ)g(\theta)의 추정량 T(X)T(X)의 평균체곱오차(MSE)는

MSE=Var(T(X))+(bias)2\text{MSE}=\text{Var}(T(X))+(bias)^2

을 만족한다.

[증명]

MSE=E[T(X)g(θ)]2=E[{T(X)E(T(X))}+{E(T(X))g(θ)}]2=E{T(X)E(T(X))}2+{E(T(X))g(θ)}2+2E{T(X)E(T(X))}{E(T(X))g(θ)}=Var(T(X))+{E(T(X))g(θ)}2+2{E(T(X))g(θ)}{E(T(X))E(T(X))}Var(T(X))+(bias)2\begin{aligned} \text{MSE} &=E[T(X)-g(\theta)]^2 \\[5pt] &=E[\{T(X)-E(T(X))\}+\{E(T(X))-g(\theta)\}]^2 \\[5pt] &=E\{T(X)-E(T(X))\}^2+\{E(T(X))-g(\theta)\}^2 \\[5pt] &\quad\quad +2E\{T(X)-E(T(X))\}\{E(T(X))-g(\theta)\}\\[5pt] &=\text{Var}(T(X))+\{E(T(X))-g(\theta)\}^2 \\[5pt] &\quad\quad +2\{E(T(X))-g(\theta)\}\{E(T(X))-E(T(X))\}\\[10pt] &\therefore \text{Var}(T(X))+(bias)^2 \end{aligned}

정리 4.2에 의하면 평균제곱오차를 작게하는 추정량은 편향의 절댓값과 분산 둘 다 작은 값을 가져야 한다.

\\[30pt]

4.4 최소분산 비편향추정량

정의 4.5
확률변수 X1,X2,,XnX_1,X_2,\ldots,X_n의 결합 확률밀도함수가 f(x1,x2,,xn;θ)f(x_1,x_2,\ldots,x_n;\theta)라고 할 때 함수 g(θ)g(\theta)의 추정량 T(X)T^{*}(X)가 다음의 조건 (1), (2)를 만족시키면 이를 g(θ)g(\theta)의 최소분산 비편향추정량이라고 한다.

1)E[T(X)]=g(θ)2)Var(T(X))Var(T(X))\begin{aligned} &1)\quad E[T^{*}(X)]=g(\theta) \\[10pt] &2)\quad \text{Var}(T^{*}(X))\le \text{Var}(T(X)) \end{aligned}

g(θ)g(\theta)의 최소분산 비편향추정량을 구하는 데는 다음의 두 가지 방법이 가능하다.

  1. 크래머-라오 하한값
    - T(X)T(X)의 분산이 적절한 조건하에서 비편향추정량이 가질 수 있는 분산의 하한값.

  2. 라오-블랙웰 정리와 레만-쉐페 정리 (완비 충분통계량 활용)

\\[20pt]

크래머-라오 방법
적절한 조건하에서 비편향추정량이 가질 수 있는 분산의 하한값을 제공하는데 이는 어떠한 비편향추정량도 이보다 작은 분산을 가질 수 없기 때문에 이 추정량이 최소분산 비편향추정량이 된다.

크래머-라오 방법을 이해하기 위하여 우선 정보부등식에 사용되는 피셔의 정보 I(θ)I(\theta)에 대해 알아야 한다.

I(θ)=E[(θlog f(X;θ))2]=E[(2θ2log f(X;θ))]I(\theta)=E\left[\left(\dfrac{\partial}{\partial\theta}\text{log }f(X;\theta)\right)^2\right]=-E\left[\left(\dfrac{\partial^2}{\partial\theta^2}\text{log }f(X;\theta)\right)\right]

I(θ)I(\theta)의 값이 작을수록 정보량이 작아지면서 최소분산이 될 확률이 적어진다.

\\[30pt]

예 4.21
XN(μ,σ02)X\sim N(\mu,\sigma_0^2) (σ02\sigma_0^2은 알려진 값)이라고 할 때, 확률밀도함수는

f(x;μ)=(2πσ0)1exp[12(xμσ0)2]f(x;\mu)=(\sqrt{2\pi}\sigma_0)^{-1}\exp\left[-\dfrac{1}{2}\cdot\left(\dfrac{x-\mu}{\sigma_0}\right)^2\right]

이며, 로그-확률밀도함수와 1차 도함수는

log f(x;μ)=log (2πσ0)1+[12(xμσ0)2]μlog f(x;μ)=[212(xμσ0)](xμσ0)=xμσ02\begin{aligned} \text{log }f(x;\mu) &=\text{log }(\sqrt{2\pi}\sigma_0)^{-1}+\left[-\dfrac{1}{2}\cdot\left(\dfrac{x-\mu}{\sigma_0}\right)^2\right] \\[15pt] \dfrac{\partial}{\partial\mu}\text{log }f(x;\mu) &=\left[-2\cdot\dfrac{1}{2}\cdot\left(\dfrac{x-\mu}{\sigma_0}\right)\right]\left(\dfrac{x-\mu}{\sigma_0}\right)^{'} \\[15pt] &=\dfrac{x-\mu}{\sigma_0^2} \end{aligned}

따라서

I(μ)=E[(μlog f(X;μ))2]=E[Xμσ02]2=1σ02\begin{aligned} I(\mu) &=E\left[\left(\dfrac{\partial}{\partial\mu}\text{log }f(X;\mu)\right)^2\right] \\[15pt] &=E\left[\dfrac{X-\mu}{\sigma_0^2}\right]^2 \\[10pt] &=\dfrac{1}{\sigma_0^2} \end{aligned}

이다.

  • σ02\sigma_0^2가 크면 클수록 하나의 관찰값 XX가 모평균 μ\mu에 대하여 가지는 정보는 작아짐

  • I(μ)I(\mu)μ\mu의 값에 의존하지 않음.

\\[20pt]

위를 토대로

XN(μ,σ12),YN(μ,σ22),σ12<σ22X\sim N(\mu,\sigma_1^2),\quad Y\sim N(\mu,\sigma_2^2),\quad \sigma_1^2<\sigma_2^2

이라고 하자. μ\mu를 추정하기 위해 XXYY를 이용할 수 있다면 XX를 쓰는 것이 더 나을 것이다. 왜냐하면 XX의 분산이 작기 때문에(정보량 큼) 관측값이 μ\mu에 가까이 있을 확률이 더 높기 때문이다. 이와 같이 정규분포의 경우 분산이 작으면 관측값이 모평균에 대하여 가지는 정보가 커진다는 것이 타당해 보인다.

\\[30pt]

예 4.22
XX가 성공 확률이 pp인 베르누이 확률변수라고 하자.

fX(x;p)=px(1p)1xlog fX(X;p)=Xlog p+(1X)log (1p)p log fX(X;p)=Xp1X1p=(Xp)p(1p)\begin{aligned} f_X(x;p) &=p^x(1-p)^{1-x} \\[10pt] \text{log }f_X(X;p) &=X\text{log }p+(1-X)\text{log }(1-p) \\[10pt] \dfrac{\partial}{\partial p}\text{ log }f_X(X;p) &=\dfrac{X}{p}-\dfrac{1-X}{1-p} \\[15pt] &=\dfrac{(X-p)}{p(1-p)} \end{aligned}

가 된다. 따라서 피셔의 정보는 다음과 같이 계산된다.

I(p)=E[(plog f(X;p))2]=E(Xp)2p2(1p)2=1p(1p)\begin{aligned} I(p) &=E\left[\left(\dfrac{\partial}{\partial p}\text{log }f(X;p)\right)^2\right] \\[10pt] &=\dfrac{E(X-p)^2}{p^2(1-p)^2} \\[10pt] &=\dfrac{1}{p(1-p)} \end{aligned}
  • p=1/2p=1/2일 때 피셔의 정보가 가장 작음
  • 정규분포와 마찬가지로 피셔의 정보는 분산의 역수이므로 분산이 작은 베르누이 확률변수가 그 평균에 대한 정보를 더 많이 가지고 있다고 말할 수 있다.

\\[30pt]

정리 4.3
X1,X2,,XnX_1,X_2,\ldots,X_n이 확률밀도함수가 f(x;θ), θΩf(x;\theta),\ \theta\in\Omega인 분포로부터 얻은 랜덤표본이라고 하자. 그러면 g(θ)g(\theta)의 비편향추정량 T(X)=T(X1,X2,,Xn)T(X)=T(X_1,X_2,\ldots,X_n)의 분산에 대한 부등식은 다음과 같이 주어진다.

모든 θΩ\theta\in\Omega에 대하여 Var(T(X))<, E(T(X))=g(θ), 0<I(θ)<\text{Var}(T(X))<\infty,\ E(T(X))=g(\theta),\ 0<I(\theta)<\infty라고 하면, g(θ)g(\theta)는 미분가능하며 다음이 성립한다.

Var(T(X))[g(θ)]2nI(θ)\text{Var}(T(X))\ge\dfrac{[g'(\theta)]^2}{nI(\theta)}

T(X)T(X)g(θ)g(\theta)형태가 아닌 θ\theta의 비편향추정량이라고 한다면 위 정리로부터

Var(T(X))1nI(θ)\text{Var}(T(X))\ge\dfrac{1}{nI(\theta)}

을 얻을 수 있다. 그러므로 어떤 비편향추정량 T(X)T(X)의 분산이 1nI(θ)\dfrac{1}{nI(\theta)}이라면 이 추정량은 θ\theta의 최소분산 비편향추정량이다.
\\[10pt]

위와 같은 결론을 내기 위해 우선 확률밀도함수 f(x;θ)f(x;\theta)T(X)T(X)에 대해 다음과 같은 가정을 한다 (정보부등식).

\\[10pt]
1. 모수가 다르면 확률밀도함수가 다르다.

f(x;θ)f(x;θ)(θθ)f(x;\theta)\neq f(x;\theta')\quad(\theta\neq\theta')

\\[10pt]
2. 집합 A={x;f(x;θ)>0}A=\{x;f(x;\theta)>0\}는 모수 θ\theta에 의존하지 않으며, 모든 xAx\in A, θΩ\theta\in\Omega에 대하여 log f(x;θ)\text{log } f(x;\theta)θ\theta에 대해 두번 미분 가능하고 도함수>\\[10pt]
3. 통계량 T(X)T(X)가 모든 θΩ\theta\in\Omega에 대하여 E(T(X))<E(T(X))<\infty이면 다음과 같다.

θT(x1,x2,,xn)i=1nf(xi;θ)dx1dxn=T(x1,x2,,xn)θi=1nf(xi;θ)dx1dxn\begin{aligned} \dfrac{\partial}{\partial\theta}&\int_{-\infty}^{\infty}\cdots\int_{-\infty}^{\infty}T(x_1,x_2,\ldots,x_n)\prod_{i=1}^{n}f(x_i;\theta)dx_1\cdots dx_n \\[10pt] &=\int_{-\infty}^{\infty}\cdots\int_{-\infty}^{\infty}T(x_1,x_2,\ldots,x_n)\dfrac{\partial}{\partial\theta}\prod_{i=1}^{n}f(x_i;\theta)dx_1\cdots dx_n \end{aligned}

\\[30pt]

예 4.23
XiPOI(λ)X_i\sim POI(\lambda)로부터 구한 랜덤표본이라고 하자. 우선 피셔의 정보 I(λ)I(\lambda)를 계산하면 다음과 같다.

I(λ)=E[(plog f(X;λ))2]=E[1+Xλ]2=E[Xλλ]2=1λ\begin{aligned} I(\lambda) &=E\left[\left(\dfrac{\partial}{\partial p}\text{log }f(X;\lambda)\right)^2\right] \\[10pt] &=E\left[-1+\dfrac{X}{\lambda}\right]^2 \\[10pt] &=E\left[\dfrac{X-\lambda}{\lambda}\right]^2 \\[10pt] &=\dfrac{1}{\lambda} \end{aligned}

그런데 Var(Xˉn)=λ/n\text{Var}(\bar{X}_n)=\lambda/n이므로 표본평균 Xˉn\bar{X}_n는 최소분산 비편향추정량이다.

\\[30pt]

예 4.24
XiN(μ,σ2)X_i\sim N(\mu,\sigma^2)로부터 구한 랜덤표본이라고 하자. 이 때 피셔의 정보 I(μ)=1/σ2I(\mu)=1/\sigma^2이고 Var(Xˉn)=σ2/n\text{Var}(\bar{X}_n)=\sigma^2/n이므로 Xˉn\bar{X}_n는 최소분산 비편향추정량이다.


[참고문헌]

  • 수리통계학 제 5판 - 송성주, 전명식

0개의 댓글