일치추정량

choyunjeong·2024년 12월 22일

4.5 일치추정량

정의 4.9
모수의 함수 g(θ)g(\theta)의 추정량 Tn(X)=T(X1,X2,,Xn)T_n(X)=T(X_1,X_2,\ldots,X_n)이 임의의 ϵ>0\epsilon>0에 대하여

limnP(Tn(X)g(θ)ϵ)=1\lim_{n\rightarrow\infty}P(|T_n(X)-g(\theta)|\le\epsilon)=1

을 만족하면 추정량 Tn(X)T_n(X)는 일치성이 있다고 한다.

\\[20pt]
예 4.40
X1,X1,,XnX_1,X_1,\ldots,X_nU(0,θ)U(0,\theta)로부터 얻은 랜덤표본이라고 하자. 이때 최대 가능도 추정량은

X(n)=n(x(n))n1θnX_{(n)}=\dfrac{n(x_{(n)})^{n-1}}{\theta^n}

이다. 이제 모수 θ\theta의 추정량 X(n)X_{(n)}의 일치성에 대해 확인. 임의의 ϵ>0\epsilon>0에 대하여

P(X(n)θϵ)=P(θϵX(n)θ)=θϵθn(x(n))n1θn dx(n)=(x(n))nθnθϵθ=1[θϵθ]n\begin{aligned} P(|X_{(n)}-\theta|\le\epsilon) &=P(\theta-\epsilon\le X_{(n)}\le\theta) \\[10pt] &=\int_{\theta-\epsilon}^{\theta}\dfrac{n(x_{(n)})^{n-1}}{\theta^n}\ dx_{(n)} \\[15pt] &=\left.\dfrac{(x_{(n)})^{n}}{\theta^n} \right|_{\theta-\epsilon}^{\theta} \\[15pt] &=1-\left[\dfrac{\theta-\epsilon}{\theta}\right]^n \end{aligned}

이 성립한다. 0<ϵ<θ0<\epsilon<\theta이면 nn이 커질 때

[θϵθ]n0\left[\dfrac{\theta-\epsilon}{\theta}\right]^n\rightarrow0

이므로 P(X(n)θϵ)1P(|X_{(n)}-\theta|\le\epsilon)\rightarrow1이 되고 ϵθ\epsilon\ge\theta이면 모든 nn에 대해 P(X(n)θϵ)=1P(|X_{(n)}-\theta|\le\epsilon)=1이 되므로 표본최댓값 X(n)X_{(n)}θ\theta의 일치추정량이다.

\\[30pt]

정리 4.9
추정량이 일치성을 가질 조건을 평균제곱오차(MSE)를 이용하여 표현할 경우, Tn(X)T_n(X)g(θ)g(\theta)의 추정량이라고 할 때, 모든 θΩ\theta\in\Omega에 대하여

limnE[Tn(X)g(θ)]2=0\lim_{n\rightarrow\infty}E[T_n(X)-g(\theta)]^2=0

이 성립하면, Tn(X)T_n(X)는 일치성이 있다.

[증명]
확률부등식에 의하면 X=Tn(X)g(θ), r=2, c=ϵX=T_n(X)-g(\theta),\ r=2,\ c=\epsilon으로 놓을 때 (쳬비셰프 부등식)

P[Tn(X)g(θ)ϵ]1E[Tn(X)g(θ)]2ϵ2P[|T_n(X)-g(\theta)|\le\epsilon]\ge 1-\dfrac{E[T_n(X)-g(\theta)]^2}{\epsilon^2}

이 성립한다. 이 때 좌변이 1이 성립할 때 일치성을 만족하기 때문에 E[Tn(X)g(θ)]2=0E[T_n(X)-g(\theta)]^2=0인 경우 일치성이 성립한다.

\divideontimes MSE(Tn)=E[Tn(X)g(θ)]2=Var(Tn)+[E(Tn)g(θ)]2\text{MSE}(T_n)=E[T_n(X)-g(\theta)]^2=\text{Var}(T_n)+[E(T_n)-g(\theta)]^2이므로 TnT_ng(θ)g(\theta)의 비편향추정량 [E(Tn)g(θ)]=0[E(T_n)-g(\theta)]=0인 경우 맨 오른쪽 항이 0이므로 limnVar(Tn)=0\lim_{n\rightarrow\infty}\text{Var}(T_n)=0이 성립하면 정리 4.9로부터 추정량 TnT_n의 일치성이 보장된다.

\\[30pt]

예 4.41
X1,X2,,XnX_1,X_2,\ldots,X_nEXP(λ)\text{EXP}(\lambda)로부터 얻은 랜덤표본이라고 하자. 이때 최대가능도 추정량 Xˉn\bar{X}_n은 비편향추정량이며

MSE(Xˉn)=Var(Xˉn)=0\text{MSE}(\bar{X}_n)=\text{Var}(\bar{X}_n)=0

이므로 Xˉn\bar{X}_n는 일치추정량이다.

한편 nX(1)EXP(λ)nX_{(1)}\sim \text{EXP}(\lambda)이므로 nX(1)nX_{(1)}λ\lambda의 비편향추정량이다. 하지만 ϵ<λ\epsilon<\lambdaϵ>0\epsilon>0에 대해

P[nX(1)λϵ]=e1(eϵ/λeϵ/λ)P[|nX_{(1)}-\lambda|\le\epsilon]=e^{-1}(e^{\epsilon/\lambda}-e^{-\epsilon/\lambda})

nn이 커질 때 1로 수렴하지 않으므로 일치추정량이 아니다.

\\[30pt]

정리 4. 10
TnT_n이 모수 θ\theta의 일치추정량이라고 할 때 g(x)g(x)θ\theta에서 연속인 함수이면 g(Tn)g(T_n)g(θ)g(\theta)의 일치추정량이다.

\\[30pt]

정리 4. 11
TnT_n이 모수 θ1\theta_1의 일치추정량이고 SnS_n이 모수 θ2\theta_2의 일치추정량이라고 하자. 그러면 cncc_n\rightarrow c이고 dndd_n\rightarrow d 인 실수열 cn, dnc_n,\ d_n에 대해,

cnTn+dnSnpcθ1+dθ2c_nT_n+d_nS_n\xrightarrow{p}c\theta_1+d\theta_2

이고,

Tn/Snpθ1/θ2,TnSnpθ1θ2 (θ20)T_n/S_n\xrightarrow{p}\theta_1/\theta_2,\quad T_nS_n\xrightarrow{p}\theta_1\theta_2\ (\theta_2\neq 0)

예 4.42

예 4.43

\\[30pt]

최대가능도 추정량의 점근적 성질

직접적으로 일치성을 입증하기 어려운 경우 적절한 조건하에서 점근적 성질을 이용한다면 최대가능도 추정량은 일치성을 가질 뿐 아니라 점근적으로 정규분포를 따르기 때문에 쉽게 근사적 구간추정과 검정이 가능하다.

정리 4.12
X1,X2,,XnX_1,X_2,\ldots,X_n이 확률밀도함수 f(x;θ)f(x;\theta)를 갖는 랜덤표본일 때 적절한 조건하에서 최대가능도 추정량 θ^n\hat{\theta}_nθ\theta의 일치추정량이다.

θ^npθ\hat{\theta}_n\xrightarrow{p}\theta

\\[20pt]
[풀이]

X1,X2,,XnX_1,X_2,\ldots,X_n이 확률밀도함수 f(x;θ)f(x;\theta)를 갖는 확률분포로부터 랜덤표본이고 θ^n\hat{\theta}_nθ\theta의 최대가능도 추정량이라고 하자. 로그가능도함수 θ\theta에 대한 1차 도함수는 θ^n\hat{\theta}_n에서 0이다.

(θ)=i=1nθdθlog(f(xi;θ)θ=θ^=0\ell'(\theta)=\left.\sum_{i=1}^{n} \dfrac{\theta}{d\theta}\log(f(x_i;\theta)\right|_{\theta=\hat{\theta}}=0

그리고 로그 가능도함수의 1차 도함수는 대수의 법칙에 의해 다음이 성립한다.

1ni=1nddθlog f(xi;θ)pE(ddθlog f(X;θ))\dfrac{1}{n}\sum_{i=1}^{n}\dfrac{d}{d\theta}\text{log }f(x_i;\theta)\xrightarrow{p}E\left(\dfrac{d}{d\theta}\text{log }f(X;\theta)\right)

이 때 양변을 0으로 하는 해는 각각 최대가능도 추정량 θ^n\hat{\theta}_n과 모수의 참값인 θ0\theta_0이다(1)^{(1)}. 따라서 적절한 조건에서

θ^npθ0\hat{\theta}_n\xrightarrow{p}\theta_0

으로 수렴할 것으로 기대할 수 있다. 참고서적의 수준에서 적절한 조건은 θ\theta에 대해 여러 번 미분 가능한 경우로 충분하다고 정의했다.

정리 4.13
X1,X2,,XnX_1,X_2,\ldots,X_n이 확률밀도함수 f(x;θ)f(x;\theta)를 갖는 랜덤표본이고 모수의 참값인 θ0\theta_0일 때 적절한 조건하에서 최대가능도 추정량 θ^n\hat{\theta}_n는 점근적으로 정규분포를 따른다.

n(θ^nθ0)dN(0, 1I(θ0))\sqrt{n}(\hat{\theta}_n-\theta_0)\xrightarrow{d}N\left(0,\ \dfrac{1}{I(\theta_0)}\right)

\\[20pt]

[풀이]

가능도함수 L(θ)L(\theta)XiX_i들의 함수로서 그 자체가 확률변수이므로

(θ)=logL(θ)=i=1nlog f(Xi;θ)\ell(\theta)=\log L(\theta)=\sum_{i=1}^{n}\text{log }f(X_i;\theta)

는 서로 독립이고 분포가 같은 nn개의 확률변수의 합으로 표현 가능하다. 모수의 참값이 θ0\theta_0일 때, 로그가능도함수를 미분한 (θ^n)\ell'(\hat{\theta}_n)를 테일러 전개를 이용하여 처음 두 항만을 취하면

(θ^n)(θ0)+(θ0)(θ^nθ0)\ell'(\hat{\theta}_n)\approx\ell'(\theta_0)+\ell''(\theta_0)(\hat{\theta}_n-\theta_0)

으로 나타낼 수 있다. θ^n\hat{\theta}_nθ0\theta_0의 일치추정량이므로 nn이 커질 때 두 값이 확률적으로 매우 가까우므로 테일러 전개에서 고차항들은 무시할 수 있다. (θ^n)=0\ell'(\hat{\theta}_n)=0이므로

θ^nθ0(θ0)(θ0)\hat{\theta}_n-\theta_0\approx-\dfrac{\ell'(\theta_0)}{\ell''(\theta_0)}

과 같은 근사식을 얻을 수 있고, 이로부터

n(θ^nθ0)1n(θ0)1n(θ0)\sqrt{n}(\hat{\theta}_n-\theta_0)\approx\dfrac{\dfrac{1}{\sqrt{n}}\ell'(\theta_0)}{-\dfrac{1}{\sqrt{n}}\ell''(\theta_0)}

을 얻는다. 적절한 조건하에 대수의 법칙에 의해 분모는 다음과 같이 피셔의 정보량으로 확률수렴한다.

1n(θ0)=1ni=1nd2dθ2log f(Xi;θ)θ=θ0pE{d2dθ2log f(X;θ)}θ=θ0=I(θ)\begin{aligned} -\dfrac{1}{\sqrt{n}}\ell''(\theta_0)=\left.-\dfrac{1}{\sqrt{n}}\sum_{i=1}^{n}\dfrac{d^2}{d\theta^2}\text{log }f(X_i;\theta)\right|_{\theta=\theta_0} \\[30pt] \xrightarrow{p}-\left.E\left\{\dfrac{d^2}{d\theta^2}\text{log }f(X;\theta)\right\}\right|_{\theta=\theta_0}=I(\theta) \end{aligned}

이 때 분자 1n(θ0)dN(0, I(θ))\dfrac{1}{\sqrt{n}}\ell'(\theta_0)\xrightarrow{d}N(0,\ I(\theta)) 이므로(2)^{(2)},

n(θ^nθ0)1I(θ)1n(θ0)d1I(θ0)N(0, θ0)\sqrt{n}(\hat{\theta}_n-\theta_0)\approx \dfrac{1}{I(\theta)}\dfrac{1}{\sqrt{n}}\ell'(\theta_0) \xrightarrow{d} \dfrac{1}{I(\theta_0)}N\left(0,\ \theta_0\right)

슬럿츠키 정리와 정규분포 특징을 이용해 다음과 같은 최대가능도 추정량의 점근적 정규성을 보이 수 있다.

n(θ^nθ0)dN(0, 1I(θ0))\sqrt{n}(\hat{\theta}_n-\theta_0)\xrightarrow{d}N\left(0,\ \dfrac{1}{I(\theta_0)}\right)

(2): https://velog.io/@choyun/commentary

\\[30pt]

예 4. 44
X1,X2,,XnX_1,X_2,\ldots,X_nEXP(θ)\text{EXP}(\theta)에서 관측되는 랜덤표본이라고 하자. θ\theta의 최대가능도 추정량은

(θ;x1,,xn)=nlog θi=1nxiθ(θ;x1,,xn)=nθi=1nxiθ2\begin{aligned} \ell(\theta;x_1,\ldots,x_n) &=-n\text{log }\theta-\dfrac{\sum_{i=1}^{n}x_i}{\theta} \\[10pt] \ell'(\theta;x_1,\ldots,x_n) &=-\dfrac{n}{\theta}-\dfrac{\sum_{i=1}^{n}x_i}{\theta^2} \end{aligned}

으로부터 θ^n=Xˉn\hat{\theta}_n=\bar{X}_n이고,

(2θ2)log f(x;θ)=1/θ22x/θ3\left(\dfrac{\partial^2}{\partial\theta^2}\right)\text{log }f(x;\theta)=1/\theta^2-2x/\theta^3

이므로

I(θ)=Eθ(2Xθ31θ2)=1θ2I(\theta)=E_{\theta}\left(\dfrac{2X}{\theta^3}-\dfrac{1}{\theta^2}\right)=\dfrac{1}{\theta^2}

이다. 그러므로 정리 4.13에 의해,

n(Xˉnθ)dN(0, θ2)\sqrt{n}(\bar{X}_n-\theta)\xrightarrow{d}N\left(0,\ \theta^2\right)

가 되고, 이것은 중심극한정리에서 얻은 결과와 동일하다.


[참고문헌]

  • 수리통계학 제 5판 - 송성주, 전명식

0개의 댓글