최대 우도 추정량의 성질

STATS·2023년 8월 9일
0

수리통계학

목록 보기
34/40

정칙조건

정칙조건은 이론/논리적 전개의 용이성을 위해 가정하는 조건들을 의미한다.

  1. 확률 함수들은 θ\theta에 대해 단사다. 즉 θθ\theta \neq \theta '이면 f(xi;θ)f(xi;θ)f(x_i; \theta) \neq f(x_i; \theta ')이다.

  2. 확률 함수들은 가능한 모든 θ\theta에 대해 동일한 서포트를 가진다.

  3. 실제 모수 값 θ0\theta_0는 모수 공간 Ω\Omega의 interior point다. 따라서 어떤 양수 ϵ\epsilon이 존재해서 (θ0ϵ,θ0+ϵ)Ω(\theta_0 - \epsilon, \theta_0 + \epsilon) \subset \Omega를 만족한다.

최대 우도 추정량의 점근적 수렴

우리는 표본이 점점 커질수록 모집단과 성질이 비슷해질 것을 기대한다.
최대 우도 추정법에 이 가정을 적용시키면 표본이 점점 커질수록 실제 모수에서의 우도 함수 값이 다른 모수를 가정했을 때의 우도 함수 값보다 클 것을 기대할 수 있다. 그래야 실제 모수의 우도 함수 값이 최댓값이 되어 올바른 모수 추정이 가능하기 때문이다.

이 성질을 수식으로 나타내면 다음과 같다.

limnPθ0[L(θ0)>L(θ)]=1,θθ0\lim \limits_{n \to \infin} P_{\theta_0}[L(\theta_0) > L(\theta)] = 1, \forall \theta \neq \theta_0

이는 표본이 커질수록 실제 모수의 분포 하에서 L(θ0)>L(θ)L(\theta_0) > L(\theta)의 사건이 벌어질 확률은 1로 수렴할 것을 의미한다. 따라서 표본 크기가 매우 커지면 위에서 기대했던 실제 모수에서의 우도 함수 값이 다른 가정된 모수에서의 우도 함수 값보다 거의 항상 클 것을 기대할 수 있다.

증명)

L(θ0)>L(θ)L(θ)L(θ0)<1log[L(θ)L(θ0)]<0l(θ)l(θ0)<0i=1n[logf(xi;θ)logf(xi;θ0)]<0Let Zi=log(f(xi;θ)f(xi;θ0)),Zˉ=1ni=1n[log(f(xi;θ)f(xi;θ0))]<0By WLLM, ZˉPEθ0(Z1)         (1)Eθ0(Z1)=Eθ0[log(f(x1;θ)f(x1;θ0))]<log[Eθ0(f(x1;θ)f(x1;θ0))] (젠센 부등식)=log(f(x1;θ)f(x1;θ0)f(x1;θ0)dθ)=log1=0ZˉPEθ0(Z1)<0limnPθ0[Zˉ<0]=limnPθ0[L(θ0)>L(θ)]=1L(\theta_0) > L(\theta) \Leftrightarrow \frac{L(\theta)}{L(\theta_0)} <1 \Leftrightarrow log\left[\frac{L(\theta)}{L(\theta_0)}\right] <0 \Leftrightarrow \\ l(\theta) - l(\theta_0) < 0 \Leftrightarrow \sum_{i=1}^n \left[logf(x_i;\theta) - log f(x_i;\theta_0)\right] < 0 \Leftrightarrow \\ \text{Let }Z_i = log\left(\frac{f(x_i;\theta)}{f(x_i;\theta_0)}\right),\bar{Z}=\frac{1}{n}\sum_{i=1}^n\left[log\left(\frac{f(x_i;\theta)}{f(x_i;\theta_0)}\right)\right] < 0 \\ {} \\ By \ WLLM, \ \bar{Z} \rightarrow^P E_{\theta_0}(Z_1) \ \ \ \ \ \ \ \ \ (1) \\ {} \\ E_{\theta_0}(Z_1) = E_{\theta_0}\left[log\left(\frac{f(x_1;\theta)}{f(x_1;\theta_0)}\right)\right] < log \left[E_{\theta_0}\left(\frac{f(x_1;\theta)}{f(x_1;\theta_0)}\right)\right] \ (\because \text{젠센 부등식})\\ {} \\=log\left(\int \frac{f(x_1;\theta)}{f(x_1;\theta_0)} f(x_1;\theta_0)d\theta\right) = log1 = 0 \\ {} \\ \therefore \bar{Z} \rightarrow^P E_{\theta_0}(Z_1) < 0 \Rightarrow \lim \limits_{n \to \infin}P_{\theta_0}\left[\bar{Z} < 0\right] = \lim \limits_{n \to \infin}P_{\theta_0}\left[L(\theta_0) > L(\theta)\right] = 1

최대 우도 추정량의 불변성(Invariance property)

함수 g:ΩΛg: \Omega \rightarrow Λ가 역함수가 존재하는 전단사 함수라고 하자.
θ^n\hat{\theta}_n이 모수 θ\theta에 대한 MLE라면, g(θ^n)g(\hat{\theta}_n)은 모수 g(θ)g(\theta)에 대한 MLE다.

증명)
ϕ=g(θ)\phi = g(\theta)라고 하자. gg가 일대일 대응이기 때문에 모든 ϕ\phi에 대해 어떤 θ\theta가 유일하게 존재해 θ=g1(ϕ)\theta = g^{-1}(\phi)를 만족한다.

우리가 찾으려고 하는 것은 ϕ\phi의 우도 함수를 최대로 만드는 ϕ^=g(θ)^\hat{\phi} = \hat{g(\theta)}를 찾는 것이다.

ϕ\phi의 우도 함수를 L(ϕ;x)=L(g1(ϕ);x)L'(\phi;x) = L(g^{-1}(\phi);x)로 정의하자.
그렇다면 ϕ\phi의 MLE는 ϕ^n=argmaxϕL(ϕ;x)=argmaxϕL(g1(ϕ);x)\hat{\phi}_n = argmax_\phi L'(\phi;x) = argmax_\phi L(g^{-1}(\phi);x)가 된다.

따라서 ϕ^n\hat{\phi}_n은 어떤 θ=g1(ϕ)\theta = g^{-1}(\phi)LL을 최대화 할 때의 ϕ\phi값이므로, θ^n=g1(ϕ^)ϕ^n=g(θ^n)\hat{\theta}_n = g^{-1}(\hat{\phi}) \Rightarrow \hat{\phi}_n = g(\hat{\theta}_n)임을 알 수 있다.

최대 우도 추정량의 일관성(Consistency)

최대 우도 추정량은 consistent estimator다. 즉 θn^\hat{\theta_n}이 실제 모수 θ0\theta_0의 최대 우도 추정량이면 일관성의 정의에 따라 θn^\hat{\theta_n}θ0\theta_0으로 확률 수렴한다.

증명 스케치)
θ0\theta_0는 모수 공간 Ω\Omega의 내부점이다. 따라서 어떤 ϵ>0\epsilon > 0가 존재해서 (θ0ϵ,θ0+ϵ)Ω(\theta_0 - \epsilon, \theta_0 + \epsilon) \subset \Omega를 만족한다.
사건 SnS_n = {Xl(θ0)>l(θϵ)}{Xl(θ0)>l(θ0+ϵ)}\{X| l(\theta_0) > l(\theta-\epsilon)\} \cap \{X|l(\theta_0) > l(\theta_0 + \epsilon)\}으로 정의하자. SnS_nθ0\theta_0에서의 우도 함수의 값이 근방의 우도 함수 값보다 큰 사건을 의미한다.

위에서 살펴본 추정량의 점근적 수렴 성질에 따라 사건 SnS_n의 모수가 θ0\theta_0인 분포에서의 확률, 즉 P(Sn)P(S_n)은 점근적으로 1에 수렴한다. 따라서 limnP(Sn)=1\lim \limits_{n \to \infin} P(S_n) = 1이다.

θn^\hat{\theta_n}θn^θ0^<ϵ|\hat{\theta_n} - \hat{\theta_0}| < \epsilon이고 l(θn^)=0l'(\hat{\theta_n}) = 0을 만족하는 극대점에서의 θ\theta값이라고 하자.

SnS_nθϵ\theta - \epsilonθ+ϵ\theta + \epsilon 사이에 극대점이 있을 것을 보장한다.
따라서 Sn{Xθn^θ0^<ϵ,l(θn^)=0}S_n \subset \{X||\hat{\theta_n} - \hat{\theta_0}| < \epsilon, l'(\hat{\theta_n}) = 0\}이므로 P(Sn)P({Xθn^θ0^<ϵ,l(θn^)=0})P(S_n) \le P(\{X||\hat{\theta_n} - \hat{\theta_0}| < \epsilon, l'(\hat{\theta_n}) = 0\})이다.

이 때 P(Sn)1P(S_n) \rightarrow 1이므로 limnP({Xθn^θ0^<ϵ,l(θn^)=0})=1\lim \limits_{n \to \infin}P(\{X||\hat{\theta_n} - \hat{\theta_0}| < \epsilon, l'(\hat{\theta_n}) = 0\})=1이다. 따라서 θn^Pθ0\hat{\theta_n} \rightarrow^P \theta_0이다.

1개의 댓글

comment-user-thumbnail
2023년 8월 9일

이런 유용한 정보를 나눠주셔서 감사합니다.

답글 달기