Likelihood Ratio Test
다음의 가설검정을 고려해보자.
H 0 : θ ∈ Θ 0 v . s H 1 : θ ∈ Θ 1 H_0 : \theta \in \Theta_0 \quad v.s \quad H_1 : \theta \in \Theta_1 H 0 : θ ∈ Θ 0 v . s H 1 : θ ∈ Θ 1
가능도비 Λ ( X ) \Lambda(X) Λ ( X ) 를 아래와 같이 정의하자.
Λ ( X ) = sup Θ Π i = 1 n f ( X i ∣ θ ) sup Θ 0 Π i = 1 n f ( X i ∣ θ ) \Lambda(X) = \frac{\sup_{\Theta} \Pi_{i=1}^n f(X_i \mid \theta)}{\sup_{\Theta_0} \Pi_{i=1}^n f(X_i \mid \theta)} Λ ( X ) = sup Θ 0 Π i = 1 n f ( X i ∣ θ ) sup Θ Π i = 1 n f ( X i ∣ θ )
이때, 아래의 검정을 가능도비 검정이라고 한다.
ϕ ( X ) = I ( Λ ( X ) ≥ k ) \phi(X) = \mathbb{I}(\Lambda(X) \geq k) ϕ ( X ) = I ( Λ ( X ) ≥ k )
Sufficient Statistic
네이만-피어슨 분해정리에 의해서, 다음의 사실을 관찰할수 있다. (충분통계량을 T T T 라고 하고, 충분통계량의 가능도비를 Λ ∗ \Lambda^* Λ ∗ 로 두자.)
Λ ( X ) = sup Θ Π i = 1 n f ( X i ∣ θ ) sup Θ 0 Π i = 1 n f ( X i ∣ θ ) = f ( X ∣ θ ^ n ) f ( X ∣ θ ^ 0 n ) = g ( T ( X ) ∣ θ ^ n ) h ( X ) g ( T ( X ) ∣ θ ^ 0 n ) h ( X ) = g ( T ( X ) ∣ θ ^ n ) g ( T ( X ) ∣ θ ^ 0 n ) = Λ ∗ ( T ) \begin{aligned} \Lambda(X) &= \frac{\sup_{\Theta} \Pi_{i=1}^n f(X_i \mid \theta)}{\sup_{\Theta_0} \Pi_{i=1}^n f(X_i \mid \theta)}\\ &= \frac{f( X \mid \hat \theta_n)}{f(X \mid \hat \theta_{0n})} \\ &= \frac{g(T(X) \mid \hat \theta_n) h(X)}{g(T(X) \mid \hat \theta_{0n}) h(X)} \\ &=\frac{g(T(X) \mid \hat \theta_n)}{g(T(X) \mid \hat \theta_{0n})} \\ &= \Lambda^*(T) \end{aligned} Λ ( X ) = sup Θ 0 Π i = 1 n f ( X i ∣ θ ) sup Θ Π i = 1 n f ( X i ∣ θ ) = f ( X ∣ θ ^ 0 n ) f ( X ∣ θ ^ n ) = g ( T ( X ) ∣ θ ^ 0 n ) h ( X ) g ( T ( X ) ∣ θ ^ n ) h ( X ) = g ( T ( X ) ∣ θ ^ 0 n ) g ( T ( X ) ∣ θ ^ n ) = Λ ∗ ( T )
그래서, 충분통계량의 가능도비를 찾는 것 충분하다.
Wald, Score
항상 이제 가능도비랑 같이 묶이는 3대장이다.
일단 Wald는 다음의 사실에 근거한다.
n ( θ ^ n − θ 0 ) → d N ( 0 , I ( θ 0 ) − 1 ) \sqrt{n}(\hat \theta_n - \theta_0) \overset{d}{\to} N(0, I(\theta_0)^{-1}) n ( θ ^ n − θ 0 ) → d N ( 0 , I ( θ 0 ) − 1 )
고러면, n ( θ ^ n − θ 0 ) ⊤ I ( θ 0 ) ( θ ^ n − θ 0 ) → χ k n (\hat \theta_n - \theta_0)^{\top} I(\theta_0) (\hat \theta_n - \theta_0) \to \chi_k n ( θ ^ n − θ 0 ) ⊤ I ( θ 0 ) ( θ ^ n − θ 0 ) → χ k .
Score는 다음의 사실에 근거한다.
1 n S n ( θ 0 ) = n ( 1 n ∑ i = 1 n ∇ θ log f ( X i ∣ θ ) ∣ θ = θ 0 ) → d N ( 0 , I ( θ 0 ) ) \frac{1}{\sqrt{n}}S_n(\theta_0) = \sqrt{n}\left( \frac{1}{n}\sum_{i=1}^n \nabla_{\theta} \log f(X_i \mid \theta)|_{\theta = \theta_0} \right) \overset{d}{\to} N(0, I(\theta_0)) n 1 S n ( θ 0 ) = n ( n 1 i = 1 ∑ n ∇ θ log f ( X i ∣ θ ) ∣ θ = θ 0 ) → d N ( 0 , I ( θ 0 ) )
그럼, 1 n S n ( θ 0 ) I ( θ 0 ) − 1 S n ( θ ) → χ k \frac{1}{n}S_n(\theta_0)I(\theta_0)^{-1}S_n(\theta) \to \chi_k n 1 S n ( θ 0 ) I ( θ 0 ) − 1 S n ( θ ) → χ k .
Asymptotics
당연히 많은 경우에 가능도비검정의 검정통계량이 따르는 분포를 정확히 알지 못한다. 그래서 n이 충분히 클때, 분포가 어디로 수렴하는지 Asymptotic 분석을 하는 것이 무척 중요하다.
일반적으로 다음의 사실이 성립한다. (n이 클때)
여기서는 단순한 가설검정만 생각해볼게. H 0 : θ = θ 0 H_0 : \theta = \theta_0 H 0 : θ = θ 0 인 양측검정.
2 log Λ ( X ) → d χ 1 2 \log \Lambda(X) \overset{d}{\to} \chi_1 2 log Λ ( X ) → d χ 1
이제 설명을 해보자. 이 증명은 MLE의 점근정규성 증명과 유사하다.
ℓ n ( θ 0 ) = ℓ n ( θ ^ n ) + ∇ ℓ n ( θ ^ n ) ⊤ ( θ 0 − θ ^ n ) + 1 2 ( θ ^ n − θ 0 ) ⊤ ∇ 2 ℓ n ( θ ∗ ) ( θ ^ n − θ 0 ) = 1 2 ( θ ^ n − θ 0 ) ⊤ ∇ 2 ℓ n ( θ ∗ ) ( θ ^ n − θ 0 ) \begin{aligned} &\ell_n(\theta_0) = \ell_n(\hat \theta_n) + \nabla \ell_n(\hat \theta_n)^{\top} (\theta_0 - \hat \theta_n ) + \frac{1}{2}(\hat \theta_n - \theta_0)^{\top} \nabla^2 \ell_n(\theta^*)(\hat \theta_n - \theta_0) \\ &= \frac{1}{2}(\hat \theta_n - \theta_0)^{\top} \nabla^2 \ell_n(\theta^*)(\hat \theta_n - \theta_0) \end{aligned} ℓ n ( θ 0 ) = ℓ n ( θ ^ n ) + ∇ ℓ n ( θ ^ n ) ⊤ ( θ 0 − θ ^ n ) + 2 1 ( θ ^ n − θ 0 ) ⊤ ∇ 2 ℓ n ( θ ∗ ) ( θ ^ n − θ 0 ) = 2 1 ( θ ^ n − θ 0 ) ⊤ ∇ 2 ℓ n ( θ ∗ ) ( θ ^ n − θ 0 )
자 그러면, 이제 다음의 사실을 우리는 알고 있다.
적당한 정규성 아래에서 θ ^ n → θ 0 \hat \theta_n \to \theta_0 θ ^ n → θ 0 이므로, θ ∗ → θ 0 \theta^* \to \theta_0 θ ∗ → θ 0 이다.
− 1 n ∇ 2 ℓ n ( θ ∗ ) = 1 n ∑ i ∈ [ n ] [ − ∇ 2 log f ( X i ∣ θ ∗ ) ] → P E θ 0 [ − ∇ 2 log f ( X 1 ∣ θ ) ] = I ( θ 0 ) -\frac{1}{n}\nabla^2 \ell_n(\theta^*) = \frac{1}{n}\sum_{i \in [n]} \left[ - \nabla^2 \log f(X_i \mid \theta^*)\right] \overset{P}{\to}\mathbb{E}_{\theta_0}[-\nabla^2 \log f(X_1 \mid \theta)] = I(\theta_0) − n 1 ∇ 2 ℓ n ( θ ∗ ) = n 1 i ∈ [ n ] ∑ [ − ∇ 2 log f ( X i ∣ θ ∗ ) ] → P E θ 0 [ − ∇ 2 log f ( X 1 ∣ θ ) ] = I ( θ 0 )
그러므로, 다음을 알 수 있다.
2 ( ℓ n ( θ ^ n ) ) − ℓ n ( θ 0 ) ) = n ( θ ^ n − θ 0 ) ⊤ [ − 1 n ∇ 2 ℓ n ( θ ∗ ) ] ( θ ^ n − θ 0 ) → d Z ⊤ I ( θ 0 ) Z = χ k \begin{aligned} 2(\ell_n(\hat \theta_n)) - \ell_n(\theta_0)) &= n(\hat \theta_n - \theta_0)^{\top} [-\frac{1}{n}\nabla^2 \ell_n(\theta^*)](\hat \theta_n - \theta_0) \\ &\overset{d}{\to} Z^{\top} I(\theta_0)Z = \chi_k \end{aligned} 2 ( ℓ n ( θ ^ n ) ) − ℓ n ( θ 0 ) ) = n ( θ ^ n − θ 0 ) ⊤ [ − n 1 ∇ 2 ℓ n ( θ ∗ ) ] ( θ ^ n − θ 0 ) → d Z ⊤ I ( θ 0 ) Z = χ k