피셔 정보량의 직관적인 이해

STATS·2023년 8월 13일
1

수리통계학

목록 보기
37/40

피셔 정보량

피셔 정보량의 정의는 다음과 같다.

I(θ)=E[{θlogf(X;θ)}2]I(\theta) = E \left[\{\frac{\partial}{\partial \theta} log f(X ; \theta)\}^2\right]

피셔 정보량은 흔히 "표본이 모수를 추정하는데 얼마나 많은 정보를 주는가?"라는 뜻이라고 한다. 그런데 이 표현은 너무 추상적이다. "정보"란 무엇인가? "정보의 양"은 무슨 뜻인가?

이를 이해하기 위해서는 피셔 정보량의 함의를 살펴야 한다.

바틀렛 항등식

피셔 정보량의 뜻을 더 자세히 파헤치기 위해 바틀렛 항등식이라는 정의를 도입하자. 바틀렛 항등식의 성립조건이나 증명은 이 글에서는 중심 내용이 아니므로 생략하겠다.

1.E[θlogf(X;θ)]=02.E[2θ2logf(X;θ)]+Var[θlogf(X;θ)]=01. E\left[\frac{\partial}{\partial \theta} logf(X ; \theta)\right] = 0 \\ {} \\ 2. E \left[\frac{\partial^2}{\partial \theta^2} logf(X;\theta) \right] + Var\left[\frac{\partial}{\partial \theta} logf(X;\theta)\right] = 0

피셔 통계량이 함의하는 것

이제 바틀렛 항등식을 이용해 피셔 통계량을 다르게 정의하자.

I(θ)=E[{θlogf(X;θ)}2]=E[{θlogf(X;θ)}2]02=E[{θlogf(X;θ)}2]E[θlogf(X;θ)]2=Var[θlogf(X;θ)]I(\theta) = E \left[\{\frac{\partial}{\partial \theta} log f(X ; \theta)\}^2\right] = E \left[\{\frac{\partial}{\partial \theta} log f(X ; \theta)\}^2\right] -0^2 = \\{} \\ E \left[\{\frac{\partial}{\partial \theta} log f(X ; \theta)\}^2\right]- E\left[\frac{\partial}{\partial \theta} logf(X ; \theta)\right]^2 = Var\left[\frac{\partial}{\partial \theta} logf(X;\theta)\right]

따라서 피셔 통계량은 로그-우도 함수(l(θ)l(\theta))의 도함수의 분산임을 알 수 있다.

여기서 한가지 더 문제가 발생한다 : 로그-우도 함수의 도함수는 뭐고 도함수의 분산은 무엇을 의미하는가? 먼저 그 분포부터 살펴보자.

로그 우도 함수의 도함수 : 확률변수?

먼저 드는 의문은 로그 우도 함수는 θ\theta에 대한 함수인데 어떻게 확률 분포를 가지는가?이다.
이를 이해하기 위해서 앞으로 우리가 사용할 가정을 먼저 설정하자.

확률변수 XXN(0,1)N(0, 1), YYN(0,25)N(0, 25)을 따른다고 하자. 그런데 각각의 모평균을 모른다고 가정하고, XN(θ1,1)X \sim N(\theta_1, 1)이고, YN(θ2,25)Y \sim N(\theta_2, 25)일 때 θ1\theta_1θ2\theta_2를 각각 추정하려 한다. 표본의 크기는 두 경우 모두 1000이라고 하자.

그렇다면 각각의 로그 우도 함수의 도함수는 다음과 같이 주어진다.

θlθ1(θ)=(i=1nXi)1000θθlθ2(θ)=(125i=1nXi)40θ\frac{\partial}{\partial \theta}l_{\theta_1}(\theta) = \left(\sum_{i=1}^n X_i\right)-1000\theta \\ {} \\ \frac{\partial}{\partial \theta}l_{\theta_2}(\theta) = \left(\frac{1}{25}\sum_{i=1}^n X_i\right)-40\theta

따라서 로그 우도 함수의 도함수는 표본 {X1,...,Xn}\{X_1, ..., X_n\}에 대한 함수임을 알 수 있다. 따라서 로그 우도 함수의 도함수의 확률 분포는 어떤 고정/가정된 θ\theta에 대한 확률 분포를 의미한다.

로그 우도 함수의 도함수의 확률 분포

이제 로그 우도 함수의 도함수의 확률 분포를 직접 살펴보자.

각각은 θl(θ)\frac{\partial}{\partial \theta} l(\theta)의 확률분포를 나타낸다.
σ2=1\sigma^2 = 1dl/dθdl/d\theta의 분포가 σ2=25\sigma^2 = 25dl/dθdl/d\theta의 분포보다 분산이 훨씬 큰 것을 알 수 있다. 피셔 정보량을 정의했던 것을 떠올리면 σ2=1\sigma^2 = 1의 경우가 피셔 정보량이 크고, σ2=25\sigma^2 = 25의 경우가 피셔 정보량이 작다.

분산이 크다는 것은 확률 변수가 가지는 값이 평균에서 멀리 떨어진 곳에서도 자주 추출된다는 것이다. 따라서 σ2=1\sigma^2 = 1의 경우 σ2=25\sigma^2 = 25에 비해 극단적인(평균인 0에서 멀리 떨어진) dl/dθdl/d\theta가 자주 발생한다.

로그 우도 함수의 도함수

왼쪽 플롯은 위에서 θl(θ)\frac{\partial}{\partial \theta} l(\theta)의 분산이 컸던 경우를 의미한다. 분산이 크기 때문에 도함수들의 기울기 크기가 큰 것을 알 수 있다. 도함수의 기울기가 크다는 것은 lθ1(θ)l_{\theta_1}(\theta)의 곡률이 크다는 것이고, 극점이 매우 뾰족하게 나타날 것이다.

반대로 오른쪽 플롯은 분산이 작았다. 따라서 도함수의 기울기 크기가 0 근처에 뽑힐 것이고, 왼쪽과 비교했을 때 훨씬 완만한 것을 알 수 있다. 이 경우 반대로 곡률이 상대적으로 작고, 극점에서도 주변의 값과 차이가 거의 없이 완만하다고 볼 수 있다.

곡률에서 알 수 있는 것

마지막으로 로그 우도 함수를 시각화해서 실제로 극점에서 완만함의 차이를 확인하자.

우리의 목표는 최대 우도 추정량; 즉, 로그 우도 함수를 최대화 하는 θ\theta를 찾는 것이다.
두 분포의 모평균이 0이라는 것을 아예 모르는 상황일 때, 곡률이 큰 σ2=1\sigma^2 = 1의 경우 θ=0\theta = 0에서 함수가 매우 뾰족하다. 따라서 θ=0\theta=0에서 함수가 최대값을 가짐을 파악하기 쉽다.

반면 σ2=25\sigma^2 = 25의 경우는 함수의 곡률이 작기 때문에 극점에서도 함수값의 변화가 크게 없고, 따라서 어느 곳이 최대값인지 파악하기 힘들다.

결론적으로 피셔의 정보량이 크면 로그-우도 함수의 곡률이 크고(극점에서 뾰족하고), 이는 최대 우도 추정량을 찾는 난이도를 줄여준다. 이 것이 "피셔 정보량은 표본이 모수를 추정하는데 주는 정보량"의 속 뜻이다.

1개의 댓글

comment-user-thumbnail
2024년 8월 26일

굉장히 좋은 글이네요. 감사합니다.

답글 달기