지수족 분포란
지수족 분포(Exponential Family)는 많은 일반적인 확률분포가 하나의 공통된 형태로 표현될 수 있는 분포족을 말합니다. 기본적인 형태는 다음과 같이 표현됩니다:
f ( y ; θ ) = h ( y ) exp { θ T ( y ) − A ( θ ) } f(y;\theta) = h(y)\,\exp\{ \theta \,T(y) - A(\theta) \} f ( y ; θ ) = h ( y ) exp { θ T ( y ) − A ( θ ) }
여기서
θ \theta θ 는 자연파라미터(canonical parameter) ,
T ( y ) T(y) T ( y ) 는 충분 통계량(sufficient statistic) ,
A ( θ ) A(\theta) A ( θ ) 는 정규화 함수(log-partition function) , 그리고
h ( y ) h(y) h ( y ) 는 y y y 에만 의존하는 함수입니다.
이런 형태 덕분에 지수족 분포는 다음과 같은 특징을 가집니다:
충분성:
충분 통계량 T ( y ) T(y) T ( y ) 가 존재하여, y y y 에 대한 모든 정보를 T ( y ) T(y) T ( y ) 에 요약할 수 있습니다.
모멘트 정보:
평균과 분산 등 중요한 모멘트들이 A ( θ ) A(\theta) A ( θ ) 의 도함수를 통해 쉽게 표현됩니다. 예를 들어,
E ( Y ) = A ′ ( θ ) E(Y) = A'(\theta) E ( Y ) = A ′ ( θ )
Var ( Y ) = A ′ ′ ( θ ) \operatorname{Var}(Y) = A''(\theta) V a r ( Y ) = A ′ ′ ( θ )
예시:
대표적인 지수족 분포로는 정규분포(평균을 모수로 할 때), 이항분포, 포아송 분포, 감마분포 등이 있습니다.
이러한 구조 덕분에 지수족 분포는 통계학에서 모수 추정, 충분성, 그리고 일반화 선형 모형(GLM) 등의 이론적 토대를 마련하는 데 중요한 역할을 합니다.
지수족 분포의 예시: 정규분포
정규분포가 지수족 분포에 속함을 보여주기 위해, 모수가 평균인 정규분포(분산이 알려진 경우)의 확률밀도함수를 지수족 형태로 변환하는 과정을 살펴보겠습니다.
정규분포의 확률밀도함수
분산이 σ 2 \sigma^2 σ 2 (알려진 값)이고 평균이 μ \mu μ 인 정규분포의 밀도함수는
f ( y ; μ ) = 1 2 π σ 2 exp { − ( y − μ ) 2 2 σ 2 } f(y;\mu)=\frac{1}{\sqrt{2\pi\sigma^2}}\exp\Biggl\{-\frac{(y-\mu)^2}{2\sigma^2}\Biggr\} f ( y ; μ ) = 2 π σ 2 1 exp { − 2 σ 2 ( y − μ ) 2 }
지수족 분포의 일반적인 형태
지수족 분포는 보통 아래와 같이 표현됩니다.
f ( y ; θ ) = h ( y ) exp { θ T ( y ) − A ( θ ) } , f(y;\theta)=h(y)\,\exp\Bigl\{\theta\,T(y)-A(\theta)\Bigr\}, f ( y ; θ ) = h ( y ) exp { θ T ( y ) − A ( θ ) } ,
여기서
θ \theta θ 는 자연파라미터,
T ( y ) T(y) T ( y ) 는 충분 통계량,
A ( θ ) A(\theta) A ( θ ) 는 정규화 함수,
h ( y ) h(y) h ( y ) 는 y y y 에만 의존하는 함수입니다.
정규분포를 지수족 형태로 변환하기
먼저, 정규분포의 지수 부분을 전개해 보겠습니다. − ( y − μ ) 2 2 σ 2 = − y 2 2 σ 2 + μ y σ 2 − μ 2 2 σ 2 . -\frac{(y-\mu)^2}{2\sigma^2} = -\frac{y^2}{2\sigma^2} + \frac{\mu\,y}{\sigma^2} - \frac{\mu^2}{2\sigma^2}. − 2 σ 2 ( y − μ ) 2 = − 2 σ 2 y 2 + σ 2 μ y − 2 σ 2 μ 2 . 따라서, 정규분포의 밀도함수는 f ( y ; μ ) = 1 2 π σ 2 exp { − y 2 2 σ 2 + μ y σ 2 − μ 2 2 σ 2 } . f(y;\mu)=\frac{1}{\sqrt{2\pi\sigma^2}}\exp\Biggl\{-\frac{y^2}{2\sigma^2}+\frac{\mu\,y}{\sigma^2}-\frac{\mu^2}{2\sigma^2}\Biggr\}. f ( y ; μ ) = 2 π σ 2 1 exp { − 2 σ 2 y 2 + σ 2 μ y − 2 σ 2 μ 2 } .
이 식을 지수족 형태와 비교하면 다음과 같이 정리할 수 있습니다.
h ( y ) h(y) h ( y ) :
y y y 에만 의존하는 항은
h ( y ) = 1 2 π σ 2 exp { − y 2 2 σ 2 } . h(y)=\frac{1}{\sqrt{2\pi\sigma^2}}\exp\Biggl\{-\frac{y^2}{2\sigma^2}\Biggr\}. h ( y ) = 2 π σ 2 1 exp { − 2 σ 2 y 2 } .
자연파라미터 θ \theta θ 와 충분 통계량 T ( y ) T(y) T ( y ) :
μ y σ 2 \frac{\mu\,y}{\sigma^2} σ 2 μ y 항을 보면,
자연파라미터 θ \theta θ 를 θ = μ σ 2 \theta=\frac{\mu}{\sigma^2} θ = σ 2 μ 로 두고, 충분 통계량을 T ( y ) = y T(y)=y T ( y ) = y 로 설정할 수 있습니다.
정규화 함수 A ( θ ) A(\theta) A ( θ ) :
− μ 2 2 σ 2 -\frac{\mu^2}{2\sigma^2} − 2 σ 2 μ 2 항은 − A ( θ ) -A(\theta) − A ( θ ) 에 해당하므로,
A ( θ ) = μ 2 2 σ 2 . A(\theta)=\frac{\mu^2}{2\sigma^2}. A ( θ ) = 2 σ 2 μ 2 .
그러나 μ \mu μ 는 θ σ 2 \theta\sigma^2 θ σ 2 와 같으므로,
A ( θ ) = ( θ σ 2 ) 2 2 σ 2 = θ 2 σ 2 2 . A(\theta)=\frac{(\theta\sigma^2)^2}{2\sigma^2}=\frac{\theta^2\sigma^2}{2}. A ( θ ) = 2 σ 2 ( θ σ 2 ) 2 = 2 θ 2 σ 2 .
최종 형태 정리
따라서, 정규분포의 밀도함수를 지수족의 일반적인 형태로 표현하면 f ( y ; θ ) = 1 2 π σ 2 exp { − y 2 2 σ 2 } exp { θ y − θ 2 σ 2 2 } , f(y;\theta)=\frac{1}{\sqrt{2\pi\sigma^2}}\exp\Biggl\{-\frac{y^2}{2\sigma^2}\Biggr\}\,\exp\Biggl\{\theta\,y-\frac{\theta^2\sigma^2}{2}\Biggr\}, f ( y ; θ ) = 2 π σ 2 1 exp { − 2 σ 2 y 2 } exp { θ y − 2 θ 2 σ 2 } , 여기서
θ = μ σ 2 \theta=\frac{\mu}{\sigma^2} θ = σ 2 μ ,
T ( y ) = y T(y)=y T ( y ) = y ,
A ( θ ) = θ 2 σ 2 2 A(\theta)=\frac{\theta^2\sigma^2}{2} A ( θ ) = 2 θ 2 σ 2 .
이와 같이, 정규분포는 지수족 분포의 일반적인 형태에 자연스럽게 대입할 수 있음을 확인할 수 있습니다. 이 예제는 정규분포(평균을 모수로, 분산은 알려진 경우)가 지수족 분포에 속함을 보여주며, 이러한 표현은 모수 추정, 충분 통계량 활용, 그리고 일반화 선형 모형(GLM) 등의 이론적 기반을 마련하는 데 매우 유용합니다.
지수족 분포의 정규화 함수 부분
지수족 분포에서 A ( θ ) A(\theta) A ( θ ) 는 정규화 상수(혹은 로그-분할 함수, log-partition function)로서, 다음과 같이 정의됩니다:
∫ h ( y ) exp { θ T ( y ) − A ( θ ) } d y = 1. \int h(y)\exp\{ \theta\,T(y)-A(\theta) \}\,dy = 1. ∫ h ( y ) exp { θ T ( y ) − A ( θ ) } d y = 1 .
이 식의 좌변이 1이 되도록 A ( θ ) A(\theta) A ( θ ) 를 정하는 것입니다. 여기서 양변을 θ \theta θ 에 대해 미분하면 다음과 같이 됩니다.
먼저 정규화 조건에 대해 θ \theta θ 로 미분합니다.
d d θ [ ∫ h ( y ) exp { θ T ( y ) − A ( θ ) } d y ] = 0. \frac{d}{d\theta}\Biggl[\int h(y)\exp\{ \theta\,T(y)-A(\theta) \}\,dy\Biggr] = 0. d θ d [ ∫ h ( y ) exp { θ T ( y ) − A ( θ ) } d y ] = 0 .
미분을 적분 기호 안으로 옮기면 (적분과 미분의 순서를 바꿀 수 있다고 가정하고)
∫ h ( y ) exp { θ T ( y ) − A ( θ ) } [ T ( y ) − A ′ ( θ ) ] d y = 0. \int h(y)\exp\{ \theta\,T(y)-A(\theta) \} \Bigl[T(y)-A'(\theta)\Bigr]\,dy = 0. ∫ h ( y ) exp { θ T ( y ) − A ( θ ) } [ T ( y ) − A ′ ( θ ) ] d y = 0 .
이때 f ( y ; θ ) = h ( y ) exp { θ T ( y ) − A ( θ ) } f(y;\theta)=h(y)\exp\{ \theta\,T(y)-A(\theta) \} f ( y ; θ ) = h ( y ) exp { θ T ( y ) − A ( θ ) } 이므로, 위 식은
∫ f ( y ; θ ) [ T ( y ) − A ′ ( θ ) ] d y = 0 \int f(y;\theta)\Bigl[T(y)-A'(\theta)\Bigr]\,dy = 0 ∫ f ( y ; θ ) [ T ( y ) − A ′ ( θ ) ] d y = 0
가 됩니다. 적분의 선형성에 의해 이는
∫ f ( y ; θ ) T ( y ) d y − A ′ ( θ ) ∫ f ( y ; θ ) d y = E [ T ( Y ) ] − A ′ ( θ ) = 0 , \int f(y;\theta)T(y)\,dy - A'(\theta)\int f(y;\theta)\,dy = E[T(Y)] - A'(\theta) = 0, ∫ f ( y ; θ ) T ( y ) d y − A ′ ( θ ) ∫ f ( y ; θ ) d y = E [ T ( Y ) ] − A ′ ( θ ) = 0 ,
로 정리할 수 있습니다. 왜냐하면 ∫ f ( y ; θ ) d y = 1 \int f(y;\theta)\,dy = 1 ∫ f ( y ; θ ) d y = 1 이기 때문입니다.
따라서,
E [ T ( Y ) ] = A ′ ( θ ) . E[T(Y)] = A'(\theta). E [ T ( Y ) ] = A ′ ( θ ) .
만약 충분 통계량이 T ( y ) = y T(y)=y T ( y ) = y 인 경우, 이는 곧
E ( Y ) = A ′ ( θ ) E(Y)=A'(\theta) E ( Y ) = A ′ ( θ )
를 의미합니다.
즉, E ( Y ) = A ′ ( θ ) E(Y)=A'(\theta) E ( Y ) = A ′ ( θ ) 가 성립하는 이유는 A ( θ ) A(\theta) A ( θ ) 의 정의에서 비롯된 정규화 조건을 θ \theta θ 에 대해 미분함으로써, 충분 통계량의 기댓값이 A ( θ ) A(\theta) A ( θ ) 의 미분으로 표현된다는 사실에서 옵니다.
이제 Var ( Y ) = A ′ ′ ( θ ) \operatorname{Var}(Y)=A''(\theta) V a r ( Y ) = A ′ ′ ( θ ) 임을 보입시다.
우선, A ( θ ) A(\theta) A ( θ ) 는 정규화 상수(로그-분할 함수)로서
A ( θ ) = log Z ( θ ) , where Z ( θ ) = ∫ h ( y ) exp { θ T ( y ) } d y . A(\theta)=\log Z(\theta),\quad \text{where} \quad Z(\theta)=\int h(y)\exp\{ \theta\,T(y) \}\,dy. A ( θ ) = log Z ( θ ) , where Z ( θ ) = ∫ h ( y ) exp { θ T ( y ) } d y .
임을 기억합니다. 앞서 증명한 바와 같이, 로그우도함수의 미분 결과로
A ′ ( θ ) = E θ [ T ( Y ) ] A'(\theta)=E_\theta[T(Y)] A ′ ( θ ) = E θ [ T ( Y ) ]
가 성립합니다. 이제 이 식을 한 번 더 미분하면,
A ′ ′ ( θ ) = d d θ E θ [ T ( Y ) ] . A''(\theta)=\frac{d}{d\theta}E_\theta[T(Y)]. A ′ ′ ( θ ) = d θ d E θ [ T ( Y ) ] .
한편, A ( θ ) = log Z ( θ ) A(\theta)=\log Z(\theta) A ( θ ) = log Z ( θ ) 이므로, 체인 룰에 따라
A ′ ( θ ) = Z ′ ( θ ) Z ( θ ) , A'(\theta)=\frac{Z'(\theta)}{Z(\theta)}, A ′ ( θ ) = Z ( θ ) Z ′ ( θ ) ,
이고, 다시 미분하면
A ′ ′ ( θ ) = Z ′ ′ ( θ ) Z ( θ ) − [ Z ′ ( θ ) ] 2 [ Z ( θ ) ] 2 . A''(\theta)=\frac{Z''(\theta)Z(\theta)-[Z'(\theta)]^2}{[Z(\theta)]^2}. A ′ ′ ( θ ) = [ Z ( θ ) ] 2 Z ′ ′ ( θ ) Z ( θ ) − [ Z ′ ( θ ) ] 2 .
여기서
Z ′ ( θ ) = ∫ h ( y ) T ( y ) exp { θ T ( y ) } d y , Z'(\theta)=\int h(y)T(y)\exp\{ \theta\,T(y) \}\,dy, Z ′ ( θ ) = ∫ h ( y ) T ( y ) exp { θ T ( y ) } d y ,
Z ′ ′ ( θ ) = ∫ h ( y ) T ( y ) 2 exp { θ T ( y ) } d y . Z''(\theta)=\int h(y)T(y)^2\exp\{ \theta\,T(y) \}\,dy. Z ′ ′ ( θ ) = ∫ h ( y ) T ( y ) 2 exp { θ T ( y ) } d y .
따라서
A ′ ′ ( θ ) = ∫ h ( y ) T ( y ) 2 exp { θ T ( y ) } d y Z ( θ ) − ( ∫ h ( y ) T ( y ) exp { θ T ( y ) } d y Z ( θ ) ) 2 . A''(\theta)=\frac{\int h(y)T(y)^2\exp\{ \theta\,T(y) \}\,dy}{Z(\theta)}-\left(\frac{\int h(y)T(y)\exp\{ \theta\,T(y) \}\,dy}{Z(\theta)}\right)^2. A ′ ′ ( θ ) = Z ( θ ) ∫ h ( y ) T ( y ) 2 exp { θ T ( y ) } d y − ( Z ( θ ) ∫ h ( y ) T ( y ) exp { θ T ( y ) } d y ) 2 .
그러면 분산의 정의
Var θ [ T ( Y ) ] = E θ [ T ( Y ) 2 ] − { E θ [ T ( Y ) ] } 2 \operatorname{Var}_\theta[T(Y)] = E_\theta[T(Y)^2]-\{E_\theta[T(Y)]\}^2 V a r θ [ T ( Y ) ] = E θ [ T ( Y ) 2 ] − { E θ [ T ( Y ) ] } 2
와 동일함을 확인할 수 있습니다. 즉,
A ′ ′ ( θ ) = Var θ [ T ( Y ) ] . A''(\theta)=\operatorname{Var}_\theta[T(Y)]. A ′ ′ ( θ ) = V a r θ [ T ( Y ) ] .
만약 충분 통계량이 T ( y ) = y T(y)=y T ( y ) = y 라면, 이는 곧
Var ( Y ) = A ′ ′ ( θ ) \operatorname{Var}(Y)=A''(\theta) V a r ( Y ) = A ′ ′ ( θ )
임을 의미합니다.
지수 분포의 최대 우도 함수
지수족 분포의 일반적인 형태는
f ( y ; θ ) = h ( y ) exp { θ T ( y ) − A ( θ ) } f(y;\theta) = h(y)\,\exp\{\theta\,T(y)-A(\theta)\} f ( y ; θ ) = h ( y ) exp { θ T ( y ) − A ( θ ) }
로 나타낼 수 있습니다. 여기서
θ \theta θ 는 자연파라미터,
T ( y ) T(y) T ( y ) 는 충분 통계량,
A ( θ ) A(\theta) A ( θ ) 는 정규화 함수 (log-partition function),
h ( y ) h(y) h ( y ) 는 y y y 에만 의존하는 함수입니다.
이제 n n n 개의 독립 관측치 y 1 , y 2 , … , y n y_1, y_2, \ldots, y_n y 1 , y 2 , … , y n 에 대한 우도함수는
L ( θ ) = ∏ i = 1 n f ( y i ; θ ) = ∏ i = 1 n h ( y i ) exp { θ T ( y i ) − A ( θ ) } . L(\theta) = \prod_{i=1}^n f(y_i;\theta) = \prod_{i=1}^n h(y_i) \exp\{\theta\,T(y_i)-A(\theta)\}. L ( θ ) = i = 1 ∏ n f ( y i ; θ ) = i = 1 ∏ n h ( y i ) exp { θ T ( y i ) − A ( θ ) } .
로그우도함수를 취하면
ℓ ( θ ) = ∑ i = 1 n [ θ T ( y i ) − A ( θ ) + log h ( y i ) ] . \ell(\theta) = \sum_{i=1}^n \left[\theta\,T(y_i) - A(\theta) + \log h(y_i)\right]. ℓ ( θ ) = i = 1 ∑ n [ θ T ( y i ) − A ( θ ) + log h ( y i ) ] .
여기서 log h ( y i ) \log h(y_i) log h ( y i ) 는 θ \theta θ 와 무관하므로 미분 시 상수로 취급됩니다.
Score Function의 유도
모수 θ \theta θ 에 대해 로그우도함수를 미분하면 score function U ( θ ) U(\theta) U ( θ ) 가 됩니다.
θ \theta θ 에 대해 미분하면,
∂ ℓ ( θ ) ∂ θ = ∑ i = 1 n [ T ( y i ) − A ′ ( θ ) ] , \frac{\partial \ell(\theta)}{\partial \theta} = \sum_{i=1}^n \left[T(y_i) - A'(\theta)\right], ∂ θ ∂ ℓ ( θ ) = i = 1 ∑ n [ T ( y i ) − A ′ ( θ ) ] ,
여기서 A ′ ( θ ) = d d θ A ( θ ) A'(\theta)=\frac{d}{d\theta}A(\theta) A ′ ( θ ) = d θ d A ( θ ) 입니다.
따라서, 단일 관측치에 대한 score function은
U ( θ ; y ) = T ( y ) − A ′ ( θ ) , U(\theta; y) = T(y) - A'(\theta), U ( θ ; y ) = T ( y ) − A ′ ( θ ) ,
전체 데이터에 대해서는
U ( θ ) = ∑ i = 1 n [ T ( y i ) − A ′ ( θ ) ] . U(\theta) = \sum_{i=1}^n \left[T(y_i) - A'(\theta)\right]. U ( θ ) = i = 1 ∑ n [ T ( y i ) − A ′ ( θ ) ] .
해석
T ( y i ) T(y_i) T ( y i ) 는 실제 관측된 충분 통계량이고,
A ′ ( θ ) A'(\theta) A ′ ( θ ) 는 이론적으로 E θ [ T ( y ) ] E_\theta[T(y)] E θ [ T ( y ) ] (즉, 충분 통계량의 기대값)와 일치합니다.
따라서 U ( θ ) = 0 U(\theta)=0 U ( θ ) = 0 를 풀면, 관측된 충분 통계량의 합과 그 기대값이 일치하도록 하는 θ \theta θ 를 찾게 되며, 이는 최대우도 추정(MLE)의 기본 원리와 일치합니다.
요약하면, 지수족 분포의 MLE에서 score function은
U ( θ ) = ∑ i = 1 n [ T ( y i ) − A ′ ( θ ) ] U(\theta) = \sum_{i=1}^n \left[T(y_i) - A'(\theta)\right] U ( θ ) = i = 1 ∑ n [ T ( y i ) − A ′ ( θ ) ]
로 도출되며, 이를 0으로 만드는 θ \theta θ 가 MLE가 됩니다.
d θ d μ \frac{d\theta}{d\mu} d μ d θ 는 1 V a r ( Y ) \frac{1}{Var(Y)} V a r ( Y ) 1 다
지수족 분포에서는 자연파라미터 θ \theta θ 와 평균 μ \mu μ 가 log-partition 함수 A ( θ ) A(\theta) A ( θ ) 를 통해 연결됩니다. 구체적으로,
μ = A ′ ( θ ) \mu = A'(\theta) μ = A ′ ( θ )
이고, 여기서 A ′ ( θ ) A'(\theta) A ′ ( θ ) 의 미분은
d μ d θ = A ′ ′ ( θ ) \frac{d\mu}{d\theta} = A''(\theta) d θ d μ = A ′ ′ ( θ )
인데, A ′ ′ ( θ ) A''(\theta) A ′ ′ ( θ ) 는 지수족 분포의 분산, 즉
Var ( Y ) = A ′ ′ ( θ ) \operatorname{Var}(Y) = A''(\theta) V a r ( Y ) = A ′ ′ ( θ )
와 같습니다.
이제 체인 룰을 사용하면, θ \theta θ 를 μ \mu μ 에 대해 미분할 때
d θ d μ = 1 d μ d θ = 1 A ′ ′ ( θ ) = 1 Var ( Y ) . \frac{d\theta}{d\mu} = \frac{1}{\frac{d\mu}{d\theta}} = \frac{1}{A''(\theta)} = \frac{1}{\operatorname{Var}(Y)}. d μ d θ = d θ d μ 1 = A ′ ′ ( θ ) 1 = V a r ( Y ) 1 .
따라서, d θ d μ \frac{d\theta}{d\mu} d μ d θ 가 1 Var ( Y ) \frac{1}{\operatorname{Var}(Y)} V a r ( Y ) 1 가 되는 이유는 바로 이 미분 관계에서 비롯됩니다.
예시) 포아송 분포의 score function
두 접근법 간의 관계를 보여주기 위해, 먼저 일반적인 지수족 분포에서의 score function과 이를 포아송 분포에 대입하는 과정을 살펴보겠습니다.
1. 지수족 분포의 일반적 형태와 Score Function
지수족 분포는
f ( y ; θ ) = h ( y ) exp { θ T ( y ) − A ( θ ) } f(y;\theta) = h(y)\,\exp\{\theta\,T(y)-A(\theta)\} f ( y ; θ ) = h ( y ) exp { θ T ( y ) − A ( θ ) }
의 형태를 갖습니다. n n n 개의 독립 관측치 y 1 , … , y n y_1,\dots,y_n y 1 , … , y n 에 대해 로그우도함수는
ℓ ( θ ) = ∑ i = 1 n [ θ T ( y i ) − A ( θ ) + log h ( y i ) ] . \ell(\theta) = \sum_{i=1}^n \left[\theta\,T(y_i)-A(\theta) + \log h(y_i)\right]. ℓ ( θ ) = i = 1 ∑ n [ θ T ( y i ) − A ( θ ) + log h ( y i ) ] .
여기서 log h ( y i ) \log h(y_i) log h ( y i ) 는 θ \theta θ 와 무관하므로 미분 시 상수로 취급됩니다.
모수 θ \theta θ 에 대해 미분하면 score function은
U ( θ ) = ∂ ℓ ( θ ) ∂ θ = ∑ i = 1 n [ T ( y i ) − A ′ ( θ ) ] , U(\theta) = \frac{\partial \ell(\theta)}{\partial \theta} = \sum_{i=1}^n \left[T(y_i) - A'(\theta)\right], U ( θ ) = ∂ θ ∂ ℓ ( θ ) = i = 1 ∑ n [ T ( y i ) − A ′ ( θ ) ] ,
가 됩니다. 여기서 A ′ ( θ ) = d d θ A ( θ ) A'(\theta)=\frac{d}{d\theta}A(\theta) A ′ ( θ ) = d θ d A ( θ ) 이고, A ′ ( θ ) = E θ [ T ( Y ) ] A'(\theta)=E_\theta[T(Y)] A ′ ( θ ) = E θ [ T ( Y ) ] 라는 중요한 성질이 있습니다.
2. 포아송 분포의 지수족 형태
포아송 분포의 원래 확률질량함수는
f ( y ; μ ) = e − μ μ y y ! . f(y;\mu) = \frac{e^{-\mu}\mu^y}{y!}. f ( y ; μ ) = y ! e − μ μ y .
이를 지수족의 형태로 나타내기 위해 자연파라미터 θ \theta θ 를
θ = log μ \theta = \log \mu θ = log μ
로 두면, μ = e θ \mu = e^\theta μ = e θ 가 됩니다.
포아송 분포를 다음과 같이 재작성할 수 있습니다:
f ( y ; θ ) = e − e θ ( e θ ) y y ! = 1 y ! exp { y θ − e θ } . \begin{aligned} f(y;\theta) &= \frac{e^{-e^\theta}(e^\theta)^y}{y!} \\ &= \frac{1}{y!}\exp\{y\theta - e^\theta\}. \end{aligned} f ( y ; θ ) = y ! e − e θ ( e θ ) y = y ! 1 exp { y θ − e θ } .
따라서, 포아송 분포는 지수족 분포의 형태
f ( y ; θ ) = h ( y ) exp { θ T ( y ) − A ( θ ) } f(y;\theta)= h(y)\,\exp\{\theta\,T(y)-A(\theta)\} f ( y ; θ ) = h ( y ) exp { θ T ( y ) − A ( θ ) }
에서 다음과 같이 식별됩니다:
h ( y ) = 1 y ! h(y)=\frac{1}{y!} h ( y ) = y ! 1 ,
T ( y ) = y T(y)= y T ( y ) = y ,
A ( θ ) = e θ A(\theta)= e^\theta A ( θ ) = e θ .
또한,
A ′ ( θ ) = d d θ e θ = e θ = μ . A'(\theta)=\frac{d}{d\theta}e^\theta = e^\theta = \mu. A ′ ( θ ) = d θ d e θ = e θ = μ .
따라서, 일반적인 지수족의 score function 식에 대입하면,
U ( θ ) = ∑ i = 1 n [ T ( y i ) − A ′ ( θ ) ] = ∑ i = 1 n ( y i − μ ) . U(\theta) = \sum_{i=1}^n \left[T(y_i)-A'(\theta)\right] = \sum_{i=1}^n \left(y_i - \mu\right). U ( θ ) = i = 1 ∑ n [ T ( y i ) − A ′ ( θ ) ] = i = 1 ∑ n ( y i − μ ) .
이것은 자연파라미터 θ \theta θ 에 대한 score function 입니다.
3. 파라미터 μ \mu μ 로의 재파라미터화와 체인 룰 적용
일반적으로 포아송 분포에서 많이 사용하는 모수는 μ \mu μ 입니다. 직접 μ \mu μ 에 대해 미분하면 score function은 다음과 같이 도출됩니다.
먼저, 포아송 분포의 로그우도함수는
ℓ ( μ ) = ∑ i = 1 n [ − μ + y i log μ − log ( y i ! ) ] . \ell(\mu) = \sum_{i=1}^n \left[-\mu + y_i\log\mu - \log(y_i!)\right]. ℓ ( μ ) = i = 1 ∑ n [ − μ + y i log μ − log ( y i ! ) ] .
이를 μ \mu μ 에 대해 미분하면,
∂ ℓ ( μ ) ∂ μ = ∑ i = 1 n [ − 1 + y i μ ] = ∑ i = 1 n y i − μ μ . \frac{\partial \ell(\mu)}{\partial \mu} = \sum_{i=1}^n \left[-1 + \frac{y_i}{\mu}\right] = \sum_{i=1}^n \frac{y_i-\mu}{\mu}. ∂ μ ∂ ℓ ( μ ) = i = 1 ∑ n [ − 1 + μ y i ] = i = 1 ∑ n μ y i − μ .
두 표현을 연결하려면, θ \theta θ 와 μ \mu μ 사이의 관계 θ = log μ \theta=\log\mu θ = log μ 를 사용합니다. 체인 룰에 따르면,
∂ ℓ ∂ μ = ∂ ℓ ∂ θ ⋅ d θ d μ . \frac{\partial \ell}{\partial \mu} = \frac{\partial \ell}{\partial \theta}\cdot \frac{d\theta}{d\mu}. ∂ μ ∂ ℓ = ∂ θ ∂ ℓ ⋅ d μ d θ .
앞서 표현한 지수족의 score function에 의해 이미 ∂ ℓ ∂ θ = ∑ ( y i − μ ) \frac{\partial \ell}{\partial \theta} = \sum (y_i-\mu) ∂ θ ∂ ℓ = ∑ ( y i − μ ) 임을 알았고,
d θ d μ = d log μ d μ = 1 μ . \frac{d\theta}{d\mu} = \frac{d\log\mu}{d\mu} = \frac{1}{\mu}. d μ d θ = d μ d log μ = μ 1 .
따라서,
∂ ℓ ∂ μ = ∑ i = 1 n ( y i − μ ) ⋅ 1 μ = ∑ i = 1 n y i − μ μ . \frac{\partial \ell}{\partial \mu} = \sum_{i=1}^n (y_i-\mu)\cdot\frac{1}{\mu} = \sum_{i=1}^n \frac{y_i-\mu}{\mu}. ∂ μ ∂ ℓ = i = 1 ∑ n ( y i − μ ) ⋅ μ 1 = i = 1 ∑ n μ y i − μ .
또한, 포아송 분포에서 Var ( Y i ) = μ \operatorname{Var}(Y_i)=\mu V a r ( Y i ) = μ 이므로
y i − μ μ = y i − μ Var ( Y i ) . \frac{y_i-\mu}{\mu} = \frac{y_i-\mu}{\operatorname{Var}(Y_i)}. μ y i − μ = V a r ( Y i ) y i − μ .
4. 결론
지수족 일반식에서:
Score function은 자연파라미터 θ \theta θ 에 대해
U ( θ ) = ∑ i = 1 n [ T ( y i ) − A ′ ( θ ) ] U(\theta) = \sum_{i=1}^n \left[T(y_i)-A'(\theta)\right] U ( θ ) = i = 1 ∑ n [ T ( y i ) − A ′ ( θ ) ]
의 형태를 가집니다.
포아송 분포에 대입하면:
T ( y ) = y T(y)=y T ( y ) = y 와 A ′ ( θ ) = e θ = μ A'(\theta)=e^\theta=\mu A ′ ( θ ) = e θ = μ 이므로,
U ( θ ) = ∑ i = 1 n ( y i − μ ) . U(\theta) = \sum_{i=1}^n (y_i-\mu). U ( θ ) = i = 1 ∑ n ( y i − μ ) .
μ \mu μ 에 대한 Score Function:
체인 룰에 의해, 자연파라미터 θ = log μ \theta=\log\mu θ = log μ 에서 μ \mu μ 로 재파라미터화하면,
∂ ℓ ∂ μ = ∑ i = 1 n y i − μ μ , \frac{\partial \ell}{\partial \mu} = \sum_{i=1}^n \frac{y_i-\mu}{\mu}, ∂ μ ∂ ℓ = i = 1 ∑ n μ y i − μ ,
이는 포아송 분포의 직접 미분으로 얻은 결과와 일치합니다.
이와 같이 두 접근법(일반적인 지수족 표현과 포아송 분포의 직접 미분)에서 도출된 score function이 서로 어떻게 연결되는지 수학적으로 엄밀하게 보일 수 있습니다.
Quasi-Poisson 식
위에서 보인 바와 같이 poisson 분포 score function의 분모에 있는 μ \mu μ 는 Y의 분산을 의미하기 떄문에, quasi-poisson 식에서는 분모에 μ \mu μ 대신 \Var ( Y ) = ϕ E ( Y ) \Var(Y) = ϕE(Y) \Var ( Y ) = ϕ E ( Y ) 를 쓰게 된다.