지수족 분포의 Quasi-Likelihood

·2025년 3월 19일
0

지수족 분포란

지수족 분포(Exponential Family)는 많은 일반적인 확률분포가 하나의 공통된 형태로 표현될 수 있는 분포족을 말합니다. 기본적인 형태는 다음과 같이 표현됩니다:

f(y;θ)=h(y)exp{θT(y)A(θ)}f(y;\theta) = h(y)\,\exp\{ \theta \,T(y) - A(\theta) \}

여기서

  • θ\theta자연파라미터(canonical parameter),
  • T(y)T(y)충분 통계량(sufficient statistic),
  • A(θ)A(\theta)정규화 함수(log-partition function), 그리고
  • h(y)h(y)yy에만 의존하는 함수입니다.

이런 형태 덕분에 지수족 분포는 다음과 같은 특징을 가집니다:

  1. 충분성:
    충분 통계량 T(y)T(y)가 존재하여, yy에 대한 모든 정보를 T(y)T(y)에 요약할 수 있습니다.

  2. 모멘트 정보:
    평균과 분산 등 중요한 모멘트들이 A(θ)A(\theta)의 도함수를 통해 쉽게 표현됩니다. 예를 들어,

    • E(Y)=A(θ)E(Y) = A'(\theta)
    • Var(Y)=A(θ)\operatorname{Var}(Y) = A''(\theta)
  3. 예시:
    대표적인 지수족 분포로는 정규분포(평균을 모수로 할 때), 이항분포, 포아송 분포, 감마분포 등이 있습니다.

이러한 구조 덕분에 지수족 분포는 통계학에서 모수 추정, 충분성, 그리고 일반화 선형 모형(GLM) 등의 이론적 토대를 마련하는 데 중요한 역할을 합니다.

지수족 분포의 예시: 정규분포

정규분포가 지수족 분포에 속함을 보여주기 위해, 모수가 평균인 정규분포(분산이 알려진 경우)의 확률밀도함수를 지수족 형태로 변환하는 과정을 살펴보겠습니다.

  1. 정규분포의 확률밀도함수
    분산이 σ2\sigma^2 (알려진 값)이고 평균이 μ\mu인 정규분포의 밀도함수는

    f(y;μ)=12πσ2exp{(yμ)22σ2}f(y;\mu)=\frac{1}{\sqrt{2\pi\sigma^2}}\exp\Biggl\{-\frac{(y-\mu)^2}{2\sigma^2}\Biggr\}
  2. 지수족 분포의 일반적인 형태
    지수족 분포는 보통 아래와 같이 표현됩니다.

    f(y;θ)=h(y)exp{θT(y)A(θ)},f(y;\theta)=h(y)\,\exp\Bigl\{\theta\,T(y)-A(\theta)\Bigr\},

    여기서

  • θ\theta는 자연파라미터,
  • T(y)T(y)는 충분 통계량,
  • A(θ)A(\theta)는 정규화 함수,
  • h(y)h(y)yy에만 의존하는 함수입니다.
  1. 정규분포를 지수족 형태로 변환하기
    먼저, 정규분포의 지수 부분을 전개해 보겠습니다.
    (yμ)22σ2=y22σ2+μyσ2μ22σ2.-\frac{(y-\mu)^2}{2\sigma^2} = -\frac{y^2}{2\sigma^2} + \frac{\mu\,y}{\sigma^2} - \frac{\mu^2}{2\sigma^2}.
    따라서, 정규분포의 밀도함수는
    f(y;μ)=12πσ2exp{y22σ2+μyσ2μ22σ2}.f(y;\mu)=\frac{1}{\sqrt{2\pi\sigma^2}}\exp\Biggl\{-\frac{y^2}{2\sigma^2}+\frac{\mu\,y}{\sigma^2}-\frac{\mu^2}{2\sigma^2}\Biggr\}.

이 식을 지수족 형태와 비교하면 다음과 같이 정리할 수 있습니다.

  • h(y)h(y):
    yy에만 의존하는 항은

    h(y)=12πσ2exp{y22σ2}.h(y)=\frac{1}{\sqrt{2\pi\sigma^2}}\exp\Biggl\{-\frac{y^2}{2\sigma^2}\Biggr\}.
  • 자연파라미터 θ\theta와 충분 통계량 T(y)T(y):
    μyσ2\frac{\mu\,y}{\sigma^2} 항을 보면,
    자연파라미터 θ\thetaθ=μσ2\theta=\frac{\mu}{\sigma^2}로 두고, 충분 통계량을 T(y)=yT(y)=y로 설정할 수 있습니다.

  • 정규화 함수 A(θ)A(\theta):
    μ22σ2-\frac{\mu^2}{2\sigma^2} 항은 A(θ)-A(\theta)에 해당하므로,

    A(θ)=μ22σ2.A(\theta)=\frac{\mu^2}{2\sigma^2}.

    그러나 μ\muθσ2\theta\sigma^2와 같으므로,

    A(θ)=(θσ2)22σ2=θ2σ22.A(\theta)=\frac{(\theta\sigma^2)^2}{2\sigma^2}=\frac{\theta^2\sigma^2}{2}.
  1. 최종 형태 정리
    따라서, 정규분포의 밀도함수를 지수족의 일반적인 형태로 표현하면
    f(y;θ)=12πσ2exp{y22σ2}exp{θyθ2σ22},f(y;\theta)=\frac{1}{\sqrt{2\pi\sigma^2}}\exp\Biggl\{-\frac{y^2}{2\sigma^2}\Biggr\}\,\exp\Biggl\{\theta\,y-\frac{\theta^2\sigma^2}{2}\Biggr\},
    여기서
  • θ=μσ2\theta=\frac{\mu}{\sigma^2},
  • T(y)=yT(y)=y,
  • A(θ)=θ2σ22A(\theta)=\frac{\theta^2\sigma^2}{2}.

이와 같이, 정규분포는 지수족 분포의 일반적인 형태에 자연스럽게 대입할 수 있음을 확인할 수 있습니다. 이 예제는 정규분포(평균을 모수로, 분산은 알려진 경우)가 지수족 분포에 속함을 보여주며, 이러한 표현은 모수 추정, 충분 통계량 활용, 그리고 일반화 선형 모형(GLM) 등의 이론적 기반을 마련하는 데 매우 유용합니다.

지수족 분포의 정규화 함수 부분

지수족 분포에서 A(θ)A(\theta)는 정규화 상수(혹은 로그-분할 함수, log-partition function)로서, 다음과 같이 정의됩니다:

h(y)exp{θT(y)A(θ)}dy=1.\int h(y)\exp\{ \theta\,T(y)-A(\theta) \}\,dy = 1.

이 식의 좌변이 1이 되도록 A(θ)A(\theta)를 정하는 것입니다. 여기서 양변을 θ\theta에 대해 미분하면 다음과 같이 됩니다.

먼저 정규화 조건에 대해 θ\theta로 미분합니다.

ddθ[h(y)exp{θT(y)A(θ)}dy]=0.\frac{d}{d\theta}\Biggl[\int h(y)\exp\{ \theta\,T(y)-A(\theta) \}\,dy\Biggr] = 0.

미분을 적분 기호 안으로 옮기면 (적분과 미분의 순서를 바꿀 수 있다고 가정하고)

h(y)exp{θT(y)A(θ)}[T(y)A(θ)]dy=0.\int h(y)\exp\{ \theta\,T(y)-A(\theta) \} \Bigl[T(y)-A'(\theta)\Bigr]\,dy = 0.

이때 f(y;θ)=h(y)exp{θT(y)A(θ)}f(y;\theta)=h(y)\exp\{ \theta\,T(y)-A(\theta) \}이므로, 위 식은

f(y;θ)[T(y)A(θ)]dy=0\int f(y;\theta)\Bigl[T(y)-A'(\theta)\Bigr]\,dy = 0

가 됩니다. 적분의 선형성에 의해 이는

f(y;θ)T(y)dyA(θ)f(y;θ)dy=E[T(Y)]A(θ)=0,\int f(y;\theta)T(y)\,dy - A'(\theta)\int f(y;\theta)\,dy = E[T(Y)] - A'(\theta) = 0,

로 정리할 수 있습니다. 왜냐하면 f(y;θ)dy=1\int f(y;\theta)\,dy = 1이기 때문입니다.

따라서,

E[T(Y)]=A(θ).E[T(Y)] = A'(\theta).

만약 충분 통계량이 T(y)=yT(y)=y인 경우, 이는 곧

E(Y)=A(θ)E(Y)=A'(\theta)

를 의미합니다.

즉, E(Y)=A(θ)E(Y)=A'(\theta)가 성립하는 이유는 A(θ)A(\theta)의 정의에서 비롯된 정규화 조건을 θ\theta에 대해 미분함으로써, 충분 통계량의 기댓값이 A(θ)A(\theta)의 미분으로 표현된다는 사실에서 옵니다.

이제 Var(Y)=A(θ)\operatorname{Var}(Y)=A''(\theta)임을 보입시다.

우선, A(θ)A(\theta)는 정규화 상수(로그-분할 함수)로서

A(θ)=logZ(θ),whereZ(θ)=h(y)exp{θT(y)}dy.A(\theta)=\log Z(\theta),\quad \text{where} \quad Z(\theta)=\int h(y)\exp\{ \theta\,T(y) \}\,dy.

임을 기억합니다. 앞서 증명한 바와 같이, 로그우도함수의 미분 결과로

A(θ)=Eθ[T(Y)]A'(\theta)=E_\theta[T(Y)]

가 성립합니다. 이제 이 식을 한 번 더 미분하면,

A(θ)=ddθEθ[T(Y)].A''(\theta)=\frac{d}{d\theta}E_\theta[T(Y)].

한편, A(θ)=logZ(θ)A(\theta)=\log Z(\theta)이므로, 체인 룰에 따라

A(θ)=Z(θ)Z(θ),A'(\theta)=\frac{Z'(\theta)}{Z(\theta)},

이고, 다시 미분하면

A(θ)=Z(θ)Z(θ)[Z(θ)]2[Z(θ)]2.A''(\theta)=\frac{Z''(\theta)Z(\theta)-[Z'(\theta)]^2}{[Z(\theta)]^2}.

여기서

Z(θ)=h(y)T(y)exp{θT(y)}dy,Z'(\theta)=\int h(y)T(y)\exp\{ \theta\,T(y) \}\,dy,
Z(θ)=h(y)T(y)2exp{θT(y)}dy.Z''(\theta)=\int h(y)T(y)^2\exp\{ \theta\,T(y) \}\,dy.

따라서

A(θ)=h(y)T(y)2exp{θT(y)}dyZ(θ)(h(y)T(y)exp{θT(y)}dyZ(θ))2.A''(\theta)=\frac{\int h(y)T(y)^2\exp\{ \theta\,T(y) \}\,dy}{Z(\theta)}-\left(\frac{\int h(y)T(y)\exp\{ \theta\,T(y) \}\,dy}{Z(\theta)}\right)^2.

그러면 분산의 정의

Varθ[T(Y)]=Eθ[T(Y)2]{Eθ[T(Y)]}2\operatorname{Var}_\theta[T(Y)] = E_\theta[T(Y)^2]-\{E_\theta[T(Y)]\}^2

와 동일함을 확인할 수 있습니다. 즉,

A(θ)=Varθ[T(Y)].A''(\theta)=\operatorname{Var}_\theta[T(Y)].

만약 충분 통계량이 T(y)=yT(y)=y라면, 이는 곧

Var(Y)=A(θ)\operatorname{Var}(Y)=A''(\theta)

임을 의미합니다.

지수 분포의 최대 우도 함수

지수족 분포의 일반적인 형태는

f(y;θ)=h(y)exp{θT(y)A(θ)}f(y;\theta) = h(y)\,\exp\{\theta\,T(y)-A(\theta)\}

로 나타낼 수 있습니다. 여기서

  • θ\theta는 자연파라미터,
  • T(y)T(y)는 충분 통계량,
  • A(θ)A(\theta)는 정규화 함수 (log-partition function),
  • h(y)h(y)yy에만 의존하는 함수입니다.

이제 nn개의 독립 관측치 y1,y2,,yny_1, y_2, \ldots, y_n에 대한 우도함수는

L(θ)=i=1nf(yi;θ)=i=1nh(yi)exp{θT(yi)A(θ)}.L(\theta) = \prod_{i=1}^n f(y_i;\theta) = \prod_{i=1}^n h(y_i) \exp\{\theta\,T(y_i)-A(\theta)\}.

로그우도함수를 취하면

(θ)=i=1n[θT(yi)A(θ)+logh(yi)].\ell(\theta) = \sum_{i=1}^n \left[\theta\,T(y_i) - A(\theta) + \log h(y_i)\right].

여기서 logh(yi)\log h(y_i)θ\theta와 무관하므로 미분 시 상수로 취급됩니다.


Score Function의 유도

모수 θ\theta에 대해 로그우도함수를 미분하면 score function U(θ)U(\theta)가 됩니다.

  1. θ\theta에 대해 미분하면,

    (θ)θ=i=1n[T(yi)A(θ)],\frac{\partial \ell(\theta)}{\partial \theta} = \sum_{i=1}^n \left[T(y_i) - A'(\theta)\right],

    여기서 A(θ)=ddθA(θ)A'(\theta)=\frac{d}{d\theta}A(\theta)입니다.

  2. 따라서, 단일 관측치에 대한 score function은

    U(θ;y)=T(y)A(θ),U(\theta; y) = T(y) - A'(\theta),

    전체 데이터에 대해서는

    U(θ)=i=1n[T(yi)A(θ)].U(\theta) = \sum_{i=1}^n \left[T(y_i) - A'(\theta)\right].

해석

  • T(yi)T(y_i)는 실제 관측된 충분 통계량이고,
  • A(θ)A'(\theta)는 이론적으로 Eθ[T(y)]E_\theta[T(y)] (즉, 충분 통계량의 기대값)와 일치합니다.

따라서 U(θ)=0U(\theta)=0를 풀면, 관측된 충분 통계량의 합과 그 기대값이 일치하도록 하는 θ\theta를 찾게 되며, 이는 최대우도 추정(MLE)의 기본 원리와 일치합니다.


요약하면, 지수족 분포의 MLE에서 score function은

U(θ)=i=1n[T(yi)A(θ)]U(\theta) = \sum_{i=1}^n \left[T(y_i) - A'(\theta)\right]

로 도출되며, 이를 0으로 만드는 θ\theta가 MLE가 됩니다.

dθdμ\frac{d\theta}{d\mu}1Var(Y)\frac{1}{Var(Y)}

지수족 분포에서는 자연파라미터 θ\theta와 평균 μ\mu가 log-partition 함수 A(θ)A(\theta)를 통해 연결됩니다. 구체적으로,

μ=A(θ)\mu = A'(\theta)

이고, 여기서 A(θ)A'(\theta)의 미분은

dμdθ=A(θ)\frac{d\mu}{d\theta} = A''(\theta)

인데, A(θ)A''(\theta)는 지수족 분포의 분산, 즉

Var(Y)=A(θ)\operatorname{Var}(Y) = A''(\theta)

와 같습니다.

이제 체인 룰을 사용하면, θ\thetaμ\mu에 대해 미분할 때

dθdμ=1dμdθ=1A(θ)=1Var(Y).\frac{d\theta}{d\mu} = \frac{1}{\frac{d\mu}{d\theta}} = \frac{1}{A''(\theta)} = \frac{1}{\operatorname{Var}(Y)}.

따라서, dθdμ\frac{d\theta}{d\mu}1Var(Y)\frac{1}{\operatorname{Var}(Y)}가 되는 이유는 바로 이 미분 관계에서 비롯됩니다.

예시) 포아송 분포의 score function

두 접근법 간의 관계를 보여주기 위해, 먼저 일반적인 지수족 분포에서의 score function과 이를 포아송 분포에 대입하는 과정을 살펴보겠습니다.


1. 지수족 분포의 일반적 형태와 Score Function

지수족 분포는

f(y;θ)=h(y)exp{θT(y)A(θ)}f(y;\theta) = h(y)\,\exp\{\theta\,T(y)-A(\theta)\}

의 형태를 갖습니다. nn개의 독립 관측치 y1,,yny_1,\dots,y_n에 대해 로그우도함수는

(θ)=i=1n[θT(yi)A(θ)+logh(yi)].\ell(\theta) = \sum_{i=1}^n \left[\theta\,T(y_i)-A(\theta) + \log h(y_i)\right].

여기서 logh(yi)\log h(y_i)θ\theta와 무관하므로 미분 시 상수로 취급됩니다.

모수 θ\theta에 대해 미분하면 score function은

U(θ)=(θ)θ=i=1n[T(yi)A(θ)],U(\theta) = \frac{\partial \ell(\theta)}{\partial \theta} = \sum_{i=1}^n \left[T(y_i) - A'(\theta)\right],

가 됩니다. 여기서 A(θ)=ddθA(θ)A'(\theta)=\frac{d}{d\theta}A(\theta)이고, A(θ)=Eθ[T(Y)]A'(\theta)=E_\theta[T(Y)]라는 중요한 성질이 있습니다.


2. 포아송 분포의 지수족 형태

포아송 분포의 원래 확률질량함수는

f(y;μ)=eμμyy!.f(y;\mu) = \frac{e^{-\mu}\mu^y}{y!}.

이를 지수족의 형태로 나타내기 위해 자연파라미터 θ\theta

θ=logμ\theta = \log \mu

로 두면, μ=eθ\mu = e^\theta가 됩니다.

포아송 분포를 다음과 같이 재작성할 수 있습니다:

f(y;θ)=eeθ(eθ)yy!=1y!exp{yθeθ}.\begin{aligned} f(y;\theta) &= \frac{e^{-e^\theta}(e^\theta)^y}{y!} \\ &= \frac{1}{y!}\exp\{y\theta - e^\theta\}. \end{aligned}

따라서, 포아송 분포는 지수족 분포의 형태

f(y;θ)=h(y)exp{θT(y)A(θ)}f(y;\theta)= h(y)\,\exp\{\theta\,T(y)-A(\theta)\}

에서 다음과 같이 식별됩니다:

  • h(y)=1y!h(y)=\frac{1}{y!},
  • T(y)=yT(y)= y,
  • A(θ)=eθA(\theta)= e^\theta.

또한,

A(θ)=ddθeθ=eθ=μ.A'(\theta)=\frac{d}{d\theta}e^\theta = e^\theta = \mu.

따라서, 일반적인 지수족의 score function 식에 대입하면,

U(θ)=i=1n[T(yi)A(θ)]=i=1n(yiμ).U(\theta) = \sum_{i=1}^n \left[T(y_i)-A'(\theta)\right] = \sum_{i=1}^n \left(y_i - \mu\right).

이것은 자연파라미터 θ\theta에 대한 score function입니다.


3. 파라미터 μ\mu로의 재파라미터화와 체인 룰 적용

일반적으로 포아송 분포에서 많이 사용하는 모수는 μ\mu입니다. 직접 μ\mu에 대해 미분하면 score function은 다음과 같이 도출됩니다.

먼저, 포아송 분포의 로그우도함수는

(μ)=i=1n[μ+yilogμlog(yi!)].\ell(\mu) = \sum_{i=1}^n \left[-\mu + y_i\log\mu - \log(y_i!)\right].

이를 μ\mu에 대해 미분하면,

(μ)μ=i=1n[1+yiμ]=i=1nyiμμ.\frac{\partial \ell(\mu)}{\partial \mu} = \sum_{i=1}^n \left[-1 + \frac{y_i}{\mu}\right] = \sum_{i=1}^n \frac{y_i-\mu}{\mu}.

두 표현을 연결하려면, θ\thetaμ\mu 사이의 관계 θ=logμ\theta=\log\mu를 사용합니다. 체인 룰에 따르면,

μ=θdθdμ.\frac{\partial \ell}{\partial \mu} = \frac{\partial \ell}{\partial \theta}\cdot \frac{d\theta}{d\mu}.

앞서 표현한 지수족의 score function에 의해 이미 θ=(yiμ)\frac{\partial \ell}{\partial \theta} = \sum (y_i-\mu)임을 알았고,

dθdμ=dlogμdμ=1μ.\frac{d\theta}{d\mu} = \frac{d\log\mu}{d\mu} = \frac{1}{\mu}.

따라서,

μ=i=1n(yiμ)1μ=i=1nyiμμ.\frac{\partial \ell}{\partial \mu} = \sum_{i=1}^n (y_i-\mu)\cdot\frac{1}{\mu} = \sum_{i=1}^n \frac{y_i-\mu}{\mu}.

또한, 포아송 분포에서 Var(Yi)=μ\operatorname{Var}(Y_i)=\mu이므로

yiμμ=yiμVar(Yi).\frac{y_i-\mu}{\mu} = \frac{y_i-\mu}{\operatorname{Var}(Y_i)}.

4. 결론

  • 지수족 일반식에서:
    Score function은 자연파라미터 θ\theta에 대해

    U(θ)=i=1n[T(yi)A(θ)]U(\theta) = \sum_{i=1}^n \left[T(y_i)-A'(\theta)\right]

    의 형태를 가집니다.

  • 포아송 분포에 대입하면:
    T(y)=yT(y)=yA(θ)=eθ=μA'(\theta)=e^\theta=\mu이므로,

    U(θ)=i=1n(yiμ).U(\theta) = \sum_{i=1}^n (y_i-\mu).
  • μ\mu에 대한 Score Function:
    체인 룰에 의해, 자연파라미터 θ=logμ\theta=\log\mu에서 μ\mu로 재파라미터화하면,

    μ=i=1nyiμμ,\frac{\partial \ell}{\partial \mu} = \sum_{i=1}^n \frac{y_i-\mu}{\mu},

    이는 포아송 분포의 직접 미분으로 얻은 결과와 일치합니다.

이와 같이 두 접근법(일반적인 지수족 표현과 포아송 분포의 직접 미분)에서 도출된 score function이 서로 어떻게 연결되는지 수학적으로 엄밀하게 보일 수 있습니다.

Quasi-Poisson 식

위에서 보인 바와 같이 poisson 분포 score function의 분모에 있는 μ\mu는 Y의 분산을 의미하기 떄문에, quasi-poisson 식에서는 분모에 μ\mu 대신 \Var(Y)=ϕE(Y)\Var(Y) = ϕE(Y)를 쓰게 된다.

profile
보건대학원 뉴비

0개의 댓글