최대가능도 추정법

choyunjeong·2024년 12월 20일

4.2 최대가능도 추정법

확률변수 X1,X2,,XnX_1,X_2,\ldots,X_n의 결합확률밀도함수가 f(x1,x2,,xn;θ)f(x_1,x_2,\ldots,x_n;\theta)라고 하자. 결합 확률밀도함수 f(x1,x2,,xn;θ)f(x_1,x_2,\ldots,x_n;\theta)는 고정된 모수 θ\theta에 대하여 (x1,x2,,xn)(x_1,x_2,\ldots,x_n)의 함수로 사용된다. 그러나 반대로 f(x1,x2,,xn;θ)f(x_1,x_2,\ldots,x_n;\theta)를 관측치 X1=x1,X2=x2,,Xn=xnX_1=x_1,X_2=x_2,\ldots,X_n=x_n이 주어졌을 때 모수 θ\theta의 함수로 생각해 볼 수도 있다.

L(θ)=L(θ;x1,x2,,xn)=f(x1,x2,,xn;θ)L(\theta)= L(\theta;x_1,x_2,\ldots,x_n)= f(x_1,x_2,\ldots,x_n;\theta)

로 표기하고 이를 X1,X2,,XnX_1,X_2,\ldots,X_n의 가능도함수(likelihood function)라고 한다. 다시말하면 가능도함수 L(θ)L(\theta)는 주어진 자료 (x1,x2,,xn)(x_1,x_2,\ldots,x_n)에 대하여, (x1,x2,,xn)(x_1,x_2,\ldots,x_n)이 얻어질 가능성을 모수 θ\theta에 대한 함수로 나타낸 것으로 가능도함수는 θ\theta의 함수이므로 확률밀도함수는 아니다.

이제 확률변수 X1,X2,,XnX_1,X_2,\ldots,X_n이 서로 독립이고 XiX_i가 확률밀도함수 fi(xi,θ)f_i(x_i,\theta)를 갖는다고 하면, X1,X2,,XnX_1,X_2,\ldots,X_n의 결합 확률밀도함수는

i=1nfi(xi;θ)=f1(x1;θ)f2(x2;θ)fn(xn;θ)\prod_{i=1}^{n}f_i(x_i;\theta)=f_1(x_1;\theta)f_2(x_2;\theta)\ldots f_n(x_n;\theta)

이며, 가능도함수는

L(θ;x1,x2,,xn)=i=1nfi(xi;θ)=f1(x1;θ)f2(x2;θ)fn(xn;θ)\begin{aligned} L(\theta;x_1,x_2,\ldots,x_n)&=\prod_{i=1}^{n}f_i(x_i;\theta) \\[15pt] &=f_1(x_1;\theta)f_2(x_2;\theta)\ldots f_n(x_n;\theta) \end{aligned}

로 나타내어진다. 따라서 X1,X2,,XnX_1,X_2,\ldots,X_n이 확률밀도함수 f(x;θ)f(x;\theta)로부터의 랜덤표본이라고 하면 fi(xi;θ)=f(xi;θ)f_i(x_i;\theta)=f(x_i;\theta)이므로 가능도함수는

L(θ;x1,x2,,xn)=i=1nf(xi;θ)L(\theta;x_1,x_2,\ldots,x_n)=\prod_{i=1}^{n}f(x_i;\theta)

가 된다. 이제 모수를 추정하는 방법으로 가능도함수를 최대화하는 통계량에 대한 정의는 다음과 같다.

\\[20pt]

정의 4.2
랜덤표본의 가능도함수 L(θ;x1,x2,,xn)L(\theta;x_1,x_2,\ldots,x_n)을 최대화하는 θ\theta의 값을

θ^=θ^(x1,x2,,xn)Ω\hat{\theta}=\hat{\theta}(x_1,x_2,\ldots,x_n)\in\Omega

라고 할 때, θ^=θ^(X1,X2,,Xn)\hat{\theta}=\hat{\theta}(X_1,X_2,\ldots,X_n)을 모수 θ\theta의 최대가능도 추정량이라고 한다.

이러한 최대가능도 추정량의 의미는 '실제로 관측된' 자료가 얻어질 확률을 가장 높게 만드는 θ\theta의 값을 모수 θ\theta의 추정량으로 삼는 것이다.

그런데 가능도함수 L(θ;x1,x2,,xn)L(\theta;x_1,x_2,\ldots,x_n)을 최대화하는 θ\theta의 값을 찾는 문제는 로그가능도함수

logL(θ;x1,x2,,xn)=logi=1nf(xi;θ)=i=1nlog f(xi;θ)\begin{aligned} \text{log}L(\theta;x_1,x_2,\ldots,x_n)&=\text{log}\prod_{i=1}^{n}f(x_i;\theta) \\ &=\sum_{i=1}^{n}\text{log}\ f(x_i;\theta) \end{aligned}

를 최대화하는 θ\theta를 찾는 것과 같다. (로그함수: 단조증가함수이므로) 또한 로그를 취하면 각 주변 확률밀도함수에 로그를 취한 것의 합이 되므로 미분을 통해 최댓값을 찾는 계산이 훨씬 쉬워질 수 있다. 이런 이유로, 최대가능도 추정량을 찾을 떄 로그가능도함수를 많이 이용한다. 또한 로그가능도 함수를 최대화하는 문제는

ddθlogL(θ;x1,x2,,xn)=0\dfrac{d}{d\theta}\text{log}L(\theta;x_1,x_2,\ldots,x_n)=0

의 해를 구하는 문제로 귀착된다.
\\[20pt]

예 4.5
X1,X2,,XnX_1,X_2,\ldots,X_nEXP(θ)\text{EXP}(\theta)에서 추출된 랜덤표본이라고 할 때, 가능도함수는

L(θ;x1,x2,,xn)=i=1nf(xi;θ)=(1θ)nexp(i=1nxi/θ)\begin{aligned} L(\theta;x_1,x_2,\ldots,x_n)&=\prod_{i=1}^{n}f(x_i;\theta)\\[10pt] &=\left(\dfrac{1}{\theta}\right)^n\exp(-\sum_{i=1}^{n}-x_i/\theta) \end{aligned}

가 되며, 로그가능도함수는

logL(θ;x1,x2,,xn)=nlogθi=1nxi/θ\text{log}L(\theta;x_1,x_2,\ldots,x_n)=-n\text{log}\theta -\sum_{i=1}^{n}-x_i/\theta

가 된다. 이를 θ\theta에 대해 미분하면

ddθlogL(θ)=nθ+i=1nxi/θ2=0\dfrac{d}{d\theta}\text{log}L(\theta)=-\dfrac{n}{\theta}+\sum_{i=1}^{n}x_i/\theta^2=0

이고, 이를 0으 만드는 값은 xˉn\bar{x}_n이다. 즉, θ\theta의 최대가능도 추정량은 Xˉn\bar{X}_n이다.

\\[20pt]

예 4.6
X1,X2,,XnX_1,X_2,\ldots,X_n을 포아송(λ)(\lambda)분포로부터 구한 랜덤표본이라고 할 때, 가능도함수는

L(λ;x1,x2,,xn)=i=1nf(xi;λ)=enλλxii=1nxi!\begin{aligned} L(\lambda;x_1,x_2,\ldots,x_n)&=\prod_{i=1}^{n}f(x_i;\lambda)\\[10pt] &=\dfrac{e^{-n\lambda}\lambda^{\sum x_i}}{\prod_{i=1}^{n}x_i!} \end{aligned}

가 되며, 로그가능도함수는

logL(λ;x1,x2,,xn)=log{enλ}+log{λxi}log{i=1nxi!}=nλ+i=1nxilogλlog(i=1nxi!)\begin{aligned} \text{log}L(\lambda;x_1,x_2,\ldots,x_n) &=\text{log}\{e^{-n\lambda}\}+ \text{log}\{\lambda^{\sum x_i}\}-\text{log}\{\prod_{i=1}^{n}x_i!\}\\ &=-n\lambda + \sum_{i=1}^{n}x_i\text{log}\lambda-\text{log}\left(\prod_{i=1}^{n}x_i!\right) \end{aligned}

가 된다. 이를 λ\lambda에 대해 미분하면

ddλlogL(λ)=n+i=1nxiλ=0\dfrac{d}{d\lambda}\text{log}L(\lambda)=-n+\sum_{i=1}^{n}\dfrac{x_i}{\lambda}=0

을 만족하는 λ\lambda의 최대가능도 추정량λ^\hat{\lambda}Xˉn\bar{X}_n이다.

\\[20pt]

예 4.7
X1,X2,,XnX_1,X_2,\ldots,X_nN(μ,σ2)N(\mu,\sigma^2)분포로부터 구한 랜덤표본이라고 할 때, 가능도함수는

L(μ,σ2;x1,x2,,xn)=i=1nf(xi;μ,σ2)=1(2πσ2)n/2exp[i=1n(xiμ)2/2σ2]\begin{aligned} L(\mu,\sigma^2;x_1,x_2,\ldots,x_n)&=\prod_{i=1}^{n}f(x_i;\mu,\sigma^2)\\[10pt] &=\dfrac{1}{(2\pi\sigma^2)^{n/2}}\exp\left[\sum_{i=1}^{n}(x_i-\mu)^2/2\sigma^2\right] \end{aligned}

가 되며, 로그가능도함수는

logL(μ,σ2;x1,x2,,xn)=log{1(2πσ2)n/2}+log{exp[i=1n(xiμ)2/2σ2]}=(n/2)log(2πσ2)i=1n(xiμ)2/2σ2\begin{aligned} \text{log}L(\mu,\sigma^2;x_1,x_2,\ldots,x_n) &=\text{log}\{\dfrac{1}{(2\pi\sigma^2)^{n/2}}\}+ \text{log}\{\exp\left[\sum_{i=1}^{n}(x_i-\mu)^2/2\sigma^2\right]\}\\ &=-(n/2)\text{log}(2\pi\sigma^2) - \sum_{i=1}^{n}(x_i-\mu)^2/2\sigma^2 \end{aligned}

가 된다. 이 로그가능도함수를 최대화하는 (μ,σ2)(\mu,\sigma^2)값은

1)ddμlogL(μ,σ2;x1,x2,,xn)=ddμ{(n/2)log(2πσ2)i=1n(xiμ)2/2σ2}=i=1n(xiμ)σ2(1)\begin{aligned} 1)\quad \dfrac{d}{d\mu}\text{log}L(\mu,\sigma^2;x_1,x_2,\ldots,x_n) &=\dfrac{d}{d\mu}\{ -(n/2)\text{log}(2\pi\sigma^2) - \sum_{i=1}^{n}(x_i-\mu)^2/2\sigma^2\} \\[10pt] &=-\sum_{i=1}^{n}\dfrac{(x_i-\mu)}{\sigma^2} \end{aligned} \tag{1}

\\[20pt]

2)ddσ2logL(μ,σ2;x1,x2,,xn)=ddμ{(n/2)log(2πσ2)i=1n(xiμ)2/2σ2}=n22π2πσ22i=1n(xiμ)24σ4=n2σ2+i=1n(xiμ)22σ4(2)\begin{aligned} 2)\quad \dfrac{d}{d\sigma^2}\text{log}L(\mu,\sigma^2;x_1,x_2,\ldots,x_n) &=\dfrac{d}{d\mu}\{ -(n/2)\text{log}(2\pi\sigma^2) - \sum_{i=1}^{n}(x_i-\mu)^2/2\sigma^2\} \\[10pt] &=-\dfrac{n}{2}\dfrac{2\pi}{2\pi\sigma^2}-\dfrac{2\cdot\sum_{i=1}^{n}(x_i-\mu)^2}{4\sigma^4} \\[10pt] &=-\dfrac{n}{2\sigma^2}+\dfrac{\sum_{i=1}^{n}(x_i-\mu)^2}{2\sigma^4} \tag{2} \end{aligned}

두 연립방정식의 해를 구하여 μ,σ2\mu,\sigma^2의 최대가능도 추정량을 계산한다.

1)ddμlogL(μ,σ2;x1,x2,,xn)=i=1n(xiμ)σ2=0=i=1n(xiμ)=0=nμ=i=1nxiμ=Xnˉ\begin{aligned} 1)\quad \dfrac{d}{d\mu}\text{log}L(\mu,\sigma^2;x_1,x_2,\ldots,x_n) &=\sum_{i=1}^{n}\dfrac{(x_i-\mu)}{\sigma^2}=0 \\[10pt] &=\sum_{i=1}^{n}(x_i-\mu)=0 \\[10pt] &= n\mu=\sum_{i=1}^{n}x_i \\[15pt] &\therefore \mu= \bar{X_n} \end{aligned}

\\[20pt]

2)ddσ2logL(μ,σ2;x1,x2,,xn)=n2σ2+i=1n(xiμ)22σ4=0=i=1n(xiμ)22σ4=n2σ2=i=1n(xiμ)2=nσ2σ2=i=1n(XiXˉ)2/n\begin{aligned} 2)\quad \dfrac{d}{d\sigma^2}\text{log}L(\mu,\sigma^2;x_1,x_2,\ldots,x_n) &=-\dfrac{n}{2\sigma^2}+\dfrac{\sum_{i=1}^{n}(x_i-\mu)^2}{2\sigma^4}=0 \\[10pt] &=\dfrac{\sum_{i=1}^{n}(x_i-\mu)^2}{2\sigma^4}=\dfrac{n}{2\sigma^2} \\[10pt] &=\sum_{i=1}^{n}(x_i-\mu)^2=n\sigma^2 \\[10pt] &\therefore \sigma^2 = \sum_{i=1}^{n}(X_i-\bar{X})^2/n \end{aligned}

따라서 최대 가능도 추정량은 다음과 같다.

(μ,σ2)=(Xnˉ, i=1n(XiXˉ)2/n)(\mu,\sigma^2)=\left(\bar{X_n},\ \sum_{i=1}^{n}(X_i-\bar{X})^2/n\right)

[참고문헌]

  • 수리통계학 제 5판 - 송성주, 전명식

0개의 댓글