본 딥러닝도 다시보자 03: Maximum Likelihood Estimation, MLE

Gahyeon Kim·2023년 2월 4일
1

이 글은 공돌이의 수학 강의노트에서 게시한 Maximum Likelihood Estimation 유트브 강의사이트 글을 참고해서 쓴 글입니다. 작성자가 제시한 Attribution-NonCommercial 4.0 International 라이센스를 준수하였음을 명시합니다.

Maximum Likelihood Estimation, MLE

Maximum Likelihood Estimation(MLE)은 모수적인 데이터 밀도 추정방법으로, parameter θ\theta로 이루어진 확률밀도 함수 P(xθ)P(x|\theta)에서 관측된 sample data, x={x1,x2,xn}x ={\{x_1, x_2, \cdots x_n\}}에서 θ\theta를 추정하는 방법을 말한다.

Likelihood

Likelihood(기여도)는 지금 얻은 데이터가 어떤 분포로 부터 나왔을 가능도를 말한다.

  1. parameter θ\theta에 대한 sampling distribution에서 sample(xx)를 추출한다.
  1. likelihood는 sampling data distribution과 sample들 간의 점선의 높이로 나타낼 수 있다. 추출한 sample(xx)에 대한 확률 밀도 함수 P(xθ)P(x|\theta)를 구한다. 모든 데이터의 추출이 독립적으로 연달아 발생하기 때문에 곱하기(Π\Pi)를 사용한다.

위의 과정을 거쳐서 구한 likelihood function P(xθ)P(x|\theta)은 다음과 같다. 보통은 log likelihood function의 형태로 L(θx)L(\theta|x)와 같이 나타낸다.

P(xθ)=Πk=1n(xkθ)P(x|\theta) = \Pi^n_{k=1}{(x_k|\theta)}
L(θx)=log(P(xθ))=i=1nlogP(xiθ)L(\theta|x) = \log(P(x|\theta)) = \sum^n_{i=1}{\log{P(x_i|\theta)}}
  1. log likelihood function을 사용해서 찾고자 하는 parameter θ\theta에 대해 L(θx){L(\theta|x)} 함수가 정규분포 함수 꼴 일테니까 θ\theta에 대해 편미분했을 때 0이 되도록 하는 θ\theta를 찾아서 likelihood function을 최대화 하게 된다.
    θL(θx)=θlog(P(xθ))=i=1nθlog(P(xiθ))=0{\partial \over {\partial \theta}} \, {L(\theta|x)} = {\partial \over {\partial \theta}} \, \log(P(x|\theta)) = \sum^n_{i=1} {\partial \over {\partial \theta}} \log(P(x_i|\theta)) = 0

Example of MLE

평균(μ\mu)와 분산(σ2\sigma^2)을 모르는 정규분포에서 sample x={x1,x2,xn}x ={\{x_1, x_2, \cdots x_n\}}를 추출했을 때, 이 sample x들의 값을 이용해서 모분포의 평균과 분산을 추정해보자. 이때 모분포의 추정 평균은 μ^\hat{\mu}, 추정 분산을 σ2^\hat{\sigma^2} 이다. 이를 MLE로 증명해보자.

μ^=1ni=1nxi\hat{\mu}= {1 \over n}\sum^n_{i=1}x_i
σ2^=1ni=1n(xiμ)2\hat{\sigma^2}= {1 \over n}\sum^n_{i=1}(x_i-\mu)^2

모분포가 정규분포라고 했을 때에 각 sample xix_i의 sample distribution은 다음과 같이 나타낼 수 있다.

fμ,σ2(xi)=1σ2πexp((xiμ)22σ2)f_{\mu,\sigma^2 }(x_i) = {1 \over \sigma \sqrt{2\pi}}exp(-{(x_i-\mu)^2\over2\sigma^2 })

sample xix_i를 독립적으로 추출할 때에 likelihood P(xθ)P(x|\theta)는 다음과 같이 나타낼 수 있다.

P(xθ)=Πi=1nfμ,σ2(xi)=Πi=1n1σ2πexp((xiμ)22σ2)P(x|\theta) = \Pi^n_{i=1}f_{\mu,\sigma^2 }(x_i) = \Pi^n_{i=1}{{1 \over \sigma \sqrt{2\pi}}\exp(-{(x_i-\mu)^2\over2\sigma^2 })}

log likelihood L(θx)L(\theta|x)는 다음과 같이 구할 수 있다.

L(θx)=log(P(xθ))=i=1nlog1σ2πexp((xiμ)22σ2)L(\theta|x) = \log(P(x|\theta)) = \sum^n_{i=1}{\log{{1 \over \sigma \sqrt{2\pi}}\exp(-{(x_i-\mu)^2\over2\sigma^2 })}}
=i=1n{log(exp((xiμ)22σ2))log(σ2π)}= \sum^n_{i=1}\{{{{\log ({\exp(-{(x_i-\mu)^2\over2\sigma^2 })})- \log(\sigma \sqrt{2\pi})}}}\}
=i=1n{(xiμ)22σ2log(σ)log(2π)}= \sum^n_{i=1}{\{-{(x_i-\mu)^2\over2\sigma^2}}-\log(\sigma)-log(\sqrt{2\pi})\}

log likelihood를 μ\mu에 대해서 편미분하게 되면

μL(θx)=12σ2i=1nμ(xi22xiμ+μ2){\partial \over \partial\mu}{L(\theta|x)} = - {1\over2\sigma^2}\sum^n_{i=1}{\partial \over \partial\mu}(x_i^2-2x_i\mu+\mu^2)
=12σ2i=1n(2xi+2μ)=1σ2i=1n(xiμ)=1σ2(i=1nxinμ)=0= -{1\over2\sigma^2}\sum^n_{i=1}(-2x_i+2\mu) = {1\over\sigma^2}\sum^n_{i=1}(x_i-\mu) = {1\over\sigma^2}(\sum^n_{i=1}x_i-n\mu) = 0

식을 정리하게 되면 모분포의 추정 평균은 μ^=1ni=1nxi\hat{\mu}= {1 \over n}\sum^n_{i=1}x_i로 동일하게 나온다. 동일한 방법으로 log likelihood를 σ\sigma에 대해서 편미분하게 되면 모분포의 추정 분산은 다음과 같이 구할 수 있다.

σL(θx)=nσ12i=1n(xiμ)2σ(1σ2){\partial \over \partial\sigma}{L(\theta|x)} = -{ n\over\sigma} - {1\over2}\sum^n_{i=1}(x_i-\mu)^2{\partial \over \partial\sigma}({1\over\sigma^2})
=nσ1σ3i=1n(xiμ)2=0=-{ n\over\sigma} - {1\over\sigma^3}\sum^n_{i=1}(x_i-\mu)^2 = 0

따라서 maximum likelihood를 만들어 주는 모분포의 추정 분산은 σ2^=1ni=1n(xiμ)2\hat{\sigma^2}= {1 \over n}\sum^n_{i=1}(x_i-\mu)^2임을 알 수 있다.

profile
이제부터 하려고요,,,,velog

0개의 댓글