MLE (Maximum Likelihood Estimation)

Cammie·2022년 9월 25일
0

머신러닝

목록 보기
7/7
post-thumbnail

MLE

  • MLE ; Maximum Likelihood Estimation ; 최대 가능도 추정
    * 가능도 (우도; likelihood) : L(D;X)L(D; X) ?
    * 실험자가 설정한 사전 확률 분포 P(D)가 있을 때, 실제로 일어난 특정 사건의 x가 사전확률분포 P(D)에서 일어났을 확률 (즉, 확률 분포 P(D)를 바꿔가면서 최적의 확률분포를 찾아가는 데에 사용할 수 있다.)
  • 가장 높은 가능성을 가진 모수를 추정
    * 모수 : 모집단의 특성을 나타내는 측정값 (e.g. 모평균, 모분산, 최빈값)

이 MLE를 간단화한 수식은 다음과 같다.

θ^MLE=\widehat{θ}_{MLE} = argmaxθL(θ;X)=_{\,θ}L(θ; X) = argmaxθf(Xθ)_{\,θ}f(X|θ)

이때 x는 관측된 데이터들을 의미하며, θ는 모델의 파라미터를 의미한다.

즉, MLE는 likelihood L(θ;X)=f(Xθ)L(θ; X) = f(X|θ)를 최대화하는 파라미터 θ를 찾아가는 것이다.


위 식에서 각 데이터 x가 iid(독립 항등 분포)라고 가정하에 다음과 같이 정리할 수 있다.

L(θ;X)=f(Xθ)=i=1nf(xiθ)L(θ; X) = f(X|θ) = \prod_{i=1}^{n} f(x_i|θ)

모든 데이터 x에 대하여 모델의 파라미터가 θ인 경우에 결과값들을 product 연산 한 것이다.


이때 likelihood에 일반적으로 log-likelihood가 많이 사용된다.
log는 데이터의 숫자단위를 줄여주며, 단조증가함수이고, 곱셈들을 덧셈으로 바꿔주므로 컴퓨터 연산의 효율성과 편의를 위해 log-likelihood가 자주 이용되는 것이다.


따라서 위 수식에 log를 적용하면 다음과 같이 정리할 수 있다.

logL(θ;X)=logf(Xθ)=i=1nlogf(xiθ)\log L(θ; X) = \log f(X|θ) = \sum_{i=1}^{n} \log f(x_i|θ)


이때, 최대값을 구해야 가장 가능성이 높은 확률분포에 대한 추론을 하게 된다.
이 최대값을 구하는 가장 일반적인 방법은 미분계수가 0이 되는 지점을 찾는 것이다.
즉, 구하려는 파라미터 θ에 대하여 편미분을 하여 값이 0이 되도록 하는 θ값을 찾아야 한다.

θlogL(θ;X)=θlogf(Xθ)=i=1nθlogf(xiθ)\frac{\partial}{\partial\theta}\log L(θ; X) = \frac{\partial}{\partial\theta}\log f(X|θ) = \sum_{i=1}^{n} \frac{\partial}{\partial\theta}\log f(x_i|θ)


0개의 댓글