MLE (Maximum Likelihood Estimation)

Cammie·2022년 9월 25일

MLE 가능도 모수 추정

머신러닝

목록 보기

7/7

MLE

MLE ; Maximum Likelihood Estimation ; 최대 가능도 추정법
* 가능도 (우도; likelihood) : $L(D; X)$ ?
* 실험자가 설정한 사전 확률 분포 P(D)가 있을 때, 실제로 일어난 특정 사건의 x가 사전확률분포 P(D)에서 일어났을 확률 (즉, 확률 분포 P(D)를 바꿔가면서 최적의 확률분포를 찾아가는 데에 사용할 수 있다.)
가장 높은 가능성을 가진 모수를 추정
* 모수 : 모집단의 특성을 나타내는 측정값 (e.g. 모평균, 모분산, 최빈값)

이 MLE를 간단화한 수식은 다음과 같다.

$\widehat{θ}_{MLE} =$ argmax $_{\,θ}L(θ; X) =$ argmax $_{\,θ}f(X|θ)$

이때 x는 관측된 데이터들을 의미하며, θ는 모델의 파라미터를 의미한다.

즉, MLE는 likelihood $L(θ; X) = f(X|θ)$ 를 최대화하는 파라미터 θ를 찾아가는 것이다.

위 식에서 각 데이터 x가 iid(독립 항등 분포)라고 가정하에 다음과 같이 정리할 수 있다.

$L(θ; X) = f(X|θ) = \prod_{i=1}^{n} f(x_i|θ)$

모든 데이터 x에 대하여 모델의 파라미터가 θ인 경우에 결과값들을 product 연산 한 것이다.

이때 likelihood에 일반적으로 log-likelihood가 많이 사용된다.
log는 데이터의 숫자단위를 줄여주며, 단조증가함수이고, 곱셈들을 덧셈으로 바꿔주므로 컴퓨터 연산의 효율성과 편의를 위해 log-likelihood가 자주 이용되는 것이다.

따라서 위 수식에 log를 적용하면 다음과 같이 정리할 수 있다.

$\log L(θ; X) = \log f(X|θ) = \sum_{i=1}^{n} \log f(x_i|θ)$

이때, 최대값을 구해야 가장 가능성이 높은 확률분포에 대한 추론을 하게 된다.
이 최대값을 구하는 가장 일반적인 방법은 미분계수가 0이 되는 지점을 찾는 것이다.
즉, 구하려는 파라미터 θ에 대하여 편미분을 하여 값이 0이 되도록 하는 θ값을 찾아야 한다.

$\frac{\partial}{\partial\theta}\log L(θ; X) = \frac{\partial}{\partial\theta}\log f(X|θ) = \sum_{i=1}^{n} \frac{\partial}{\partial\theta}\log f(x_i|θ)$

Cammie

이전 포스트

MLE (Maximum Likelihood Estimation)

머신러닝

MLE

경사하강법 (Gradient Descent)

0개의 댓글