Maximum Likelihood Estimation

‍이세현·2024년 6월 3일

Likelihood

지금 얻은 데이터 $x$ 가 해당 분포 $\theta$ 로부터 나왔을 가능성

Likelihood를 계산하기 위해서는 각 데이터 샘플에서 후보 분포에 대한 높이 likelihood를 계산해서 모두 곱해야 한다.
이때 더하지 않고 곱하는 것은 모든 데이터의 추출이 독립적으로 연달아 일어나는 사건이기 때문이다.

최대우도법: 모수가 될 데이터가 있을 때 데이터의 밀도를 추정하는 방법
파라미터 $\theta$ 로 구성된 어떤 확률 밀도 함수 $P(x|\theta)$ 에서 관측된 표본 데이터 집합을 $x$ 라 할 때 파라미터 $\theta$ 를 추정하는 방법

데이터 $x={1,4,5,6,9}$ (데이터는 Random 변수가 아니다)

데이터 $x$ 는 주황색 곡선으로부터 추출되었을 확률이 더 높다.

P(x|\theta)=\prod_{k=1}^{n}P(x_k|\theta)

어떠한 분포 $\theta$ 에서 데이터가 나올 확률의 곱이 크면 $\theta$ 는 분포를 가장 잘 나타낸 것이다.

위 식의 결과가 가장 커지는 $\theta$ 를 $\hat{\theta}$ 로 보는 것이 가장 그럴듯하다.

일반적으로 소숫점 계산을 해결하기 위해 자연로그를 이용해서 log-likelihood function $L(\theta|x)$ 를 이용한다.

L(\theta|x)=\log{P(x|\theta)}=\sum_{i=1}^{n}\log{P(x_i|\theta)} \\ \theta^{\star}={\arg\max}_\theta L(\theta|x)

$\log$ 함수는 단조증가 함수이기 때문에 likelihood function과 log-likelihood의 최댓값을 갖게 하는 입력값은 동일하다.

따라서 계산의 편의를 위해 log-likelihood의 최댓값을 찾는다.

찾고자 하는 파라미터 $\theta$ 에 대해 편미분하고 그 값이 0이 되도록 하는 $\theta$ 를 찾는 과정을 통해 likelihood 함수를 최대화할 $\theta$ 를 찾을 수 있다.

\frac{\partial}{\partial\theta}L(\theta|x)= \frac{\partial}{\partial\theta}\log{P(x|\theta)}= \sum_{i=1}^{n}\frac{\partial}{\partial\theta}\log{P(x_i|\theta)}

Hi, there 👋