Likelihood
Probability | Likelihood |
---|
확률 | 가능도 |
확률분포 고정 | 관측된 사건 고정(모든 데이터를 대변하는 것은 아님) |
관측되는 사건이 변화 | 확률 분포가 변화(혹은 모름) |
지금 얻은 데이터 x가 해당 분포 θ로부터 나왔을 가능성
Likelihood를 계산하기 위해서는 각 데이터 샘플에서 후보 분포에 대한 높이 likelihood를 계산해서 모두 곱해야 한다.
이때 더하지 않고 곱하는 것은 모든 데이터의 추출이 독립적으로 연달아 일어나는 사건이기 때문이다.
MLE 정의
- 최대우도법: 모수가 될 데이터가 있을 때 데이터의 밀도를 추정하는 방법
- 파라미터 θ로 구성된 어떤 확률 밀도 함수 P(x∣θ)에서 관측된 표본 데이터 집합을 x라 할 때 파라미터 θ를 추정하는 방법
Toy Example
데이터 x=1,4,5,6,9 (데이터는 Random 변수가 아니다)
![](https://velog.velcdn.com/images/hyeon-ii/post/f579fa53-c74f-4af2-9a95-9598ea322ace/image.png)
데이터 x는 주황색 곡선으로부터 추출되었을 확률이 더 높다.
P(x∣θ)=k=1∏nP(xk∣θ)
어떠한 분포 θ에서 데이터가 나올 확률의 곱이 크면 θ는 분포를 가장 잘 나타낸 것이다.
위 식의 결과가 가장 커지는 θ를 θ^로 보는 것이 가장 그럴듯하다.
일반적으로 소숫점 계산을 해결하기 위해 자연로그를 이용해서 log-likelihood function L(θ∣x)를 이용한다.
L(θ∣x)=logP(x∣θ)=i=1∑nlogP(xi∣θ)θ⋆=argmaxθL(θ∣x)
최댓값 찾는 방법
log 함수는 단조증가 함수이기 때문에 likelihood function과 log-likelihood의 최댓값을 갖게 하는 입력값은 동일하다.
따라서 계산의 편의를 위해 log-likelihood의 최댓값을 찾는다.
찾고자 하는 파라미터 θ에 대해 편미분하고 그 값이 0이 되도록 하는 θ를 찾는 과정을 통해 likelihood 함수를 최대화할 θ를 찾을 수 있다.
∂θ∂L(θ∣x)=∂θ∂logP(x∣θ)=i=1∑n∂θ∂logP(xi∣θ)