MLE ; Maximum Likelihood Estimation ; 최대 가능도 추정법
* 가능도 (우도; likelihood) : L(D;X) ?
* 실험자가 설정한 사전 확률 분포 P(D)가 있을 때, 실제로 일어난 특정 사건의 x가 사전확률분포 P(D)에서 일어났을 확률 (즉, 확률 분포 P(D)를 바꿔가면서 최적의 확률분포를 찾아가는 데에 사용할 수 있다.)
가장 높은 가능성을 가진 모수를 추정
* 모수 : 모집단의 특성을 나타내는 측정값 (e.g. 모평균, 모분산, 최빈값)
이 MLE를 간단화한 수식은 다음과 같다.
θMLE= argmaxθL(θ;X)= argmaxθf(X∣θ)
이때 x는 관측된 데이터들을 의미하며, θ는 모델의 파라미터를 의미한다.
즉, MLE는 likelihood L(θ;X)=f(X∣θ)를 최대화하는 파라미터 θ를 찾아가는 것이다.
위 식에서 각 데이터 x가 iid(독립 항등 분포)라고 가정하에 다음과 같이 정리할 수 있다.
L(θ;X)=f(X∣θ)=∏i=1nf(xi∣θ)
모든 데이터 x에 대하여 모델의 파라미터가 θ인 경우에 결과값들을 product 연산 한 것이다.
이때 likelihood에 일반적으로 log-likelihood가 많이 사용된다.
log는 데이터의 숫자단위를 줄여주며, 단조증가함수이고, 곱셈들을 덧셈으로 바꿔주므로 컴퓨터 연산의 효율성과 편의를 위해 log-likelihood가 자주 이용되는 것이다.
따라서 위 수식에 log를 적용하면 다음과 같이 정리할 수 있다.
logL(θ;X)=logf(X∣θ)=∑i=1nlogf(xi∣θ)
이때, 최대값을 구해야 가장 가능성이 높은 확률분포에 대한 추론을 하게 된다. 이 최대값을 구하는 가장 일반적인 방법은 미분계수가 0이 되는 지점을 찾는 것이다.
즉, 구하려는 파라미터 θ에 대하여 편미분을 하여 값이 0이 되도록 하는 θ값을 찾아야 한다.