maximum likelihood estimation은 빈도주의 통계학에서 파라미터를 점추정할 때 흔히 사용하는 방법입니다.
추정의 대상이 되는 파라미터는 특정 분포의 파라미터일수도 있고, 어떤 모델의 파라미터일 수도 있습니다. 말 그대로, MLE (:최대가능도법)이란, 데이터에 대한 가능도를 최대화시키는 파라미터를 구하는 방법을 의미합니다. 가능도의 의미에 대해서는 생략하도록 하겠습니다.
이번 포스팅에서는, 모델의 파라미터를 추정한다는 관점에서 MLE를 설명해 보겠습니다.
2. MLE in perspective of Modeling
어떤 데이터 집합 X={x1,x2,...,xn}이 있다고 하겠습니다. X∼Pdata, 즉 이 데이터는 Pdata라는 미지의 분포를 따릅니다. 우리는 이 미지의 분포를 파라미터를 가진 모델(parameterized model)을 통해 근사하고자 합니다. 이 모델을 Pmodel(⋅,θ)로 표현하도록 하겠습니다.
여기서 MLE의 목적은 데이터에 대한 likelihood를 최대화하는 모델 파라미터 θ를 찾는 것입니다. 수식으로는 아래와 같이 표현할 수 있습니다.
n개의 데이터 샘플이 주어졌을 때, 전체 데이터에 대한 가능도는 각각의 샘플에 대한 가능도의 곱으로 구해집니다. 하지만 일반적으로 가능도의 곱을 최대화하는 파라미터를 찾는 것은 쉽지 않기 때문에, 가능도에 로그를 취한 것을 최대화하는 방식을 주로 사용합니다.
log는 단조 증가 함수이므로 argmaxxp(x) 와 argmaxxlogp(x) 는 항상 일치하고, 가능도는 항상 0보다 크므로 log를 씌워도 문제가 없음.
3.In relation to Information Theory
딥러닝 및 머신러닝을 공부하다 보면, 정보 이론에서 등장한 개념이 자주 사용됩니다. 그 중 가장 흔히 사용되는 것이 entropy, cross entropy, KL divergence 등이라고 생각합니다. entropy, cross entropy, KL divergence에 대한 개념은 ML/DL Basics 시리즈에 따로 정리를 해 두었으니 참고하시면 좋을 것 같습니다.
이 파트에서는 Likelihood를 최대화하는 모델 파라미터 θ를 구하는 것이, cross entropy나 KL-Divergence의 관점에서는 어떤 의미를 갖는지 구체적으로 설명해 보겠습니다.
결국 MLE를 통해 이루고자 하는 것은, 확률 분포 Pdata로부터 추출된 데이터를 사용하여, Pdata와 유사한 Pmodel를 찾는 것입니다.