MLE(Maximun Likelihood Estimation)에 대해 간단 정리 및 복습

유상준·2022년 9월 23일
0

학부 때 배웠던 내용이지만 다시 한 번 정리하고 학습하는것이 도움이 될 것 같아 정리하기로 했다.

통계학 맛보기

최대가능도 추정법 - Maximum Likelihood Estimation(MLE)

가능도(Likelihood)에 대하여

θ^MLE=arg maxθL(θ;x)=arg maxθP(xθ)\hat{\theta}_{MLE} = \displaystyle\argmax_{\theta} L(\theta ;x) = \displaystyle\argmax_{\theta} P(x|\theta)

  • 모수 θ\theta를 따르는 분포가 데이터 x를 관찰할 가능성을 뜻한다
    • 이 때, 확률 취급하여서 모든 θ\theta에 대한 합이 1이 되는등의 확률적 특성을 적용시키면 안된다
    • 오로지 크고 작음의 대소비교가 가능한 하나의 척도

로그가능도(Log-Likelihood)

  • L(θ;x)=ΠP(xθ),=>logL(θ;x)=ΣP(xθ)L(\theta ;x) = \Pi P(x|\theta),\quad =>\quad logL(\theta ;x) = \Sigma P(x|\theta)
  • 데이터 집합 X가 독립적으로 추출되었다면, 로그가능도를 고려한다. (독립인 사건의 확률은 곱으로 표현가능하기 때문)

로그가능도를 사용하는 이유

  • 로그가능도를 최적화 하는 모수 θ\theta는 가능도를 최적화하는 MLE가 된다.
  • 데이터가 억단위로 많아진다면, 컴퓨터는 정확한 가능도를 계산할 수 없다.
  • 데이터가 독립이라면, 로그를 취해줌으로써 가능도의 곱셈을 덧셈 연산으로 바꿀 수 있기 때문에, 컴퓨터 연산이 가능하다.
  • 경사하강법으로 가능도를 최적화할 때의 미분연산량을 줄여준다. O(n2) => O(n)O(n^2) \text{ =>}\ O(n)
  • 대부분의 손실함수의 경우, 경사하강법을 사용하기 때문에 negative log-liklihood를 최적화한다.

참고 하면 좋을 정리 글 https://jjangjjong.tistory.com/41

profile
데이터 사이언티스트 지망생

0개의 댓글