학부 때 배웠던 내용이지만 다시 한 번 정리하고 학습하는것이 도움이 될 것 같아 정리하기로 했다.
통계학 맛보기
최대가능도 추정법 - Maximum Likelihood Estimation(MLE)
가능도(Likelihood)에 대하여
θ^MLE=θargmaxL(θ;x)=θargmaxP(x∣θ)
- 모수 θ를 따르는 분포가 데이터 x를 관찰할 가능성을 뜻한다
- 이 때, 확률 취급하여서 모든 θ에 대한 합이 1이 되는등의 확률적 특성을 적용시키면 안된다
- 오로지 크고 작음의 대소비교가 가능한 하나의 척도
로그가능도(Log-Likelihood)
- L(θ;x)=ΠP(x∣θ),=>logL(θ;x)=ΣP(x∣θ)
- 데이터 집합 X가 독립적으로 추출되었다면, 로그가능도를 고려한다. (독립인 사건의 확률은 곱으로 표현가능하기 때문)
로그가능도를 사용하는 이유
- 로그가능도를 최적화 하는 모수 θ는 가능도를 최적화하는 MLE가 된다.
- 데이터가 억단위로 많아진다면, 컴퓨터는 정확한 가능도를 계산할 수 없다.
- 데이터가 독립이라면, 로그를 취해줌으로써 가능도의 곱셈을 덧셈 연산으로 바꿀 수 있기 때문에, 컴퓨터 연산이 가능하다.
- 경사하강법으로 가능도를 최적화할 때의 미분연산량을 줄여준다. O(n2) => O(n)
- 대부분의 손실함수의 경우, 경사하강법을 사용하기 때문에 negative log-liklihood를 최적화한다.
참고 하면 좋을 정리 글 https://jjangjjong.tistory.com/41