MLE 추정

TEMP·2022년 1월 27일
0

개념정리

목록 보기
7/9
post-thumbnail

기본적으로 통계에서 사용하는 추정은 당연히 data기반 입니다. ( 가설 검정도 마찬가지 )
즉, data given ( 표본집단 ) -> find parameter ( 모집단 )

Likelihood function

가능도 함수라고 합니다.
Xf(x;θ)X \sim f(x;\theta)라는 확륜변수가 있다고 하겠습니다. 이때 θ\theta는 parameter입니다.
그리고 (X1,X2,,Xn)({\displaystyle X_{1},X_{2},\cdots ,X_{n}}) \sim XX라고 하겠습니다.
그러면 가능도 함수를 다음과 같이 정의합니다. L(θ)=f(X1,X2,,Xnθ)\mathcal{L}(\theta) = f(X_1, X_2, \cdots, X_n|\theta) 이때 ff는 확률변수 XX의 pdf이므로 X1,X2,,Xn{\displaystyle X_{1},X_{2},\cdots ,X_{n}}가 변수입니다. 하지만 이때 observed data x1,x2,,xn{\displaystyle x_{1},x_{2},\cdots ,x_{n}}를 넣어서 L(θ)=f(x1,x2,,xnθ)\mathcal{L}(\theta) = f(x_1, x_2, \cdots, x_n|\theta)를 만들어 준다면 θ\theta만이 변수가 됩니다.
즉, L(θ)=f(θx1,x2,,xn)\mathcal{L}(\theta) = f(\theta|x_1, x_2, \cdots, x_n)라고 다시 쓸 수 있습니다. 또한 iid이므로 L(θ)=if(xi)θ\mathcal{L}(\theta) = \prod_i f(x_i){\theta}가 됩니다.
즉, 이제 우리는 θ^=argmaxθ L(θ)\widehat{\theta} = \underset{\theta}{\operatorname{argmax}}\ \mathcal{L}(\theta)을 구할 수 있습니다.
이때 보통 log를 이용하여 L(θ)=logL(θ)=ilogfθ(xi)\mathcal{L}^*(\theta) = \log \mathcal{L}(\theta) = \sum_i \log f_{\theta}(x_i)으로 나타내 계산합니다.

위의 처럼 joint pdf로 하는것이 맞지만 이해가 안된다면 다음과 같이 이해해도 됩니다.
f(x)f(x)는 분포의 높이입니다. 즉, 여러개의 f(x)f(x)의 곱이 최대가 되려면 ff의 모양 ( 분포 )는 xx들이 가장 나올법한 모양이어야 합니다.
이 그림을 보면 직관적으로 이해가 됩니다.

즉, 가능도를 가장 크게 만들어 주는 모수를 추정한다.

0개의 댓글