확률 함수의 추정
확률 변수 X에 관심이 있지만, 정확한 확률 함수 fX(x)를 모른다면 이 확률 함수를 주어진 정보를 이용해 추정할 필요가 있다.
확률 함수를 모른다는 것에는 두가지 상황이 있다. I) X가 어떤 확률 분포를 따르는 지도 모른다는 것과 II) X의 확률 분포(ex. 감마 분포, 정규 분포)는 알지만 정확한 모수 값(α, β,μ)을 모르는 경우가 있다.
여기서는 두번째 경우를 다루며, 따라서 확률 함수의 추정은 확률 함수의 모수 추정과 동일시 한다.
X의 확률 함수의 모수(스칼라 혹은 벡터)가 θ일 때, X의 확률 함수를 f(x;θ)로 표기한다. 이 때 θ∈Θ이고, Θ는 모수가 가질 수 있는 모든 값의 집합으로, 모수 공간(Parameter Space)라고 한다.
예를 들어 X∼exp(λ)이면, 확률 함수는 f(x;λ)이며 모수 공간은 {λ∣λ>0}이 된다.
랜덤 표본과 통계량
모수 추정에서는 주어진 정보를 바탕으로 모수를 추정하는데, 이 정보를 랜덤 표본이라고 한다. X의 랜덤 표본은 X와 동일한 분포를 가지며 서로 독립인(iid) 확률 변수들이다.
예를 들어 X∼N(μ,σ2)이면 fX(x)=f(x;θ), θ=(μ,σ)이다.
이 때 X의 랜덤 표본은 X1,X2,...,Xn∼iidN(μ,σ2)을 따른다. 랜덤 표본의 확률 변수의 개수를 표본 크기라고 한다.
랜덤 표본의 확률 변수들은 X와 동일한 분포에서 추출되었기 때문에 표본들을 이용해 X의 성질을 탐색할 수 있고, 상호 독립이기 때문에 결합확률함수를 주변확률함수의 곱으로 쓸 수 있는 등 계산의 용이성을 가지고 있다.
그리고 확률변수의 함수를 통계량이라고 한다. T=T(X1,X2,...,Xn)형태의 함수로 생각할 수 있다.
예를 들어 표본 평균은 Xˉ=n∑i=1nXi으로, 표본들을 입력으로 하는 함수의 형태이므로 통계량이다.
통계량은 표본에 의존하고, 표본은 확률적으로 선택되므로 확률 변수라는 점이 중요하다. 만약 표본의 실현값이 바뀐다면 통계치도 바뀌게 된다.
추정량과 불편추정량
주어진 정보인 표본의 함수인 통계량을 이용하면 확률 함수의 모수를 추정할 수 있다. 존재하는 다양한 모수 추정법의 목표는 모수를 효율적으로 잘 표현하는 통계량을 찾는 것이다. 모수 추정의 맥락에서 어떤 모수 θ를 표현하는 통계량을 θ의 추정량이라고 한다.
더 구체적으로 구간이 아닌 값 형태의 추정량으로 모수를 추정한다면 점 추정량(Point estimator)이라고 한다.
예를 들어 위에서 본 표본 평균은 통계량인데, 정규 분포의 모수인 μ의 점 추정량으로 사용할 수 있다. 이 경우 Xˉ는 μ의 점 추정량이라고 할 수 있다.
임의의 통계량을 모수의 추정량으로 선택할 수도 있겠지만, 그래서는 추정의 정확도나 효율성을 보장할 수 없다. 따라서 추정량이 지켜야 할 "좋은 추정량의 조건"들이 있다.
그 중 첫번째는 불편성(unbiased)이다. 불편성이 충족되는 추정량을 불편추정량(unbiased estimator)라고 한다.
E(T)=θ
θ의 추정량인 T의 기댓값이 θ와 동일하다면, T는 불편성을 만족한다.
이는 추정량이 모수에서 멀리 편향되지 않았다는 것을 의미한다. 만약 많은 표본 추출을 거쳐 추정량의 평균을 측정한다면, 이는 모수와 거의 비슷할 것이다.
최대 우도 추정법(Maximum Likelihood Estimation;MLE)
점 추정량을 구하기 위한 모수 추정법으로 최대 우도 추정법이 있다.
MLE는 주어진, 고정된 표본이 어떤 모수를 가진 분포로부터 나왔는지 추정하는 방법이다. 따라서 표본은 주어진 것으로 간주하고, 모수가 미지수의 역할을 한다. 모수를 조정하면서 주어진 표본을 가장 잘 설명하는 분포의 모수를 찾아나간다.
MLE의 궁극적 목표는 모수가 주어졌을 때의 표본의 결합 확률 함수를 최대화 하는 θ를 구하는 것이다. 각 확률 변수가 독립이기 때문에 결합 확률 함수는 마지막처럼 확률함수들의 곱으로 나타낼 수 있다.
L(θ)=L(θ∣x1,x2,...,xn)=i=1∏nf(xi∣θ)
L(θ)를 우도 함수(Likelihood function)라고 한다. 우도 함수가 최댓값을 가질 때의 θ를 최대 우도 추정량(maximum likelihood estimator)라고 한다.
우도 함수의 최댓값을 구하기 위해서는 우도 함수의 미분계수가 0이 되는 지점을 찾아야 한다.
실제로 MLE를 사용할 때는, 우도 함수에 자연로그를 씌운 l(θ)=logL(θ)를 많이 이용한다. 로그를 이용하면 곱으로 나타나는 결합 확률 함수를 덧셈의 꼴로 나타낼 수 있기 때문에 미분이 쉬워지기 때문이다. 로그는 순증가함수이기 때문에 l(θ) 값을 최대화하는 지점의 θ가 L(θ)를 최대화하는 지점의 θ와 동일하다.
최대 우도 추정법 예시
X∼exponential(λ)X1,X2,...,Xn∼iidexponential(λ)f(x∣λ)=λ1e−λx⇒f(xi∣λ)=λ1e−λxiL(λ)=i=1∏nf(xi∣λ)⇒l(λ)=logL(λ)=i=1∑nlogf(xi∣λ)=i=1∑nlog(λ1e−λxi)=−nlogλ−λ−1i=1∑nxidλdl=−nλ−1+λ−2i=1∑nxidλdl=0≡−nλ−1+λ−2i=1∑nxi=0⇒λ=xˉ∴λ^=Xˉ
지수 분포의 예시에서 모수의 최대 우도 추정량은 표본 평균이다. 또한 E(Xˉ) = E(n∑Xi) = λ이고, E(X) = λ이므로 지수 분포의 최대 우도 추정량은 불편추정량임을 확인할 수 있다.