수리통계- 4.추정

WooSeongkyun·2023년 3월 25일

목록 보기

4/6

flowchart TD
A1["최적의 모수"] --- A2_1["최대가능도 추정량 MLE"]
A1["최적의 모수"] --- A2_2["손실함수"]
A2_1["최대가능도 추정량 MLE"] --- A2_1_1["MLE불변성"]
A2_2["손실함수"] --- A2_2_1["MSE"]
A2_2_1["MSE"] --- A2_2_1_1["MSE는 분산+바이어스 제곱"]
A2_2_1_1["MSE는 분산+바이어스 제곱"] --- A2_2_1_1_1["최소분산비편향추정량"]
A2_2_1_1_1["최소분산비편향추정량 MVUE"] --- A2_2_1_1_1_1["크레머 라오 방법"]
A2_2_1_1_1_1["크레머 라오 방법"] --- A2_2_1_1_1_1_1["분산의 하한"]
A2_2_1_1_1["최소분산비편향추정량 MVUE"] --- A2_2_1_1_1_2["레만 쉐페 정리"]

A2_2_1_1_1_2["레만 쉐페 정리"] --- A2_2_1_1_1_2_2["완비통계량"]
A2_2_1_1_1_2["레만 쉐페 정리"] --- A2_2_1_1_1_2_3["충분통계량"]
A2_2_1_1_1_2_3["충분통계량"] --- A2_2_1_1_1_2_3_1["인수분해정리"]
A2_2_1_1_1_2_3["충분통계량"] --- A2_2_1_1_1_2_3_2["라오 블랙웰 정리"]
A2_2_1_1_1_3["지수족"] --- A2_2_1_1_1_2_2["완비통계량"]
A2_2_1_1_1_3["지수족"] --- A2_2_1_1_1_2_3["충분통계량"]
A2_2_1_1_1_2["레만 쉐페 정리"] --- A2_2_1_1_1_3["지수족"]

추정 기본개념

통계량
- 미지의 모수를 포함하지 않는, 랜덤표본 $X _{1},X _{2},\cdots,X _{n}$ 의 함수
추정량의 정의
- 모수 $\theta$ 의 함수 $g(\theta)$ 를 추정하기 위해 사용되는 통계량 $T(\theta)$
추정값
- 주어진 표본값 $X _{i}=x _{i}$ 를 대입하여 구해진 추정량의 특정값
추정의 종류
- 통계량 $T(X)=T(X _{1},X _{2},\cdots,X _{n})$ 을 활용하여 하나의 값 $g(\boldsymbol{\theta})$ 을 추정하는 것을 점 추정 point estimate라고 부른다
- 두 통계량 $T _{1}(X)=T _{1}(X _{1},X _{2},\cdots,X _{n})$ 과 $T _{2}(X)=T _{2}(X _{1},X _{2},\cdots,X _{n})$ 을 활용하여 구간 $[T _{1},T _{2}]$ 에 $g(\boldsymbol{\theta})$ 가 포함될 확률을 고려하는 것을 구간추정 interval estimation이라고 부른다

적률추정법

조건
- 모수벡터 $\theta=(\theta _{1},\theta _{2},\cdots,\theta _{k})$ 를 갖는 확률분포에서 표본 $X _{1},X _{2},\cdots, X _{n}$ 을 뽑았다고 하자
정의
- 모분포의 $r$ 차 적률 $r$ th population moment
- $\mu _{r}'=\mathbb{E}[X ^{r}]$
- 표본적률 $r$ th sample moment
- $m _{r}'=\displaystyle\frac{\displaystyle\sum\limits_{i=1}^{n}{X _{i} ^{r}}}{n}$
성질
- 일반적으로 모적률 $\mu _{r}'$ 은 모수벡터 $\boldsymbol{\theta}=(\theta _{1},\theta _{2},\cdots,\theta _{k})$ 의 함수이므로 $k$ 개의 연립방정식
- $m _{j}'=\mu _{j}'(\theta _{1},\theta _{2},\cdots, \theta _{k})$ $j=1,2,\cdots,k$
- 해당식을 풀면 해 $(\hat{\theta}_{1},\hat{\theta}_{2},\cdots,\hat{\theta}_{k})$ 를 구할 수 있고 이를 $\theta$ 에 대한 적률추정량이라고 부른다
- $r$ 차 표본적률이 $r$ 차 모적률로 표본의 크기가 커짐에 따라 확률적으로 수렴함이 큰수의 법칙에 의해 보장되어 있다

최대가능도 추정법

Maximum Likelihood estimation

가능도 함수 likelihood function
- 조건
- 확률변수 $X _{1},X _{2},\cdots,X _{n}$ 의 결합확률밀도함수 $f(x _{1},x _{2},\cdots,x _{n};\theta)$ 가 있다고 하자
- $X _{i}=x _{i}$ 로 값들이 주어져있다고 하자. 그러면 결합밀도확률함수 $f$ 는 $\theta$ 에만 의존하는 함수가 된다
- 정의
- $X _{i}=x _{i}$ 로 값들이 주어져 $f$ 가 $\theta$ 에만 의존하는 함수일때 $L(\theta)$ 라고 표기하고 이를 가능도함수라고 정의한다
- (이는 기존의 확률밀도함수가 모수는 고정되어 있다고 가정한 것과 정반대이다)
- $L(\theta)=L(\theta;x _{1},x _{2},\cdots,x _{n})=f(x _{1},x _{2},\cdots,x _{n};\theta)$
- 해석
- 주어진 자료 $(x _{1},x _{2},\cdots,x _{n})$ 에 대하여 특정 모수 $\theta$ 로 해당 자료값을 얻을 확률
- 성질
- 확률변수 $X _{1},X _{2},\cdots,X _{n}$ 이 서로 독립적이고 $X _{i} \sim f _{i}$ 라고 한다면
- $f(x _{1},x _{2},\cdots,x _{n};\theta)=\displaystyle\prod\limits_{i=1}^{n}{f _{i}(x _{i};\theta)}$
최대가능도추정량 Maximum Likelihood Estimator
- $f(x _{1},x _{2},\cdots,x _{n}|\theta)$ 를 최대화 하는 $\theta$ 의 값을 $\hat{\theta}$ 로 표기하며, 모수 $\theta$ 의 최대가능도 추정량이라고 정의한다
가능도함수 로그 표현법
- 조건
- 자료 $X _{1},X _{2},\cdots,X _{n}$ 이 서로 독립적이라고 하자 그러면 $f(x _{1},x _{2},\cdots,x _{n};\theta)=\displaystyle\prod\limits_{i=1}^{n}{f _{i}(x _{i};\theta)}$
- $\log_{}{L(\theta;x _{1},x _{2},\cdots,x _{n})}=\log_{}{\displaystyle\prod\limits_{i=1}^{n}{f _{i}(x _{i};\theta)}}=\displaystyle\sum\limits_{i=1}^{n}{\log_{}{f _{i}(x _{i};\theta)}}$ 이다
- 로그는 단조증가함수를 이용한 것으로, $\log_{}{L}$ 을 미분하여 최소화하는 $\theta$ 를 찾으면 , 이는 $L$ 를 최소화하는 $\theta$ 를 찾는 것과 동일하다
- 미분 계산시 곱으로 이루어진 확률이 로그덕분에 합으로 이루어져 상대적으로 연산이 쉬워진다
최대가능도 추정량의 불변성 invariance property of MLE
- 조건
- $X _{1},X _{2},\cdots,X _{n}$ 을 확률밀도함수 $f(x;\theta)$ 에서 얻은 랜덤표본이라고 하자
- 정리
- $\hat{\theta} _{n}$ 이 모수 $\theta$ 의 최대가능도 추정량이라고 한다면, $\theta$ 의 함수인 $g(\theta)$ 에 대하여 $g(\hat{\theta}_{n})$ 이 $g(\theta)$ 의 최대가능도 추정량이 된다
- 증명
- 조건
- $\eta=g(\theta)$ 라고 하자.
- 불변성의 원리는 일반적인 함수 $g$ 에서도 성립하나 여기선 편의를 위해 $g$ 는 일대일 함수라고 하자
- $\theta$ 를 모수로 하는 가능도함수를 $L(\theta)$ , $\eta$ 를 모수로 하는 가능도함수를 $L ^{*}(\eta)$ 라고 하자
- 과정
- $L ^{*}(g(\theta))=L ^{*}(\eta)=\displaystyle\prod\limits_{i=1}^{n}{f(x _{i}|g ^{-1}(\eta))}=L(g ^{-1}(\eta))=L(\theta)$
- $\max\limits_{\displaystyle{\eta \in g(\Omega)}}{L ^{*}(\eta)}=\max\limits_{\displaystyle{\eta \in g(\Omega)}}{L(g ^{-1}(\eta))}=\max\limits_{\displaystyle{\theta \in \Omega}}{L(\theta)}$
- 이므로
- $L ^{*}(\hat{\eta})=\max\limits_{\displaystyle{\eta \in g(\Omega)}}{L ^{*}(\eta)}=\max\limits_{\displaystyle{\theta \in \Omega}}{L(\theta)}=L(\hat{\theta}_{n})=L ^{*}(g(\hat{\theta}_{n}))$ 이다
편향 bias
- $\text{bias}=\mathbb{E}[T(X)]-g(\theta)$
- 편향 추정량 비편향 추정량
- 비편향 추정량
- $\mathbb{E}[T(X)]-g(\theta)=0$
- 편향추정량
- $\mathbb{E}[T(X)]-g(\theta) \neq 0$
손실 함수 loss function
- 추정량 $T(X)$ 가 모수의 확률인 $g(\theta)$ 와 얼마나 차이가 나는지를 평가하는 척도
- 평균제곱오차 Mean Sqaure Error
- 그중에서도 제곱을 활용하여 오차를 계산한 값
- $MSE=(T(X)-g(\theta)) ^{2}$
- $MSE$ 의 성질
- $MSE=Var(T(X))+\text{bias} ^{2}$
- 증명
- $MSE=\mathbb{E}[(T(X)-g(\theta)) ^{2}]$
- $=\mathbb{E}[\{T(X)-\mathbb{E}[T(X)]\}+\{\mathbb{E}[T(X)]-g(\theta)\}] ^{2}+2\mathbb{E}[\{T(X)-\mathbb{E}(T(X))\}\{\mathbb{E}(T(X))-g(\theta)\}]$
- $=Var(T(X))+[\mathbb{E}(T(X))-g(\theta)] ^{2}+2\mathbb{E}[\{T(X)-\mathbb{E}(T(X))\}\{\mathbb{E}(T(X))-g(\theta)\}]$
- $2\mathbb{E}[\{T(X)-\mathbb{E}(T(X))\}\{\mathbb{E}(T(X))-g(\theta)\}]=2[\mathbb{E}(T(X))-g(\theta)][\mathbb{E}(T(X))-\mathbb{E}(T(X))]=0$ 이므로
- $Var(T(X))+[\mathbb{E}(T(X)-g(\theta))] ^{2}$
- 즉 평균제곱오차를 기준으로 추정하는데엔 분산과 편향 두 요소가 존재함을 알 수 있다. 평균제곱오차를 줄이기 위해선 분산과 편향의 절대값을 줄여야 함을 알 수 있다
- 비편향추정량들만을 고려할때는 평균제곱오차를 최소화하는 추정량을 구하기 위해선, 분산을 최소화하는 추정량만을 구하면 된다
상대효율 relative efficiency
- 조건
- $T _{1}(X),T _{2}(X)$ 모두 $g(\theta)$ 에 대한 비편향추정양이라고 하자
- 정의
- $r=\displaystyle\frac{Var[T _{2}(X)]}{Var[T _{1}(X)]}$ 를 $T _{1}$ 의 $T _{2}$ 에 대한 상대효율이라고 부른다
- $r<1$ 이면 $T _{2}$ 가 , $r>1$ 이면 $T _{1}$ 이 더 좋은 추정량이라 말할 수 있다

최소분산 비편향추정량

조건
- 확률변수 $X _{1},X _{2},\cdots,X _{n}$ 의 결합 확률밀도함수 $f(x _{1},x _{2},\cdots,x _{n}|\theta)$ 라고 하자.
정의
- 다음의 두 조건을 만족시키는 $T ^{*}(X)$ 를 최소분산 비편향 추정량이라고 부른다
1. $T ^{*}(X)$ 는 $g(\theta)$ 의 비편향추정량이다 ( $\mathbb{E}[T ^{*}(X)]=g(\theta)$ )
2. $g(\theta)$ 의 임의의 비편향 추정량 $T(X)$ 에 대하여
- $Var(T ^{*}(X))\le Var(T(X))$ 를 만족한다
해석
- 최소분산 비편향추정량은 평균제곱오차를 통하여 추정한 모수들중 가장 작은 평균제곱오차를 만든다. (잘 들어맞는다)

크레머-라오의 정보 부등식

Cramer-rao's Information Inequality

의미
- 적절한 조건하에 비편향추정량이 가질수 있는 분산의 하한값을 제공한다
- 어떤 비편향추정량이 이 하한값을 분산으로 찾는다면 이 추정량을 최소분산 비편향추정량으로 볼수 있다. 다만 이 방법이 최소분산 비편향추정량의 유일성을 보이진 않는다
피셔의 정보 Fisher's Information
- 조건
- 확률변수 $X$ 의 확률밀도함수 $f(x|\theta)$ 일때 다음과 같이 정의된다
- 정의
- $I(\theta)=\mathbb{E}[(\cfrac{\partial {}}{\partial {\theta}}\log_{}{f(X;\theta)}) ^{2}]$
정보부등식 Information Inequality
- 조건
- 확률밀도함수 $f(x;\theta)$ 와 통계량 $T(X)$ 에 대해 다음과 같은 가정을 한다
1. 모수가 다르면 확률밀도함수가 다르다 $\theta \neq \theta'$ 라면 $f(x;\theta)\neq f(x;\theta')$
2. 집합 $A = \{ x:f(x;\theta)>0 \}$ 는 모수 $\theta$ 에 의존하지 않으며, 모든 $x \in A$ $\theta \in \Omega$ 에 대하여 $\log_{}{f(x;\theta)}$ 는 $\theta$ 에 대해 두번 미분가능하고 도함수가 연속이다
3. 통계량 $T(X)$ 가 모든 $\theta \in \Omega$ 에 대하여 $\mathbb{E}[T(X)]<\infty$ 이면
- $\cfrac{\partial {}}{\partial {\theta}}\displaystyle\int_{}^{}{\cdots \displaystyle\int_{}^{}{T(x _{1},x _{2},\cdots,x _{n})\displaystyle\prod\limits_{i=1}^{n}{f(x _{i};\theta)}}}dx _{1}dx _{2}\cdots dx _{n}=\displaystyle\int_{}^{}{\cdots \displaystyle\int_{}^{}{\cfrac{\partial {}}{\partial {}\theta}\displaystyle\prod\limits_{i=1}^{n}{f(x _{i};\theta)}}}dx _{1}dx _{2}\cdots dx _{n}$
- 모든 $\theta \in \Omega$ 에 대하여 $Var(T(X))< \infty , \,\, \mathbb{E}[T(X)]=g(\theta),\,\,0<I(\theta)<\infty$
- 정리
- $Var(T(X))\ge \displaystyle\frac{[g'(\theta)] ^{2}}{nI(\theta)}$ 이다
- 증명
- $T(X)=T(X _{1},X _{2},\cdots, X _{n})$ 은 $g(\theta)$ 에 대한 불편추정량이므로, $T(X)$ 에 대한 기댓값이 $g(\theta)$ 이다
- $g'(\theta)=\cfrac{\partial {}}{\partial {\theta}}g(\theta)=\cfrac{\partial {}}{\partial {\theta}}\displaystyle\int_{}^{}{\cdots \displaystyle\int_{-\infty }^{\infty }{T(x _{1},x _{2},\cdots, x _{n})\displaystyle\prod\limits_{i=1}^{n}{f(x _{i};\theta)dx _{1}dx _{2}\cdots dx _{n}}}}$
- $=\displaystyle\int_{}^{}{\cdots \displaystyle\int_{-\infty }^{\infty }{T(x _{1},x _{2},\cdots, x _{n})\cfrac{\partial {}}{\partial {\theta}}[\displaystyle\prod\limits_{i=1}^{n}{f(x _{i};\theta)}]dx _{1}dx _{2}\cdots d x _{n}}}$
- $\cfrac{\partial {}}{\partial {\theta}}\displaystyle\int_{}^{}{\cdots \displaystyle\int_{}^{}{\displaystyle\prod\limits_{i=1}^{n}{}f(x _{i};\theta)dx _{1}}dx _{2}\cdots d x _{n}}=\cfrac{\partial {}}{\partial {\theta}}(1)=0$ 이라는 사실을 활용하자
- $g(\theta) \cfrac{\partial {}}{\partial {\theta}}\displaystyle\int_{}^{}{\cdots \displaystyle\int_{-\infty }^{\infty }{\displaystyle\prod\limits_{i=1}^{n}{f(x _{i};\theta)}dx _{1}dx _{2}\cdots d x _{n}}}=g(\theta) \displaystyle\int_{}^{}{\cdots \displaystyle\int_{-\infty }^{\infty }{\cfrac{\partial {}}{\partial {\theta}}[\displaystyle\prod\limits_{i=1}^{n}{f(x _{i};\theta)}]dx _{1}d x _{2}\cdots d x _{n}}}=0$
- $=\displaystyle\int_{}^{}{\cdots \displaystyle\int_{-\infty }^{\infty }{}}[T(x _{1},x _{2},\cdots,x _{n})-g(\theta)]\cfrac{\partial {}}{\partial {\theta}}[\displaystyle\prod\limits_{i=1}^{n}{f(x _{i};\theta)}]dx _{1}\cdots d x _{n}$
- $=\displaystyle\int_{}^{}{\displaystyle\int_{-\infty }^{\infty }{[T(x _{1},x _{2},\cdots, x _{n})-g(\theta)][\cfrac{\partial {}}{\partial {\theta}}\log_{}{(\displaystyle\prod\limits_{i=1}^{n}{f(x _{i};\theta)})}]\cdot \displaystyle\prod\limits_{i=1}^{n}{f(x _{i};\theta)}}dx _{1}d x _{2} \cdots d x _{n}}$
- $=\mathbb{E}[(T(X)-g(\theta))\cfrac{\partial {}}{\partial {\theta}}(\log_{}{(\displaystyle\prod\limits_{i=1}^{n}{f(X _{i};\theta)}}) ]$
- $[g'(\theta)] ^{2} \le \mathbb{E}[((T(X)-g(\theta) ^{2})]\cdot \mathbb{E}[(\cfrac{\partial {}}{\partial {\theta}}(\log_{}{(\displaystyle\prod\limits_{i=1}^{n}{f(X _{i};\theta)}) })^{2}]$
- $[g'(\theta)] ^{2} \le Var(T(X))\cdot \mathbb{E}[(\cfrac{\partial {}}{\partial {\theta}}(\log_{}{(\displaystyle\prod\limits_{i=1}^{n}{f(X _{i};\theta)}) })^{2}]$
- $Var(T(X)) \ge \displaystyle\frac{[g'(\theta) ]^{2}}{\mathbb{E}[(\cfrac{\partial {}}{\partial {\theta}}(\log_{}{(\displaystyle\prod\limits_{i=1}^{n}{f(X _{i};\theta)}) })^{2}]}$
- 그런데 $\cfrac{\partial {}}{\partial {\theta}}\log_{}{(f(X _{i};\theta))}=\displaystyle\int_{-\infty }^{\infty }{[\cfrac{\partial {}}{\partial {\theta}}logf(x;\theta)]f(x;\theta)}$
- $=\displaystyle\int_{-\infty }^{\infty }{\cfrac{\partial {}}{\partial {\theta}}f(x;\theta)dx}=\cfrac{\partial {}}{\partial {\theta}}\displaystyle\int_{-\infty }^{\infty }{f(x;\theta)dx}=0$ 이므로
- $\mathbb{E}[(\cfrac{\partial {}}{\partial {\theta}} \log_{}{(\displaystyle\prod\limits_{i=1}^{n}{f _{i}(x _{i};\theta)})}) ^{2}]=\mathbb{E}[(\displaystyle\sum\limits_{i=1}^{n}{\cfrac{\partial {}}{\partial {\theta}}logf(X _{i};\theta)}) ^{2}]=\displaystyle\sum\limits_{i=1}^{n}{\displaystyle\sum\limits_{j=1}^{n}{\mathbb{E}}}[(\cfrac{\partial {}}{\partial {\theta}}f(X _{i};\theta))(\cfrac{\partial {}}{\partial {\theta}}\log_{}{(f(X _{j};\theta))})]$
- 여기서 마지막 항의 두 곱은 독립이므로 $\mathbb{E}(X _{1}X _{2})=\mathbb{E}(X _{1})\mathbb{E}(X _{2})$ 의 조건을 사용할 수 있다. 이 사실을 활용하면 $i=j$ 외의 다른 곱의 조합에선 모두 0이 됨을 알 수 있고
- $=n \mathbb{E}[(\cfrac{\partial {}}{\partial {\theta}}\log_{}{(f(X;\theta)) }) ^{2}]$ 이다. 이 값은 피셔의 정보의 정의 $I$ 에다 $n$ 을 곱한 값이므로
- $Var(T(X)) \ge \displaystyle\frac{[g'(\theta)] ^{2}}{nI}$ , $I=\mathbb{E}[(\cfrac{\partial {}}{\partial {\theta}}\log_{}{(f(X;\theta))}) ^{2}]$

완비충분 통계량 방법

Method of Complete Sufficient Statistic

충분통계량
- 확률벡터 $\boldsymbol{X}=(X _{1},X _{2},\cdots,X _{n})$ 의 결합확률밀도함수가 $f(X _{1},X _{2},\cdots,X _{n};\theta _{1},\theta _{2},\cdots,\theta _{k})$ 일때 $\boldsymbol{S}(X)=(S _{1}(\boldsymbol{X}),\cdots,S _{l}(\boldsymbol{X}))$ 를 $l$ 개의 통게량 벡터라고 하자
정의
- 이때 확률변수 $(X _{1},X _{2},\cdots,X _{n}|\boldsymbol{S}(\boldsymbol{X}))$ 의 분포가 모수 $\theta=(\theta _{1},\theta _{2},\cdots,\theta _{k})$ 에 의존하지 않으면 통계량 $\boldsymbol{S}(\boldsymbol{X})$ 를 결합 충분통계량jointly sufficient statistic이라 부른다
- 일변량 $(l=1)$ 에는 $\boldsymbol{S}(\boldsymbol{X})$ 가 $\theta$ 의 충분통계량이라고 부른다
의미
- 통계량 $\boldsymbol{S}(\boldsymbol{X})$ 가 모수에 관한 정보를 모두 갖고 있는 상태라는 것이다
- 이는 데이터 축소data reduction을 가능하게 한다. 모수 추정이 목적이라면 대규모의 자료를 모두 저장할 필요 없이 충분통계량만 얻으면 되기 때문이다

인수분해정리

Factorization Theorem

조건
- $X _{1},X _{2},\cdots, X _{n}$ 의 결합확률밀도함수가 $f(x _{1},x _{2},\cdots,x _{n};\theta)$ 라고 하자
- 이때 $S(X)=(S _{1}(X),S _{2}(X),\cdots,S _{k}(X))$ 를 $k$ 개의 통계량이라고 하자
정의
- $S$ 가 결합충분통계량일 필요충분조건은 결합 확률밀도함수가 $s$ 와 $\theta$ 만의 함수인 $g$ 와 $(x _{1},x _{2},\cdots,x _{n})$ 만의 함수인 $h$ 와의 곱꼴로 다음과 같이 나타나지는 것이다
- $f(x _{1},x _{2},\cdots,x _{n};\theta)=g(s(x);\theta) \times h(x _{1},x _{2},\cdots,x _{n})$
증명
- $f(x _{1},x _{2},\cdots , x _{n};\theta)=f _{S}(s;\theta)\cdot f _{X|S}(x _{1},x _{2},\cdots, x _{n}|S)$
- 여기서 $f _{S}(s;\theta)=P(S=s;\theta)$ 는 $S$ 의 확률밀도함수이다
- 충분성의 정의에 의해 조건부 확률밀도함수 $f _{X|S}$ 는 모수 $\theta$ 에 의존하지 않는다

라오-블랙웰 정리

Rao-Blackwell's Theorem

조건
- 모수의 함수 $g(\theta)$ 에 대하여 $S$ 가 충분통계량이고, $T(X)$ 가 비편향추정량이라고 하자
정리
- $\delta(S)=\mathbb{E}[T(X)|S]$ 라고 하면 $\delta(S)$ 도 역시 $g(\theta)$ 의 비편향추정량이며, 모든 $\theta$ 에 대하여
- $Var(\delta(S))=\mathbb{E}[(\delta(S)-g(\theta)) ^{2}]$
- $\le \mathbb{E}[(T(X)-g(\theta)) ^{2}]$
- $=Var(T(X))$ 이다
증명
- 이중기댓값 정리를 활용하면 $\mathbb{E}[g(S)]=\mathbb{E}[\mathbb{E}[T(X)|S]]=\mathbb{E}[T(X)]=g(\theta)$ 가 된다
- 정리 2-13. $Var(Y)=\mathbb{E}[Var(Y|X)+Var(E(Y|X))]$ 을 활용하자
- $Y=T(X)$ $X=S$ 로 넣으면
- $Var(T(X))=\mathbb{E}[Var(T(X)|S)+Var(\mathbb{E}[T(X)|S])]$
- $=\mathbb{E}[Var(T(X)|S)]+Var(\delta(S))$
- $=\mathbb{E}[\mathbb{E}(T(X )^{2}|S)-\mathbb{E}(T(X)|S) ^{2}]+Var(\delta(S))$
- $=\mathbb{E}[\mathbb{E}(T(X )^{2}|S)-\delta(S) ^{2}]+Var(\delta (S))$
- $=\mathbb{E}[\mathbb{E}(T(X)-\delta(S)) ^{2}|S]+Var(\delta(S))$ ( $\delta(S)$ 는 상수임을 이용하여 전개하면 위와 같아짐)
- $\ge Var(\delta(S))$
부록 증명
- $Var(Y)=\mathbb{E}[Var(Y|X)]+Var[\mathbb{E}(Y|X)]$
- $\mathbb{E}[Var(Y|X)]=\mathbb{E}[\mathbb{E}(Y ^{2}|X)-\mathbb{E}(Y|X) ^{2}]$
- $=\mathbb{E}(Y ^{2})-\mathbb{E}[\mathbb{E}(Y|X) ^{2}]$
- $=\mathbb{E}[Y ^{2}]-(\mathbb{E}[\mathbb{E}(Y|X) ^{2}] -(\mathbb{E}[\mathbb{E}(Y|X)]) ^{2})-(\mathbb{E}[\mathbb{E}(Y|X)] ) ^{2}$
- $=Var(Y)-Var(\mathbb{E}(Y|X))$
- $Var(Y)=\mathbb{E}[Var(Y|X)]+Var(\mathbb{E}[Y|X])$
의미
- 어떤 비편향추정량 $T(X)$ 가 존재하면, 충분통계량 $S$ 에 대한 조건부 기댓값 $\mathbb{E}[T(X)|S]$ 또한 비편향추정량이고, 이는 $T(X)$ 보다 작거나 같은 분산량을 갖는다.
- 비편향추정량중 충분통계량의 함수인것은, 일반적인 비편향추정량보다 작으며, 만일 이것이 유일할 경우, 최소분산비편향추정량이 된다. 따라서 비편향추정량중 가장 작은 추정량을 찾을때, 그 후보를 충분통계량에 대한 함수꼴로 국한시킬 수 있다

완비 충분통계량

complete statistic

조건
- 랜덤표본 $X _{1},X _{2},\cdots,X _{n}$ 으로부터 계산된 통계량 $S=S(X _{1},X _{2},\cdots,X _{n})$ 이 있다고 하자
- $\mathbb{E}[g(S)]=0$ 을 모든 $\theta \in \Omega$ 에 무관한 함수 $g$ 가 $g(\cdot )=0$ 뿐이라고 하자
정의
- $S$ 를 완비통계량 complete statistic 이라고 하자
- $S$ 가 $\theta$ 에 대한 충분 통계량이면 완비 충분통계량complete sufficient statistc이라고 부르자
의미
- $S (X)$ 가 완비통계량이라면, $S(X)$ 의 서로 다른 두 함수가 같은 기댓값을 갖지 못한다.
- 즉 $\mathbb{E}[g _{1}(S(X))]=\mathbb{E}[g _{2}(S(X))]=g(\theta)$ 라면 $\mathbb{E}[(g _{1}-g _{2})(S(X))]=0$ 으로 완비성에 의해 $g _{1}(S(X)))=g _{2}(S(X))$ 이다. 이 경우 완비통계량의 함수로서 비편향추정량은 유일하게 된다
- 또 어떤 비편향추정량이 완비 충분통계량이라면, 완비통계량의 정의의 의해 완비통계량에 대한 함수로서 비편향추정량은 유일하게 존재하고, 라오-블랙웰 정리에 따라 유일하게 존재하는 충분 비편향통계량은 최소분산 비편향추정량이다

레만-쉐페 정리

조건
- 모수 $\theta$ 에 대하여 $S$ 가 완비충분통계량이다
- $T(X)$ 가 $g(\theta)$ 의 비편향추정량이라고 하자
정리
- $\delta(S)=\mathbb{E} ((T(X))|S)$ 는 $g(\theta)$ 의 유일한 최소분산 비편향추정량MVUE(Minimum -Variance Unbiased Estimate) 이다
증명
- $\mathbb{E}[\delta(S)]=\mathbb{E}[\mathbb{E}(T(X)|S)]=\mathbb{E}(T(X))$ 으로 $\delta(S)$ 는 이중기댓값 정리에 의해 $g(\theta)$ 의 비편향 추정량이다.
- 임의의 비편향 추정량 $\eta(X _{1},X _{2},\cdots,X _{n})$ 을 고려하자 이것이 통계량 $S$ 의 함수라면 $\delta ^{*}(S)=\eta(X _{1},X _{2},\cdots,X _{n})$ 으로 표기하자
- 그러면 모든 $\theta$ 에 대하여 $\mathbb{E}[\delta(S)-\delta ^{*}(S)]=0$
- 모든 $\theta$ 에 대해 $\mathbb{E}[\delta(S)-\delta ^{*}(S)]=0$ 이고 $\delta(S)-\delta ^{*}(S)=0$ 가 $S$ 의 함수이므로, 완비성에 의해 $\delta(S)=\delta ^{*}(S)$ 이다
- $\eta(X _{1},\cdots,X _{n})$ 이 $S$ 의 함수가 아니라면, 라오-블랙웰 정리에 따라 $\mathbb{E}[\eta(X _{1},X _{2},\cdots,X _{n})|S]$ 가 $\eta(X _{1},X _{2},\cdots, X _{n})$ 보다 작은 분산을 갖는 비편향추정량이 되고, 이는 $S$ 의 함수이므로, $\delta(S)=\mathbb{E}{[T(X)|S]}$ 와 동일하게 된다
- 따라서 $\delta(S)$ 는 $g(\theta)$ 의 유일한 최소분산 비편향추정량이다
의미
- 어떤 모수 $\theta$ 에 대하여 $S$ 가 완비 충분통계량이고, $\mathbb{E}[S(X))]=g(\theta)$ 이면 $S(X)$ 는 $g(\theta)$ 의 유일한 최소분산 비편향추정량 MVUE가 됨을 의미한다. 따라서 2개의 전략이 성립된다
1. 완비 충분통계량의 함수 가운데 비편향 추정량을 찾는다
2. 다루기 쉬운 비편향추정량을 골라 완비 충분통계량으로 조건부 기댓값을 취한다

지수족

조건
- 모수 $\theta =(\theta _{1},\theta _{2}, \cdots,\theta _{k})$ 와 집합 $\{ x:f(x;\theta)>0 \}$ 이 있다하자
- 다음의 적절한 함수 $a _{i}(x),b _{i}(x),c _{i,}(\theta),t _{i}(x)$ 가 있다하자
정의
- 확률밀도함수 $f(x;\theta)=a(\theta)b(x)exp[\displaystyle\sum\limits_{i=1}^{k}{c _{i}(\theta)}t _{i}(x)]$ 가 있다면 $\theta _{1},\theta _{2},\cdots,\theta _{k}$ 를 갖는 지수족에 속한다고 부른다
예
- 베르누이 확률분포 $f(x;p)=p ^{x}(1-p) ^{1-x}$
- $f(x;p)=(1-p)(\displaystyle\frac{p}{1-p}) ^{x}=(1-p)exp[x \cdot \log_{}{(1-p)}]$
- 푸아송 확률분포
- $f(x;\lambda)=\displaystyle\frac{e^{-\lambda}\lambda ^{x}}{x!}$
- $=e^{-\lambda}\cdot \displaystyle\frac{1}{x!}\cdot exp(x \log_{}{\lambda})$
- $a= e^{-\lambda}$ $b=\displaystyle\frac{1}{x!}$ $c=\log_{}{(\lambda)}$ $t=x$ 로 두면 된다
- 그외에 지수분포, 베타,감마분포, 음이항분포등이 이에 해당된다
- 다만 $x$ 영역이 모수 $\theta$ 에 의존하는 경우 지수족에 속하지 않는다
정리
- 지수족 $f(x;\theta)=a(\theta)b(x)exp[\displaystyle\sum\limits_{i=1}^{k}{c _{i}(\theta)}t _{i}]$ 에서 랜덤표본 $X _{1},X _{2},\cdots,X _{n}$ 을 얻었다면 통계량 $S _{1}=\displaystyle\sum\limits_{i=1}^{n}{t _{1}(X _{i})},\cdots, S _{k}=\displaystyle\sum\limits_{i-1}^{n}{t _{k}(X _{i})}$ 는 모수 $\theta$ 에 대한 결합 완비 충분통계량이다

바수정리

조건
- 통계량 $(S _{1},S _{2},\cdots,S _{k})$ 가 모수 $\theta=(\theta _{1}, \theta _{2},\cdots, \theta _{k})$ 에 대한 결합 완비 충분통계량이라고 하자
- 어떤 통계량 $T$ 의 분포가 모수 $\theta=(\theta _{1},\theta _{2},\cdots,\theta _{k})$ 에 의존하지 않는다
정리
- $S$ 와 $T$ 는 서로 독립이다
증명
- 각 $T,S$ 에 대한 확률밀도와 $S=s$ 일떄의 $T$ 의 조건부 확률밀도함수를 $f _{T}(t),f _{S}(s;\theta),f(t|s)$ 라고 하자
- $\mathbb{E}_{\theta}[f _{T}(t)-f (t|S)]=f _{T}(t)-\displaystyle\sum\limits_{s}^{}{f(t|s)f(s;\theta)}$
- $=f _{T}(t)-\displaystyle\sum\limits_{s}^{}{f(s,t;\theta)}$
- $=f _{T}(t)-f _{T}(t)$
- $=0$
- $S$ 의 충분성에 의해 $f _{T}(t)-f(t|S)$ 는 $\theta$ 에 의존하지 않고, $S$ 의 완비성에 의해 모든 $s$ 에 대하여 $f(t|s)=f _{T}(t)$ 이다.
- 그러므로 S와 T는 서로 독립이다.

구간추정

조건
- 랜덤표본 $X _{1},X _{2},\cdots,X _{n}$ 이 있고, 확률밀도함수 $f(x;\theta)$ $\theta \in \Omega$ 가 있다고 하자
- 확률구간 $[L(X _{1},X _{2},\cdots,X _{n}),U(X _{1},X _{2},\cdots,X _{n})]$ 이 있다하자
- $0<\alpha<1$ 이 있다하자
정의
- $P[L(X _{1},X _{2},\cdots,X _{n})\le \theta \le U(X _{1},X _{2},\cdots,X _{n})]=1-\alpha$ 를 모수 $\theta$ 의 $100(1-\alpha)\%$ 의 신뢰구간이라고 부른다
- 그리고 $L,U$ 를 각각 신뢰구간의 상한, 하한이라고 부른다
해석
- 유의도 significant level $\alpha$
- 제 1종 오류 FP (양성으로 추측하였으나 실제는 음성인 경우 / 귀무가설 기각을 채택하였으나 실제로는 귀무가설을 기각하지 못하는 경우)가 발생할 확률로, 귀무가설 모델을 참이라 생각하였을 때, 기각역의 넓이다.
- 신뢰도 confidence coefficient/신뢰계수 confidence level $1-\alpha$
- 귀무가설이 참이라고 가정하였을 때 수많은 랜덤표본을 뽑아서 각 랜덤표본의 모수가 신뢰구간 $[L,U]$ 안에 위치할 확률이다
- $P[L \le \theta]$ 나 $P[\theta \le U]$ 로 상한과 하한만을 갖는 구간의 확률을 측정할수도 있는데 이를 총칭하여 단측 하한신뢰구간 One-sided lower confidence interval, 단측 상한신뢰구간 One-sided upper confidence interval이라 부른다

추축변량 pivotal quantity

조건
- 랜덤표본 $X _{1},X _{2},\cdots,X _{n}$ 이 있고, 확률밀도함수 $f(x;\theta)$ $\theta \in \Omega$ 가 있다고 하자
정의
- 이때 표본과 모수 $\theta$ 의 함수인 확률변량 $T(X _{1},X _{2},\cdots,X _{n};\theta)=T(X _{1},X _{2},\cdots, T _{n})$ 의 분포가 $\theta$ 에 의존하지 않으면 추축변량이라고 한다
의미
- $T$ 의 분포가 모수에 의존하지 않으므로, $P(t _{1}<T<t _{2})$ 를 만족시키는 $t _{1},t _{2}$ 를 찾고 $\alpha$ 값을 찾으면 상수가 된다
- 표본평균이나 표본분산이 그 예가 될 수 있다
- 그러나 추축변량이 언제나 존재한다거나 유일하다는 보장은 따로 없다

*베이즈 추정

나중에 상세한 설명이 있는 책을 활용하여 제대로 공부하자

베이즈 추정의 아이디어
- 어떤 기계부품을 수입해오는 회사에서 정기적으로 수입제품의 성능을 확인한다고 하자
- 이 성능의 측정값은 $f(x;\mu)$ 이고 $\mu$ 라는 평균값에 관심이 있다
- 오랜 거래기간에 의해 $\mu \sim \mathcal{N}(100,3 ^{2})$ 의 정규분포를 따른다는 사전 정보가 있다고 하자
- 지금까지의 추정방법들은 모수를 고정된 값으로 생각하기 때문에 이러한 사전 정보를 활용하는 것이 불가능하였다
의미
- 베이지안 Bayesian 방법은 이러한 사전정보를 활용하여 $\theta$ 를 추정하게 된다
- 베이지안 통계는 모수 $\theta$ 를 확률변수로 생각하여 그에 대한 사전정보를 활용할 수 있다
- 사건 $B _{1},B _{2},\cdots,B _{k}$ 가 상호배반이며 $\cup _{i=1} ^{k}B _{i}=\mathcal{C}$ 일때 사건 $A$ 가 일어났다는 조건하에 사건 $B _{j}$ 가 일어날 확률은
- $P(B _{j}|A)=\displaystyle\frac{P(A ,B _{j})}{P(A)}=\displaystyle\frac{P(A,B _{j})}{\displaystyle\sum\limits_{i=1}^{k}{P(B _{i})P(A|B _{i})}}$ 이다
- 식에서 보듯 $A$ 가 선행되어 $B _{j}$ 가 일어날 사건의 확률을 계산하는데에는 반대로 $B _{i}$ ( $i=1,2,\cdots k$ )의 사건이 일어나서 $A$ 가 일어날 사건의 확률들을 활용할 수 있다
- 이는 $B _{1},B _{2}, \cdots$ 의 무한열에서도 성립한다
- $f _{Y|X}(y|x)=\displaystyle\frac{f _{X,Y}(x,y)}{f _{X}(x)}=\displaystyle\frac{f _{X,Y}(x,y)}{\displaystyle\int_{-\infty }^{\infty }{f _{X,Y}(x,y)dy}}=\displaystyle\frac{f _{X|Y}(x|y)f _{Y}(y)}{\displaystyle\int_{-\infty }^{\infty }{f _{X|Y}(x|y)f _{Y}(y)}}$
베이즈 추정
- 조건
- 랜덤표본 $X _{1},X _{2},\cdots,X _{n}$ 이 있고 그 확률밀도함수가 $f(x;\theta)$ 이라고 하자
- $\theta \in \Omega$ 는 확률변수 $\Theta \in \Omega$ 의 실현값으로 보자.
- $\Theta$ 의 사전확률밀도함수(표본 $x _{i}$ 들을 보기전 $\theta$ 에 대해 추정한 정보)를 $\pi(\theta)$ 라고 표기하자
- 정리
- $f(x,\theta)=\pi(\theta)f(x|\theta)$
- $f(x _{1}, x _{2},\cdots,x _{n},\theta)=\pi(\theta)\displaystyle\prod\limits_{i=1}^{n}{f(x _{i}|\theta)}$
- 의미
- $\theta$ 의 사전확률분포에서 '사전'은 표본을 관측하기 전이란 의미로, 가지고 있는 정보를 활용하여, 추측한 값이다
- '사후'는 $P(A|B)$ 로, 사건 $B$ 가 발생하였을 떄, 그 정보를 활용하여, 사건 $A$ 가 일어날 확률을 다시 추측하는 것이다.
- 베이즈 추정은 표본을 관측하고 난 뒤 $\theta$ 에 대한 정보를 업데이트 하고자 한다
```
	- 모수 $\theta$의 사후확률밀도함수
		- $k(\theta|x _{1},x _{2},\cdots,x _{n})=\displaystyle\frac{\pi(\theta)\displaystyle\prod\limits_{i=1}^{n}{f(x _{i}|\theta)}}{\displaystyle\int_{-\infty }^{\infty }{[\displaystyle\prod\limits_{i=1}^{n}{f(x _{i}|\theta)}]\pi(\theta)}d \theta}=\displaystyle\frac{\text{ 각}x _{i},\pi(\theta) \text{ 에 대한 확률값}}{\text{ 각}x _{i} \text{ 에 대한 확률값}}$
		- 관측치가 주어졌을 때 모수가 특정값 $\theta$ 일 확률을 계산한 것이다
```

켤레 사전분포족

정의
- 확률밀도함수 $f(x|\theta), \theta \in \Omega$ 에 대하여 사후분포가 사전분포와 같은 분포족에 들어가게 하는 사전분포의 모임을 $f(x|\theta)$ 에 대한 켤레사전분포족 conjugate family of prior distribution 이라 부른다

손실함수

조건
- $\theta$ 값과 이에 대한 추정값 $u(x _{1},u(x _{2}),\cdots,u(x _{n}))$ 이 있다고 하자
정의
- 손실함수 $L$ 이 주어졌을 떄 베이즈 추정량은 다음과 같이 정의된다
- $\mathbb{E}[L(\Theta,u(x _{1},x _{2},\cdots,x _{n})|x _{1},x _{2},\cdots,x _{n})]=\displaystyle\int_{-\infty }^{\infty }{L(\theta,u(x _{1},\cdots,x _{n})k(\theta|x _{1},x _{2},\cdots,x _{n}))d \theta}$
- $\mathbb{E}[\mathbb{E}(L(\Theta,u(\boldsymbol{X})|\boldsymbol{X}=\boldsymbol{x}))]$
- $=\displaystyle\int_{-\infty }^{\infty }{\displaystyle\int_{-\infty }^{\infty }{L(\theta,u(x))f(x|\theta)dx \pi(\theta)d \theta}}$
- $=\displaystyle\int_{-\infty }^{\infty }{R(\theta,u)}\pi(\theta)d \theta$ 이다
- 여기서 $\boldsymbol{R}(\theta,u )=\mathbb{E}[L(\theta,u(\boldsymbol{X}))|\theta]$ 는 위험함수 risk function이라고 불리며, $X$ 에 대한 손실함수의 기댓값이다
- 베이즈 추정량 $u(\boldsymbol{X})$ 는 모든 $x$ 값에서 $\displaystyle\int_{-\infty }^{\infty }{L(\theta,u(x))k(\theta|x)d \theta}$ 를 최소화하므로, 기대위험은 최소화한다

* 추정량의 점근적 성질

일치성 consistency

조건
- 모수의 함수 $g(\theta)$ 의 추정량 $T _{n}(\theta)=T(X _{1},X _{2},\cdots,X _{n})$ 이 임의의 $\epsilon>0$ 에 대하여 $- $\lim\limits_{\displaystyle{n \to \infty }}{P(|T _{n}(X)-g(\theta|\le \epsilon)}=1$ 을 만족시킨다고 하자
정의
- 추정량 $T _{n}(X)$ 는 일치성consistency이 있다
의미
- 표본이 커짐에 따라 $T _{n}(X)$ 가 $g(\theta)$ 에 확률적으로 수렴한다는 것으로, 표본의 크기가 매우 클 때, 추정량 $T _{n}(X)$ 로 부터 계산된 추정값은 높은 확률로 참 모수에 매우 가까이 있단 의미이다
정리
1. $\lim\limits_{\displaystyle{n \to \infty }}{\mathbb{E}[T _{n}(X)-g(\theta) ^{2}]}=0$ 이면 $T _{n}(X)$ 는 일치성이 있다
2. $T _{n}$ 이 모수 $\theta$ 의 일치추정량이라고 하자. 만일 $g(x)$ 가 $\theta$ 에서 연속인 함수라면 $g(T _{n})$ 은 $g(\theta)$ 의 일치추정량이다
3. $T _{n}$ 이 $\theta _{1}$ 의 일치추정량, $S _{n}$ 이 $\theta _{2}$ 의 일치추정량이라고 하자. 그러면 $c _{n}\to c$ 이고, $d _{n} \to d$ 인 실수열에 대하여, $c _{n}T _{n}+d _{n}S _{n}\to c \theta _{1}+d \theta _{2}$ 이고, $T _{n}/S _{n}\to \theta _{1}/\theta _{2}$ , $\theta _{2} \neq 0$ , $T _{n}S _{n} \to \theta _{1}\theta _{2}$ 이다

WooSeongkyun

안녕하세요!

이전 포스트

수리통계학- 3.표본분포 및 근사

다음 포스트