수리통계- 4.추정

WooSeongkyun·2023년 3월 25일
0

수리통계학

목록 보기
4/6
flowchart TD
A1["최적의 모수"] --- A2_1["최대가능도 추정량 MLE"]
A1["최적의 모수"] --- A2_2["손실함수"]
A2_1["최대가능도 추정량 MLE"] --- A2_1_1["MLE불변성"]
A2_2["손실함수"] --- A2_2_1["MSE"]
A2_2_1["MSE"] --- A2_2_1_1["MSE는 분산+바이어스 제곱"]
A2_2_1_1["MSE는 분산+바이어스 제곱"] --- A2_2_1_1_1["최소분산비편향추정량"]
A2_2_1_1_1["최소분산비편향추정량 MVUE"] --- A2_2_1_1_1_1["크레머 라오 방법"]
A2_2_1_1_1_1["크레머 라오 방법"] --- A2_2_1_1_1_1_1["분산의 하한"]
A2_2_1_1_1["최소분산비편향추정량 MVUE"] --- A2_2_1_1_1_2["레만 쉐페 정리"]

A2_2_1_1_1_2["레만 쉐페 정리"] --- A2_2_1_1_1_2_2["완비통계량"]
A2_2_1_1_1_2["레만 쉐페 정리"] --- A2_2_1_1_1_2_3["충분통계량"]
A2_2_1_1_1_2_3["충분통계량"] --- A2_2_1_1_1_2_3_1["인수분해정리"]
A2_2_1_1_1_2_3["충분통계량"] --- A2_2_1_1_1_2_3_2["라오 블랙웰 정리"]
A2_2_1_1_1_3["지수족"] --- A2_2_1_1_1_2_2["완비통계량"]
A2_2_1_1_1_3["지수족"] --- A2_2_1_1_1_2_3["충분통계량"]
A2_2_1_1_1_2["레만 쉐페 정리"] --- A2_2_1_1_1_3["지수족"]

추정 기본개념

  • 통계량
    - 미지의 모수를 포함하지 않는, 랜덤표본 X1,X2,,XnX _{1},X _{2},\cdots,X _{n} 의 함수
  • 추정량의 정의
    - 모수 θ\theta 의 함수 g(θ)g(\theta)를 추정하기 위해 사용되는 통계량 T(θ)T(\theta)
  • 추정값
    - 주어진 표본값 Xi=xiX _{i}=x _{i} 를 대입하여 구해진 추정량의 특정값
  • 추정의 종류
    - 통계량 T(X)=T(X1,X2,,Xn)T(X)=T(X _{1},X _{2},\cdots,X _{n})을 활용하여 하나의 값 g(θ)g(\boldsymbol{\theta})을 추정하는 것을 점 추정 point estimate라고 부른다
    - 두 통계량 T1(X)=T1(X1,X2,,Xn)T _{1}(X)=T _{1}(X _{1},X _{2},\cdots,X _{n})T2(X)=T2(X1,X2,,Xn)T _{2}(X)=T _{2}(X _{1},X _{2},\cdots,X _{n}) 을 활용하여 구간 [T1,T2][T _{1},T _{2}]g(θ)g(\boldsymbol{\theta}) 가 포함될 확률을 고려하는 것을 구간추정 interval estimation이라고 부른다

적률추정법

  • 조건
    - 모수벡터 θ=(θ1,θ2,,θk)\theta=(\theta _{1},\theta _{2},\cdots,\theta _{k})를 갖는 확률분포에서 표본 X1,X2,,XnX _{1},X _{2},\cdots, X _{n} 을 뽑았다고 하자
  • 정의
    - 모분포의 rr 차 적률 rrth population moment
    - μr=E[Xr]\mu _{r}'=\mathbb{E}[X ^{r}]
    - 표본적률 rrth sample moment
    - mr=i=1nXirnm _{r}'=\displaystyle\frac{\displaystyle\sum\limits_{i=1}^{n}{X _{i} ^{r}}}{n}
  • 성질
    - 일반적으로 모적률 μr\mu _{r}'은 모수벡터 θ=(θ1,θ2,,θk)\boldsymbol{\theta}=(\theta _{1},\theta _{2},\cdots,\theta _{k}) 의 함수이므로 kk개의 연립방정식
    - mj=μj(θ1,θ2,,θk)m _{j}'=\mu _{j}'(\theta _{1},\theta _{2},\cdots, \theta _{k}) j=1,2,,kj=1,2,\cdots,k
    - 해당식을 풀면 해 (θ^1,θ^2,,θ^k)(\hat{\theta}_{1},\hat{\theta}_{2},\cdots,\hat{\theta}_{k}) 를 구할 수 있고 이를 θ\theta 에 대한 적률추정량이라고 부른다
    - rr차 표본적률이 rr차 모적률로 표본의 크기가 커짐에 따라 확률적으로 수렴함이 큰수의 법칙에 의해 보장되어 있다

최대가능도 추정법

Maximum Likelihood estimation

  • 가능도 함수 likelihood function
    - 조건
    - 확률변수 X1,X2,,XnX _{1},X _{2},\cdots,X _{n}의 결합확률밀도함수 f(x1,x2,,xn;θ)f(x _{1},x _{2},\cdots,x _{n};\theta) 가 있다고 하자
    - Xi=xiX _{i}=x _{i} 로 값들이 주어져있다고 하자. 그러면 결합밀도확률함수 ffθ\theta 에만 의존하는 함수가 된다
    - 정의
    - Xi=xiX _{i}=x _{i} 로 값들이 주어져 ffθ\theta 에만 의존하는 함수일때 L(θ)L(\theta) 라고 표기하고 이를 가능도함수라고 정의한다
    - (이는 기존의 확률밀도함수가 모수는 고정되어 있다고 가정한 것과 정반대이다)
    - L(θ)=L(θ;x1,x2,,xn)=f(x1,x2,,xn;θ)L(\theta)=L(\theta;x _{1},x _{2},\cdots,x _{n})=f(x _{1},x _{2},\cdots,x _{n};\theta)
    - 해석
    - 주어진 자료 (x1,x2,,xn)(x _{1},x _{2},\cdots,x _{n}) 에 대하여 특정 모수 θ\theta 로 해당 자료값을 얻을 확률
    - 성질
    - 확률변수 X1,X2,,XnX _{1},X _{2},\cdots,X _{n}이 서로 독립적이고 XifiX _{i} \sim f _{i} 라고 한다면
    - f(x1,x2,,xn;θ)=i=1nfi(xi;θ)f(x _{1},x _{2},\cdots,x _{n};\theta)=\displaystyle\prod\limits_{i=1}^{n}{f _{i}(x _{i};\theta)}
  • 최대가능도추정량 Maximum Likelihood Estimator
    - f(x1,x2,,xnθ)f(x _{1},x _{2},\cdots,x _{n}|\theta) 를 최대화 하는 θ\theta의 값을 θ^\hat{\theta} 로 표기하며, 모수 θ\theta의 최대가능도 추정량이라고 정의한다
  • 가능도함수 로그 표현법
    - 조건
    - 자료 X1,X2,,XnX _{1},X _{2},\cdots,X _{n}이 서로 독립적이라고 하자 그러면 f(x1,x2,,xn;θ)=i=1nfi(xi;θ)f(x _{1},x _{2},\cdots,x _{n};\theta)=\displaystyle\prod\limits_{i=1}^{n}{f _{i}(x _{i};\theta)}
    - logL(θ;x1,x2,,xn)=logi=1nfi(xi;θ)=i=1nlogfi(xi;θ)\log_{}{L(\theta;x _{1},x _{2},\cdots,x _{n})}=\log_{}{\displaystyle\prod\limits_{i=1}^{n}{f _{i}(x _{i};\theta)}}=\displaystyle\sum\limits_{i=1}^{n}{\log_{}{f _{i}(x _{i};\theta)}} 이다
    - 로그는 단조증가함수를 이용한 것으로, logL\log_{}{L} 을 미분하여 최소화하는 θ\theta를 찾으면 , 이는 LL를 최소화하는 θ\theta 를 찾는 것과 동일하다
    - 미분 계산시 곱으로 이루어진 확률이 로그덕분에 합으로 이루어져 상대적으로 연산이 쉬워진다
  • 최대가능도 추정량의 불변성 invariance property of MLE
    - 조건
    - X1,X2,,XnX _{1},X _{2},\cdots,X _{n}을 확률밀도함수 f(x;θ)f(x;\theta) 에서 얻은 랜덤표본이라고 하자
    - 정리
    - θ^n\hat{\theta} _{n}이 모수 θ\theta의 최대가능도 추정량이라고 한다면, θ\theta의 함수인 g(θ)g(\theta) 에 대하여 g(θ^n)g(\hat{\theta}_{n})g(θ)g(\theta)의 최대가능도 추정량이 된다
    - 증명
    - 조건
    - η=g(θ)\eta=g(\theta)라고 하자.
    - 불변성의 원리는 일반적인 함수 gg 에서도 성립하나 여기선 편의를 위해 gg는 일대일 함수라고 하자
    - θ\theta를 모수로 하는 가능도함수를 L(θ)L(\theta), η\eta를 모수로 하는 가능도함수를 L(η)L ^{*}(\eta)라고 하자
    - 과정
    - L(g(θ))=L(η)=i=1nf(xig1(η))=L(g1(η))=L(θ)L ^{*}(g(\theta))=L ^{*}(\eta)=\displaystyle\prod\limits_{i=1}^{n}{f(x _{i}|g ^{-1}(\eta))}=L(g ^{-1}(\eta))=L(\theta)
    - maxηg(Ω)L(η)=maxηg(Ω)L(g1(η))=maxθΩL(θ)\max\limits_{\displaystyle{\eta \in g(\Omega)}}{L ^{*}(\eta)}=\max\limits_{\displaystyle{\eta \in g(\Omega)}}{L(g ^{-1}(\eta))}=\max\limits_{\displaystyle{\theta \in \Omega}}{L(\theta)}
    - 이므로
    - L(η^)=maxηg(Ω)L(η)=maxθΩL(θ)=L(θ^n)=L(g(θ^n))L ^{*}(\hat{\eta})=\max\limits_{\displaystyle{\eta \in g(\Omega)}}{L ^{*}(\eta)}=\max\limits_{\displaystyle{\theta \in \Omega}}{L(\theta)}=L(\hat{\theta}_{n})=L ^{*}(g(\hat{\theta}_{n})) 이다
  • 편향 bias
    - bias=E[T(X)]g(θ)\text{bias}=\mathbb{E}[T(X)]-g(\theta)
    - 편향 추정량 비편향 추정량
    - 비편향 추정량
    - E[T(X)]g(θ)=0\mathbb{E}[T(X)]-g(\theta)=0
    - 편향추정량
    - E[T(X)]g(θ)0\mathbb{E}[T(X)]-g(\theta) \neq 0
  • 손실 함수 loss function
    - 추정량 T(X)T(X) 가 모수의 확률인 g(θ)g(\theta) 와 얼마나 차이가 나는지를 평가하는 척도
    - 평균제곱오차 Mean Sqaure Error
    - 그중에서도 제곱을 활용하여 오차를 계산한 값
    - MSE=(T(X)g(θ))2MSE=(T(X)-g(\theta)) ^{2}
    - MSEMSE 의 성질
    - MSE=Var(T(X))+bias2MSE=Var(T(X))+\text{bias} ^{2}
    - 증명
    - MSE=E[(T(X)g(θ))2]MSE=\mathbb{E}[(T(X)-g(\theta)) ^{2}]
    - =E[{T(X)E[T(X)]}+{E[T(X)]g(θ)}]2+2E[{T(X)E(T(X))}{E(T(X))g(θ)}]=\mathbb{E}[\{T(X)-\mathbb{E}[T(X)]\}+\{\mathbb{E}[T(X)]-g(\theta)\}] ^{2}+2\mathbb{E}[\{T(X)-\mathbb{E}(T(X))\}\{\mathbb{E}(T(X))-g(\theta)\}]
    - =Var(T(X))+[E(T(X))g(θ)]2+2E[{T(X)E(T(X))}{E(T(X))g(θ)}]=Var(T(X))+[\mathbb{E}(T(X))-g(\theta)] ^{2}+2\mathbb{E}[\{T(X)-\mathbb{E}(T(X))\}\{\mathbb{E}(T(X))-g(\theta)\}]
    - 2E[{T(X)E(T(X))}{E(T(X))g(θ)}]=2[E(T(X))g(θ)][E(T(X))E(T(X))]=02\mathbb{E}[\{T(X)-\mathbb{E}(T(X))\}\{\mathbb{E}(T(X))-g(\theta)\}]=2[\mathbb{E}(T(X))-g(\theta)][\mathbb{E}(T(X))-\mathbb{E}(T(X))]=0 이므로
    - Var(T(X))+[E(T(X)g(θ))]2Var(T(X))+[\mathbb{E}(T(X)-g(\theta))] ^{2}
    - 즉 평균제곱오차를 기준으로 추정하는데엔 분산과 편향 두 요소가 존재함을 알 수 있다. 평균제곱오차를 줄이기 위해선 분산과 편향의 절대값을 줄여야 함을 알 수 있다
    - 비편향추정량들만을 고려할때는 평균제곱오차를 최소화하는 추정량을 구하기 위해선, 분산을 최소화하는 추정량만을 구하면 된다
  • 상대효율 relative efficiency
    - 조건
    - T1(X),T2(X)T _{1}(X),T _{2}(X) 모두 g(θ)g(\theta) 에 대한 비편향추정양이라고 하자
    - 정의
    - r=Var[T2(X)]Var[T1(X)]r=\displaystyle\frac{Var[T _{2}(X)]}{Var[T _{1}(X)]}T1T _{1}T2T _{2} 에 대한 상대효율이라고 부른다
    - r<1r<1 이면 T2T _{2}가 , r>1r>1 이면 T1T _{1} 이 더 좋은 추정량이라 말할 수 있다

최소분산 비편향추정량

  • 조건
    - 확률변수 X1,X2,,XnX _{1},X _{2},\cdots,X _{n} 의 결합 확률밀도함수 f(x1,x2,,xnθ)f(x _{1},x _{2},\cdots,x _{n}|\theta) 라고 하자.
  • 정의
    - 다음의 두 조건을 만족시키는 T(X)T ^{*}(X) 를 최소분산 비편향 추정량이라고 부른다
    1. T(X)T ^{*}(X)g(θ)g(\theta) 의 비편향추정량이다 (E[T(X)]=g(θ)\mathbb{E}[T ^{*}(X)]=g(\theta))
    2. g(θ)g(\theta)의 임의의 비편향 추정량 T(X)T(X) 에 대하여
    - Var(T(X))Var(T(X))Var(T ^{*}(X))\le Var(T(X)) 를 만족한다
  • 해석
    - 최소분산 비편향추정량은 평균제곱오차를 통하여 추정한 모수들중 가장 작은 평균제곱오차를 만든다. (잘 들어맞는다)

크레머-라오의 정보 부등식

Cramer-rao's Information Inequality

  • 의미
    - 적절한 조건하에 비편향추정량이 가질수 있는 분산의 하한값을 제공한다
    - 어떤 비편향추정량이 이 하한값을 분산으로 찾는다면 이 추정량을 최소분산 비편향추정량으로 볼수 있다. 다만 이 방법이 최소분산 비편향추정량의 유일성을 보이진 않는다

  • 피셔의 정보 Fisher's Information
    - 조건
    - 확률변수 XX의 확률밀도함수 f(xθ)f(x|\theta)일때 다음과 같이 정의된다
    - 정의
    - I(θ)=E[(θlogf(X;θ))2]I(\theta)=\mathbb{E}[(\cfrac{\partial {}}{\partial {\theta}}\log_{}{f(X;\theta)}) ^{2}]

  • 정보부등식 Information Inequality
    - 조건
    - 확률밀도함수 f(x;θ)f(x;\theta)와 통계량 T(X)T(X) 에 대해 다음과 같은 가정을 한다
    1. 모수가 다르면 확률밀도함수가 다르다 θθ\theta \neq \theta' 라면 f(x;θ)f(x;θ)f(x;\theta)\neq f(x;\theta')
    2. 집합 A={x:f(x;θ)>0}A = \{ x:f(x;\theta)>0 \} 는 모수 θ\theta에 의존하지 않으며, 모든 xAx \in A θΩ\theta \in \Omega 에 대하여 logf(x;θ)\log_{}{f(x;\theta)}θ\theta 에 대해 두번 미분가능하고 도함수가 연속이다
    3. 통계량 T(X)T(X) 가 모든 θΩ\theta \in \Omega 에 대하여 E[T(X)]<\mathbb{E}[T(X)]<\infty 이면
    - θT(x1,x2,,xn)i=1nf(xi;θ)dx1dx2dxn=θi=1nf(xi;θ)dx1dx2dxn\cfrac{\partial {}}{\partial {\theta}}\displaystyle\int_{}^{}{\cdots \displaystyle\int_{}^{}{T(x _{1},x _{2},\cdots,x _{n})\displaystyle\prod\limits_{i=1}^{n}{f(x _{i};\theta)}}}dx _{1}dx _{2}\cdots dx _{n}=\displaystyle\int_{}^{}{\cdots \displaystyle\int_{}^{}{\cfrac{\partial {}}{\partial {}\theta}\displaystyle\prod\limits_{i=1}^{n}{f(x _{i};\theta)}}}dx _{1}dx _{2}\cdots dx _{n}
    - 모든 θΩ\theta \in \Omega 에 대하여 Var(T(X))<,E[T(X)]=g(θ),0<I(θ)<Var(T(X))< \infty , \,\, \mathbb{E}[T(X)]=g(\theta),\,\,0<I(\theta)<\infty
    - 정리
    - Var(T(X))[g(θ)]2nI(θ)Var(T(X))\ge \displaystyle\frac{[g'(\theta)] ^{2}}{nI(\theta)} 이다
    - 증명
    - T(X)=T(X1,X2,,Xn)T(X)=T(X _{1},X _{2},\cdots, X _{n})g(θ)g(\theta) 에 대한 불편추정량이므로, T(X)T(X) 에 대한 기댓값이 g(θ)g(\theta) 이다
    - g(θ)=θg(θ)=θT(x1,x2,,xn)i=1nf(xi;θ)dx1dx2dxng'(\theta)=\cfrac{\partial {}}{\partial {\theta}}g(\theta)=\cfrac{\partial {}}{\partial {\theta}}\displaystyle\int_{}^{}{\cdots \displaystyle\int_{-\infty }^{\infty }{T(x _{1},x _{2},\cdots, x _{n})\displaystyle\prod\limits_{i=1}^{n}{f(x _{i};\theta)dx _{1}dx _{2}\cdots dx _{n}}}}
    - =T(x1,x2,,xn)θ[i=1nf(xi;θ)]dx1dx2dxn=\displaystyle\int_{}^{}{\cdots \displaystyle\int_{-\infty }^{\infty }{T(x _{1},x _{2},\cdots, x _{n})\cfrac{\partial {}}{\partial {\theta}}[\displaystyle\prod\limits_{i=1}^{n}{f(x _{i};\theta)}]dx _{1}dx _{2}\cdots d x _{n}}}
    - θi=1nf(xi;θ)dx1dx2dxn=θ(1)=0\cfrac{\partial {}}{\partial {\theta}}\displaystyle\int_{}^{}{\cdots \displaystyle\int_{}^{}{\displaystyle\prod\limits_{i=1}^{n}{}f(x _{i};\theta)dx _{1}}dx _{2}\cdots d x _{n}}=\cfrac{\partial {}}{\partial {\theta}}(1)=0 이라는 사실을 활용하자
    - g(θ)θi=1nf(xi;θ)dx1dx2dxn=g(θ)θ[i=1nf(xi;θ)]dx1dx2dxn=0g(\theta) \cfrac{\partial {}}{\partial {\theta}}\displaystyle\int_{}^{}{\cdots \displaystyle\int_{-\infty }^{\infty }{\displaystyle\prod\limits_{i=1}^{n}{f(x _{i};\theta)}dx _{1}dx _{2}\cdots d x _{n}}}=g(\theta) \displaystyle\int_{}^{}{\cdots \displaystyle\int_{-\infty }^{\infty }{\cfrac{\partial {}}{\partial {\theta}}[\displaystyle\prod\limits_{i=1}^{n}{f(x _{i};\theta)}]dx _{1}d x _{2}\cdots d x _{n}}}=0
    - =[T(x1,x2,,xn)g(θ)]θ[i=1nf(xi;θ)]dx1dxn=\displaystyle\int_{}^{}{\cdots \displaystyle\int_{-\infty }^{\infty }{}}[T(x _{1},x _{2},\cdots,x _{n})-g(\theta)]\cfrac{\partial {}}{\partial {\theta}}[\displaystyle\prod\limits_{i=1}^{n}{f(x _{i};\theta)}]dx _{1}\cdots d x _{n}
    - =[T(x1,x2,,xn)g(θ)][θlog(i=1nf(xi;θ))]i=1nf(xi;θ)dx1dx2dxn=\displaystyle\int_{}^{}{\displaystyle\int_{-\infty }^{\infty }{[T(x _{1},x _{2},\cdots, x _{n})-g(\theta)][\cfrac{\partial {}}{\partial {\theta}}\log_{}{(\displaystyle\prod\limits_{i=1}^{n}{f(x _{i};\theta)})}]\cdot \displaystyle\prod\limits_{i=1}^{n}{f(x _{i};\theta)}}dx _{1}d x _{2} \cdots d x _{n}}
    - =E[(T(X)g(θ))θ(log(i=1nf(Xi;θ))]=\mathbb{E}[(T(X)-g(\theta))\cfrac{\partial {}}{\partial {\theta}}(\log_{}{(\displaystyle\prod\limits_{i=1}^{n}{f(X _{i};\theta)}}) ]
    - [g(θ)]2E[((T(X)g(θ)2)]E[(θ(log(i=1nf(Xi;θ)))2][g'(\theta)] ^{2} \le \mathbb{E}[((T(X)-g(\theta) ^{2})]\cdot \mathbb{E}[(\cfrac{\partial {}}{\partial {\theta}}(\log_{}{(\displaystyle\prod\limits_{i=1}^{n}{f(X _{i};\theta)}) })^{2}]
    - [g(θ)]2Var(T(X))E[(θ(log(i=1nf(Xi;θ)))2][g'(\theta)] ^{2} \le Var(T(X))\cdot \mathbb{E}[(\cfrac{\partial {}}{\partial {\theta}}(\log_{}{(\displaystyle\prod\limits_{i=1}^{n}{f(X _{i};\theta)}) })^{2}]
    - Var(T(X))[g(θ)]2E[(θ(log(i=1nf(Xi;θ)))2]Var(T(X)) \ge \displaystyle\frac{[g'(\theta) ]^{2}}{\mathbb{E}[(\cfrac{\partial {}}{\partial {\theta}}(\log_{}{(\displaystyle\prod\limits_{i=1}^{n}{f(X _{i};\theta)}) })^{2}]}
    - 그런데 θlog(f(Xi;θ))=[θlogf(x;θ)]f(x;θ)\cfrac{\partial {}}{\partial {\theta}}\log_{}{(f(X _{i};\theta))}=\displaystyle\int_{-\infty }^{\infty }{[\cfrac{\partial {}}{\partial {\theta}}logf(x;\theta)]f(x;\theta)}
    - =θf(x;θ)dx=θf(x;θ)dx=0=\displaystyle\int_{-\infty }^{\infty }{\cfrac{\partial {}}{\partial {\theta}}f(x;\theta)dx}=\cfrac{\partial {}}{\partial {\theta}}\displaystyle\int_{-\infty }^{\infty }{f(x;\theta)dx}=0 이므로
    - E[(θlog(i=1nfi(xi;θ)))2]=E[(i=1nθlogf(Xi;θ))2]=i=1nj=1nE[(θf(Xi;θ))(θlog(f(Xj;θ)))]\mathbb{E}[(\cfrac{\partial {}}{\partial {\theta}} \log_{}{(\displaystyle\prod\limits_{i=1}^{n}{f _{i}(x _{i};\theta)})}) ^{2}]=\mathbb{E}[(\displaystyle\sum\limits_{i=1}^{n}{\cfrac{\partial {}}{\partial {\theta}}logf(X _{i};\theta)}) ^{2}]=\displaystyle\sum\limits_{i=1}^{n}{\displaystyle\sum\limits_{j=1}^{n}{\mathbb{E}}}[(\cfrac{\partial {}}{\partial {\theta}}f(X _{i};\theta))(\cfrac{\partial {}}{\partial {\theta}}\log_{}{(f(X _{j};\theta))})]
    - 여기서 마지막 항의 두 곱은 독립이므로 E(X1X2)=E(X1)E(X2)\mathbb{E}(X _{1}X _{2})=\mathbb{E}(X _{1})\mathbb{E}(X _{2}) 의 조건을 사용할 수 있다. 이 사실을 활용하면 i=ji=j 외의 다른 곱의 조합에선 모두 0이 됨을 알 수 있고
    - =nE[(θlog(f(X;θ)))2]=n \mathbb{E}[(\cfrac{\partial {}}{\partial {\theta}}\log_{}{(f(X;\theta)) }) ^{2}] 이다. 이 값은 피셔의 정보의 정의 II 에다 n 을 곱한 값이므로
    - Var(T(X))[g(θ)]2nIVar(T(X)) \ge \displaystyle\frac{[g'(\theta)] ^{2}}{nI} ,I=E[(θlog(f(X;θ)))2]I=\mathbb{E}[(\cfrac{\partial {}}{\partial {\theta}}\log_{}{(f(X;\theta))}) ^{2}]

완비충분 통계량 방법

Method of Complete Sufficient Statistic

  • 충분통계량
    - 확률벡터 X=(X1,X2,,Xn)\boldsymbol{X}=(X _{1},X _{2},\cdots,X _{n}) 의 결합확률밀도함수가 f(X1,X2,,Xn;θ1,θ2,,θk)f(X _{1},X _{2},\cdots,X _{n};\theta _{1},\theta _{2},\cdots,\theta _{k}) 일때 S(X)=(S1(X),,Sl(X))\boldsymbol{S}(X)=(S _{1}(\boldsymbol{X}),\cdots,S _{l}(\boldsymbol{X}))ll개의 통게량 벡터라고 하자
  • 정의
    - 이때 확률변수 (X1,X2,,XnS(X))(X _{1},X _{2},\cdots,X _{n}|\boldsymbol{S}(\boldsymbol{X})) 의 분포가 모수 θ=(θ1,θ2,,θk)\theta=(\theta _{1},\theta _{2},\cdots,\theta _{k})에 의존하지 않으면 통계량 S(X)\boldsymbol{S}(\boldsymbol{X})를 결합 충분통계량jointly sufficient statistic이라 부른다
    - 일변량 (l=1)(l=1)에는 S(X)\boldsymbol{S}(\boldsymbol{X})θ\theta의 충분통계량이라고 부른다
  • 의미
    - 통계량 S(X)\boldsymbol{S}(\boldsymbol{X})가 모수에 관한 정보를 모두 갖고 있는 상태라는 것이다
    - 이는 데이터 축소data reduction을 가능하게 한다. 모수 추정이 목적이라면 대규모의 자료를 모두 저장할 필요 없이 충분통계량만 얻으면 되기 때문이다

인수분해정리

Factorization Theorem

  • 조건
    - X1,X2,,XnX _{1},X _{2},\cdots, X _{n} 의 결합확률밀도함수가 f(x1,x2,,xn;θ)f(x _{1},x _{2},\cdots,x _{n};\theta) 라고 하자
    - 이때 S(X)=(S1(X),S2(X),,Sk(X))S(X)=(S _{1}(X),S _{2}(X),\cdots,S _{k}(X))kk 개의 통계량이라고 하자
  • 정의
    - SS가 결합충분통계량일 필요충분조건은 결합 확률밀도함수가 ssθ\theta 만의 함수인 gg(x1,x2,,xn)(x _{1},x _{2},\cdots,x _{n}) 만의 함수인 hh 와의 곱꼴로 다음과 같이 나타나지는 것이다
    - f(x1,x2,,xn;θ)=g(s(x);θ)×h(x1,x2,,xn)f(x _{1},x _{2},\cdots,x _{n};\theta)=g(s(x);\theta) \times h(x _{1},x _{2},\cdots,x _{n})
  • 증명
    - f(x1,x2,,xn;θ)=fS(s;θ)fXS(x1,x2,,xnS)f(x _{1},x _{2},\cdots , x _{n};\theta)=f _{S}(s;\theta)\cdot f _{X|S}(x _{1},x _{2},\cdots, x _{n}|S)
    - 여기서 fS(s;θ)=P(S=s;θ)f _{S}(s;\theta)=P(S=s;\theta)SS 의 확률밀도함수이다
    - 충분성의 정의에 의해 조건부 확률밀도함수 fXSf _{X|S} 는 모수 θ\theta 에 의존하지 않는다

라오-블랙웰 정리

Rao-Blackwell's Theorem

  • 조건
    - 모수의 함수 g(θ)g(\theta) 에 대하여 SS 가 충분통계량이고, T(X)T(X)가 비편향추정량이라고 하자

  • 정리
    - δ(S)=E[T(X)S]\delta(S)=\mathbb{E}[T(X)|S] 라고 하면 δ(S)\delta(S) 도 역시 g(θ)g(\theta)의 비편향추정량이며, 모든 θ\theta 에 대하여
    - Var(δ(S))=E[(δ(S)g(θ))2]Var(\delta(S))=\mathbb{E}[(\delta(S)-g(\theta)) ^{2}]
    - E[(T(X)g(θ))2]\le \mathbb{E}[(T(X)-g(\theta)) ^{2}]
    - =Var(T(X))=Var(T(X)) 이다

  • 증명
    - 이중기댓값 정리를 활용하면 E[g(S)]=E[E[T(X)S]]=E[T(X)]=g(θ)\mathbb{E}[g(S)]=\mathbb{E}[\mathbb{E}[T(X)|S]]=\mathbb{E}[T(X)]=g(\theta) 가 된다
    - 정리 2-13. Var(Y)=E[Var(YX)+Var(E(YX))]Var(Y)=\mathbb{E}[Var(Y|X)+Var(E(Y|X))] 을 활용하자
    - Y=T(X)Y=T(X) X=SX=S 로 넣으면
    - Var(T(X))=E[Var(T(X)S)+Var(E[T(X)S])]Var(T(X))=\mathbb{E}[Var(T(X)|S)+Var(\mathbb{E}[T(X)|S])]
    - =E[Var(T(X)S)]+Var(δ(S))=\mathbb{E}[Var(T(X)|S)]+Var(\delta(S))
    - =E[E(T(X)2S)E(T(X)S)2]+Var(δ(S))=\mathbb{E}[\mathbb{E}(T(X )^{2}|S)-\mathbb{E}(T(X)|S) ^{2}]+Var(\delta(S))
    - =E[E(T(X)2S)δ(S)2]+Var(δ(S))=\mathbb{E}[\mathbb{E}(T(X )^{2}|S)-\delta(S) ^{2}]+Var(\delta (S))
    - =E[E(T(X)δ(S))2S]+Var(δ(S))=\mathbb{E}[\mathbb{E}(T(X)-\delta(S)) ^{2}|S]+Var(\delta(S)) (δ(S)\delta(S)는 상수임을 이용하여 전개하면 위와 같아짐)
    - Var(δ(S))\ge Var(\delta(S))

  • 부록 증명
    - Var(Y)=E[Var(YX)]+Var[E(YX)]Var(Y)=\mathbb{E}[Var(Y|X)]+Var[\mathbb{E}(Y|X)]
    - E[Var(YX)]=E[E(Y2X)E(YX)2]\mathbb{E}[Var(Y|X)]=\mathbb{E}[\mathbb{E}(Y ^{2}|X)-\mathbb{E}(Y|X) ^{2}]
    - =E(Y2)E[E(YX)2]=\mathbb{E}(Y ^{2})-\mathbb{E}[\mathbb{E}(Y|X) ^{2}]
    - =E[Y2](E[E(YX)2](E[E(YX)])2)(E[E(YX)])2=\mathbb{E}[Y ^{2}]-(\mathbb{E}[\mathbb{E}(Y|X) ^{2}] -(\mathbb{E}[\mathbb{E}(Y|X)]) ^{2})-(\mathbb{E}[\mathbb{E}(Y|X)] ) ^{2}
    - =Var(Y)Var(E(YX))=Var(Y)-Var(\mathbb{E}(Y|X))
    - Var(Y)=E[Var(YX)]+Var(E[YX])Var(Y)=\mathbb{E}[Var(Y|X)]+Var(\mathbb{E}[Y|X])

  • 의미
    - 어떤 비편향추정량 T(X)T(X) 가 존재하면, 충분통계량 SS 에 대한 조건부 기댓값 E[T(X)S]\mathbb{E}[T(X)|S] 또한 비편향추정량이고, 이는 T(X)T(X) 보다 작거나 같은 분산량을 갖는다.
    - 비편향추정량중 충분통계량의 함수인것은, 일반적인 비편향추정량보다 작으며, 만일 이것이 유일할 경우, 최소분산비편향추정량이 된다. 따라서 비편향추정량중 가장 작은 추정량을 찾을때, 그 후보를 충분통계량에 대한 함수꼴로 국한시킬 수 있다

완비 충분통계량

complete statistic

  • 조건
    - 랜덤표본 X1,X2,,XnX _{1},X _{2},\cdots,X _{n}으로부터 계산된 통계량 S=S(X1,X2,,Xn)S=S(X _{1},X _{2},\cdots,X _{n}) 이 있다고 하자
    - E[g(S)]=0\mathbb{E}[g(S)]=0 을 모든 θΩ\theta \in \Omega 에 무관한 함수 ggg()=0g(\cdot )=0 뿐이라고 하자
  • 정의
    - SS 를 완비통계량 complete statistic 이라고 하자
    - SSθ\theta 에 대한 충분 통계량이면 완비 충분통계량complete sufficient statistc이라고 부르자
  • 의미
    - S(X)S (X) 가 완비통계량이라면, S(X)S(X) 의 서로 다른 두 함수가 같은 기댓값을 갖지 못한다.
    - 즉 E[g1(S(X))]=E[g2(S(X))]=g(θ)\mathbb{E}[g _{1}(S(X))]=\mathbb{E}[g _{2}(S(X))]=g(\theta) 라면 E[(g1g2)(S(X))]=0\mathbb{E}[(g _{1}-g _{2})(S(X))]=0 으로 완비성에 의해 g1(S(X)))=g2(S(X))g _{1}(S(X)))=g _{2}(S(X)) 이다. 이 경우 완비통계량의 함수로서 비편향추정량은 유일하게 된다
    - 또 어떤 비편향추정량이 완비 충분통계량이라면, 완비통계량의 정의의 의해 완비통계량에 대한 함수로서 비편향추정량은 유일하게 존재하고, 라오-블랙웰 정리에 따라 유일하게 존재하는 충분 비편향통계량은 최소분산 비편향추정량이다

레만-쉐페 정리

  • 조건
    - 모수 θ\theta 에 대하여 SS 가 완비충분통계량이다
    - T(X)T(X)g(θ)g(\theta)의 비편향추정량이라고 하자
  • 정리
    - δ(S)=E((T(X))S)\delta(S)=\mathbb{E} ((T(X))|S)g(θ)g(\theta) 의 유일한 최소분산 비편향추정량MVUE(Minimum -Variance Unbiased Estimate) 이다
  • 증명
    - E[δ(S)]=E[E(T(X)S)]=E(T(X))\mathbb{E}[\delta(S)]=\mathbb{E}[\mathbb{E}(T(X)|S)]=\mathbb{E}(T(X)) 으로 δ(S)\delta(S) 는 이중기댓값 정리에 의해 g(θ)g(\theta) 의 비편향 추정량이다.
    - 임의의 비편향 추정량 η(X1,X2,,Xn)\eta(X _{1},X _{2},\cdots,X _{n}) 을 고려하자 이것이 통계량 SS 의 함수라면 δ(S)=η(X1,X2,,Xn)\delta ^{*}(S)=\eta(X _{1},X _{2},\cdots,X _{n}) 으로 표기하자
    - 그러면 모든 θ\theta 에 대하여 E[δ(S)δ(S)]=0\mathbb{E}[\delta(S)-\delta ^{*}(S)]=0
    - 모든 θ\theta 에 대해 E[δ(S)δ(S)]=0\mathbb{E}[\delta(S)-\delta ^{*}(S)]=0이고 δ(S)δ(S)=0\delta(S)-\delta ^{*}(S)=0SS 의 함수이므로, 완비성에 의해 δ(S)=δ(S)\delta(S)=\delta ^{*}(S) 이다
    - η(X1,,Xn)\eta(X _{1},\cdots,X _{n})SS 의 함수가 아니라면, 라오-블랙웰 정리에 따라 E[η(X1,X2,,Xn)S]\mathbb{E}[\eta(X _{1},X _{2},\cdots,X _{n})|S]η(X1,X2,,Xn)\eta(X _{1},X _{2},\cdots, X _{n}) 보다 작은 분산을 갖는 비편향추정량이 되고, 이는 SS 의 함수이므로, δ(S)=E[T(X)S]\delta(S)=\mathbb{E}{[T(X)|S]} 와 동일하게 된다
    - 따라서 δ(S)\delta(S)g(θ)g(\theta)의 유일한 최소분산 비편향추정량이다
  • 의미
    - 어떤 모수 θ\theta 에 대하여 SS 가 완비 충분통계량이고, E[S(X))]=g(θ)\mathbb{E}[S(X))]=g(\theta) 이면 S(X)S(X)g(θ)g(\theta) 의 유일한 최소분산 비편향추정량 MVUE가 됨을 의미한다. 따라서 2개의 전략이 성립된다
    1. 완비 충분통계량의 함수 가운데 비편향 추정량을 찾는다
    2. 다루기 쉬운 비편향추정량을 골라 완비 충분통계량으로 조건부 기댓값을 취한다

지수족

  • 조건
    - 모수 θ=(θ1,θ2,,θk)\theta =(\theta _{1},\theta _{2}, \cdots,\theta _{k}) 와 집합 {x:f(x;θ)>0}\{ x:f(x;\theta)>0 \} 이 있다하자
    - 다음의 적절한 함수 ai(x),bi(x),ci,(θ),ti(x)a _{i}(x),b _{i}(x),c _{i,}(\theta),t _{i}(x) 가 있다하자
  • 정의
    - 확률밀도함수 f(x;θ)=a(θ)b(x)exp[i=1kci(θ)ti(x)]f(x;\theta)=a(\theta)b(x)exp[\displaystyle\sum\limits_{i=1}^{k}{c _{i}(\theta)}t _{i}(x)]가 있다면 θ1,θ2,,θk\theta _{1},\theta _{2},\cdots,\theta _{k} 를 갖는 지수족에 속한다고 부른다

  • - 베르누이 확률분포 f(x;p)=px(1p)1xf(x;p)=p ^{x}(1-p) ^{1-x}
    - f(x;p)=(1p)(p1p)x=(1p)exp[xlog(1p)]f(x;p)=(1-p)(\displaystyle\frac{p}{1-p}) ^{x}=(1-p)exp[x \cdot \log_{}{(1-p)}]
    - 푸아송 확률분포
    - f(x;λ)=eλλxx!f(x;\lambda)=\displaystyle\frac{e^{-\lambda}\lambda ^{x}}{x!}
    - =eλ1x!exp(xlogλ)=e^{-\lambda}\cdot \displaystyle\frac{1}{x!}\cdot exp(x \log_{}{\lambda})
    - a=eλa= e^{-\lambda} b=1x!b=\displaystyle\frac{1}{x!} c=log(λ)c=\log_{}{(\lambda)} t=xt=x 로 두면 된다
    - 그외에 지수분포, 베타,감마분포, 음이항분포등이 이에 해당된다
    - 다만 xx 영역이 모수 θ\theta 에 의존하는 경우 지수족에 속하지 않는다
  • 정리
    - 지수족 f(x;θ)=a(θ)b(x)exp[i=1kci(θ)ti]f(x;\theta)=a(\theta)b(x)exp[\displaystyle\sum\limits_{i=1}^{k}{c _{i}(\theta)}t _{i}] 에서 랜덤표본 X1,X2,,XnX _{1},X _{2},\cdots,X _{n} 을 얻었다면 통계량 S1=i=1nt1(Xi),,Sk=i1ntk(Xi)S _{1}=\displaystyle\sum\limits_{i=1}^{n}{t _{1}(X _{i})},\cdots, S _{k}=\displaystyle\sum\limits_{i-1}^{n}{t _{k}(X _{i})} 는 모수 θ\theta 에 대한 결합 완비 충분통계량이다

바수정리

  • 조건
    - 통계량 (S1,S2,,Sk)(S _{1},S _{2},\cdots,S _{k}) 가 모수 θ=(θ1,θ2,,θk)\theta=(\theta _{1}, \theta _{2},\cdots, \theta _{k})에 대한 결합 완비 충분통계량이라고 하자
    - 어떤 통계량 TT 의 분포가 모수 θ=(θ1,θ2,,θk)\theta=(\theta _{1},\theta _{2},\cdots,\theta _{k}) 에 의존하지 않는다
  • 정리
    - SSTT 는 서로 독립이다
  • 증명
    - 각 T,ST,S에 대한 확률밀도와 S=sS=s 일떄의 TT 의 조건부 확률밀도함수를 fT(t),fS(s;θ),f(ts)f _{T}(t),f _{S}(s;\theta),f(t|s) 라고 하자
    - Eθ[fT(t)f(tS)]=fT(t)sf(ts)f(s;θ)\mathbb{E}_{\theta}[f _{T}(t)-f (t|S)]=f _{T}(t)-\displaystyle\sum\limits_{s}^{}{f(t|s)f(s;\theta)}
    - =fT(t)sf(s,t;θ)=f _{T}(t)-\displaystyle\sum\limits_{s}^{}{f(s,t;\theta)}
    - =fT(t)fT(t)=f _{T}(t)-f _{T}(t)
    - =0=0
    - SS 의 충분성에 의해 fT(t)f(tS)f _{T}(t)-f(t|S)θ\theta 에 의존하지 않고, SS 의 완비성에 의해 모든 ss 에 대하여 f(ts)=fT(t)f(t|s)=f _{T}(t) 이다.
    - 그러므로 S와 T는 서로 독립이다.

구간추정

  • 조건
    - 랜덤표본 X1,X2,,XnX _{1},X _{2},\cdots,X _{n} 이 있고, 확률밀도함수 f(x;θ)f(x;\theta) θΩ\theta \in \Omega 가 있다고 하자
    - 확률구간 [L(X1,X2,,Xn),U(X1,X2,,Xn)][L(X _{1},X _{2},\cdots,X _{n}),U(X _{1},X _{2},\cdots,X _{n})] 이 있다하자
    - 0<α<10<\alpha<1 이 있다하자
  • 정의
    - P[L(X1,X2,,Xn)θU(X1,X2,,Xn)]=1αP[L(X _{1},X _{2},\cdots,X _{n})\le \theta \le U(X _{1},X _{2},\cdots,X _{n})]=1-\alpha 를 모수 θ\theta100(1α)%100(1-\alpha)\% 의 신뢰구간이라고 부른다
    - 그리고 L,UL,U 를 각각 신뢰구간의 상한, 하한이라고 부른다
  • 해석
    - 유의도 significant level α\alpha
    - 제 1종 오류 FP (양성으로 추측하였으나 실제는 음성인 경우 / 귀무가설 기각을 채택하였으나 실제로는 귀무가설을 기각하지 못하는 경우)가 발생할 확률로, 귀무가설 모델을 참이라 생각하였을 때, 기각역의 넓이다.
    - 신뢰도 confidence coefficient/신뢰계수 confidence level 1α1-\alpha
    - 귀무가설이 참이라고 가정하였을 때 수많은 랜덤표본을 뽑아서 각 랜덤표본의 모수가 신뢰구간 [L,U][L,U] 안에 위치할 확률이다
    - P[Lθ]P[L \le \theta]P[θU]P[\theta \le U] 로 상한과 하한만을 갖는 구간의 확률을 측정할수도 있는데 이를 총칭하여 단측 하한신뢰구간 One-sided lower confidence interval, 단측 상한신뢰구간 One-sided upper confidence interval이라 부른다

추축변량 pivotal quantity

  • 조건
    - 랜덤표본 X1,X2,,XnX _{1},X _{2},\cdots,X _{n} 이 있고, 확률밀도함수 f(x;θ)f(x;\theta) θΩ\theta \in \Omega 가 있다고 하자
  • 정의
    - 이때 표본과 모수 θ\theta의 함수인 확률변량 T(X1,X2,,Xn;θ)=T(X1,X2,,Tn)T(X _{1},X _{2},\cdots,X _{n};\theta)=T(X _{1},X _{2},\cdots, T _{n})의 분포가 θ\theta 에 의존하지 않으면 추축변량이라고 한다
  • 의미
    - TT 의 분포가 모수에 의존하지 않으므로, P(t1<T<t2)P(t _{1}<T<t _{2}) 를 만족시키는 t1,t2t _{1},t _{2} 를 찾고 α\alpha값을 찾으면 상수가 된다
    - 표본평균이나 표본분산이 그 예가 될 수 있다
    - 그러나 추축변량이 언제나 존재한다거나 유일하다는 보장은 따로 없다

*베이즈 추정

나중에 상세한 설명이 있는 책을 활용하여 제대로 공부하자

  • 베이즈 추정의 아이디어
    - 어떤 기계부품을 수입해오는 회사에서 정기적으로 수입제품의 성능을 확인한다고 하자
    - 이 성능의 측정값은 f(x;μ)f(x;\mu) 이고 μ\mu 라는 평균값에 관심이 있다
    - 오랜 거래기간에 의해 μN(100,32)\mu \sim \mathcal{N}(100,3 ^{2})의 정규분포를 따른다는 사전 정보가 있다고 하자
    - 지금까지의 추정방법들은 모수를 고정된 값으로 생각하기 때문에 이러한 사전 정보를 활용하는 것이 불가능하였다
  • 의미
    - 베이지안 Bayesian 방법은 이러한 사전정보를 활용하여 θ\theta 를 추정하게 된다
    - 베이지안 통계는 모수 θ\theta를 확률변수로 생각하여 그에 대한 사전정보를 활용할 수 있다
    - 사건 B1,B2,,BkB _{1},B _{2},\cdots,B _{k} 가 상호배반이며 i=1kBi=C\cup _{i=1} ^{k}B _{i}=\mathcal{C} 일때 사건 AA가 일어났다는 조건하에 사건 BjB _{j} 가 일어날 확률은
    - P(BjA)=P(A,Bj)P(A)=P(A,Bj)i=1kP(Bi)P(ABi)P(B _{j}|A)=\displaystyle\frac{P(A ,B _{j})}{P(A)}=\displaystyle\frac{P(A,B _{j})}{\displaystyle\sum\limits_{i=1}^{k}{P(B _{i})P(A|B _{i})}} 이다
    - 식에서 보듯 AA가 선행되어 BjB _{j} 가 일어날 사건의 확률을 계산하는데에는 반대로 BiB _{i} (i=1,2,ki=1,2,\cdots k)의 사건이 일어나서 AA 가 일어날 사건의 확률들을 활용할 수 있다
    - 이는 B1,B2,B _{1},B _{2}, \cdots 의 무한열에서도 성립한다
    - fYX(yx)=fX,Y(x,y)fX(x)=fX,Y(x,y)fX,Y(x,y)dy=fXY(xy)fY(y)fXY(xy)fY(y)f _{Y|X}(y|x)=\displaystyle\frac{f _{X,Y}(x,y)}{f _{X}(x)}=\displaystyle\frac{f _{X,Y}(x,y)}{\displaystyle\int_{-\infty }^{\infty }{f _{X,Y}(x,y)dy}}=\displaystyle\frac{f _{X|Y}(x|y)f _{Y}(y)}{\displaystyle\int_{-\infty }^{\infty }{f _{X|Y}(x|y)f _{Y}(y)}}
  • 베이즈 추정
    - 조건
    - 랜덤표본 X1,X2,,XnX _{1},X _{2},\cdots,X _{n} 이 있고 그 확률밀도함수가 f(x;θ)f(x;\theta) 이라고 하자
    - θΩ\theta \in \Omega 는 확률변수 ΘΩ\Theta \in \Omega 의 실현값으로 보자.
    - Θ\Theta 의 사전확률밀도함수(표본 xix _{i} 들을 보기전 θ\theta 에 대해 추정한 정보)를 π(θ)\pi(\theta) 라고 표기하자
    - 정리
    - f(x,θ)=π(θ)f(xθ)f(x,\theta)=\pi(\theta)f(x|\theta)
    - f(x1,x2,,xn,θ)=π(θ)i=1nf(xiθ)f(x _{1}, x _{2},\cdots,x _{n},\theta)=\pi(\theta)\displaystyle\prod\limits_{i=1}^{n}{f(x _{i}|\theta)}
    - 의미
    - θ\theta 의 사전확률분포에서 '사전'은 표본을 관측하기 전이란 의미로, 가지고 있는 정보를 활용하여, 추측한 값이다
    - '사후'는 P(AB)P(A|B) 로, 사건 BB가 발생하였을 떄, 그 정보를 활용하여, 사건 AA가 일어날 확률을 다시 추측하는 것이다.
    - 베이즈 추정은 표본을 관측하고 난 뒤 θ\theta 에 대한 정보를 업데이트 하고자 한다
    	- 모수 $\theta$의 사후확률밀도함수
    		- $k(\theta|x _{1},x _{2},\cdots,x _{n})=\displaystyle\frac{\pi(\theta)\displaystyle\prod\limits_{i=1}^{n}{f(x _{i}|\theta)}}{\displaystyle\int_{-\infty }^{\infty }{[\displaystyle\prod\limits_{i=1}^{n}{f(x _{i}|\theta)}]\pi(\theta)}d \theta}=\displaystyle\frac{\text{ 각}x _{i},\pi(\theta) \text{ 에 대한 확률값}}{\text{ 각}x _{i} \text{ 에 대한 확률값}}$
    		- 관측치가 주어졌을 때 모수가 특정값 $\theta$ 일 확률을 계산한 것이다

켤레 사전분포족

  • 정의
    - 확률밀도함수 f(xθ),θΩf(x|\theta), \theta \in \Omega 에 대하여 사후분포가 사전분포와 같은 분포족에 들어가게 하는 사전분포의 모임을 f(xθ)f(x|\theta) 에 대한 켤레사전분포족 conjugate family of prior distribution 이라 부른다

손실함수

  • 조건
    - θ\theta 값과 이에 대한 추정값 u(x1,u(x2),,u(xn))u(x _{1},u(x _{2}),\cdots,u(x _{n})) 이 있다고 하자
  • 정의
    - 손실함수 LL 이 주어졌을 떄 베이즈 추정량은 다음과 같이 정의된다
    - E[L(Θ,u(x1,x2,,xn)x1,x2,,xn)]=L(θ,u(x1,,xn)k(θx1,x2,,xn))dθ\mathbb{E}[L(\Theta,u(x _{1},x _{2},\cdots,x _{n})|x _{1},x _{2},\cdots,x _{n})]=\displaystyle\int_{-\infty }^{\infty }{L(\theta,u(x _{1},\cdots,x _{n})k(\theta|x _{1},x _{2},\cdots,x _{n}))d \theta}
    - E[E(L(Θ,u(X)X=x))]\mathbb{E}[\mathbb{E}(L(\Theta,u(\boldsymbol{X})|\boldsymbol{X}=\boldsymbol{x}))]
    - =L(θ,u(x))f(xθ)dxπ(θ)dθ=\displaystyle\int_{-\infty }^{\infty }{\displaystyle\int_{-\infty }^{\infty }{L(\theta,u(x))f(x|\theta)dx \pi(\theta)d \theta}}
    - =R(θ,u)π(θ)dθ=\displaystyle\int_{-\infty }^{\infty }{R(\theta,u)}\pi(\theta)d \theta 이다
    - 여기서 R(θ,u)=E[L(θ,u(X))θ]\boldsymbol{R}(\theta,u )=\mathbb{E}[L(\theta,u(\boldsymbol{X}))|\theta]는 위험함수 risk function이라고 불리며, XX 에 대한 손실함수의 기댓값이다
    - 베이즈 추정량 u(X)u(\boldsymbol{X}) 는 모든 xx값에서 L(θ,u(x))k(θx)dθ\displaystyle\int_{-\infty }^{\infty }{L(\theta,u(x))k(\theta|x)d \theta} 를 최소화하므로, 기대위험은 최소화한다

* 추정량의 점근적 성질

일치성 consistency

  • 조건
    - 모수의 함수 g(θ)g(\theta)의 추정량 Tn(θ)=T(X1,X2,,Xn)T _{n}(\theta)=T(X _{1},X _{2},\cdots,X _{n}) 이 임의의 ϵ>0\epsilon>0 에 대하여 - $\lim\limits_{\displaystyle{n \to \infty }}{P(|T _{n}(X)-g(\theta|\le \epsilon)}=1 을 만족시킨다고 하자
  • 정의
    - 추정량 Tn(X)T _{n}(X) 는 일치성consistency이 있다
  • 의미
    - 표본이 커짐에 따라 Tn(X)T _{n}(X)g(θ)g(\theta)에 확률적으로 수렴한다는 것으로, 표본의 크기가 매우 클 때, 추정량 Tn(X)T _{n}(X) 로 부터 계산된 추정값은 높은 확률로 참 모수에 매우 가까이 있단 의미이다
  • 정리
    1. limnE[Tn(X)g(θ)2]=0\lim\limits_{\displaystyle{n \to \infty }}{\mathbb{E}[T _{n}(X)-g(\theta) ^{2}]}=0 이면 Tn(X)T _{n}(X)는 일치성이 있다
    2. TnT _{n} 이 모수 θ\theta의 일치추정량이라고 하자. 만일 g(x)g(x)θ\theta 에서 연속인 함수라면 g(Tn)g(T _{n})g(θ)g(\theta)의 일치추정량이다
    3. TnT _{n}θ1\theta _{1}의 일치추정량, SnS _{n}θ2\theta _{2} 의 일치추정량이라고 하자. 그러면 cncc _{n}\to c 이고, dndd _{n} \to d 인 실수열에 대하여, cnTn+dnSncθ1+dθ2c _{n}T _{n}+d _{n}S _{n}\to c \theta _{1}+d \theta _{2} 이고, Tn/Snθ1/θ2T _{n}/S _{n}\to \theta _{1}/\theta _{2} , θ20\theta _{2} \neq 0, TnSnθ1θ2T _{n}S _{n} \to \theta _{1}\theta _{2} 이다
profile
안녕하세요!

0개의 댓글