[Theory of Statistics] Sufficiency (충분성)

­woongineer·2024년 3월 25일
0

통계이론1

목록 보기
3/3

Definition

XP0P={Pθ,  θΘ}X\sim P_0 \in \mathcal{P}=\{P_\theta,\; \theta\in\Theta\}

  • T(X):T(X): 통계량
  • XT(X)X|T(X)의 분포가 θ\theta에 의존하지 않으면,     i.e.[XT(X)]θ1=[XT(X)]θ2,  θ1θ2\;\;i.e. [X|T(X)]_{\theta_1}=[X|T(X)]_{\theta_2},\; \forall \theta_1\neq\theta_2이면
    T(X)T(X)θ\theta에 대한 (P\mathcal{P}에 대한) 충분통계량이라 한다. T(X)\Rightarrow T(X)를 안 상태에서의 XXθ\theta에 대한 정보를 갖고 있지 않다. \Rightarrow 원래 XX가 갖고 있던 정보는 T(X)T(X)가 갖고 있음.

Lemma.
T(X):θT(X):\theta에 대한 SS.
T(X)T(X)의 1-1 함수 역시 θ\theta에 대한 SS.


Sufficiency Principle (충분성 원칙)

T(X)T(X)θ\theta의 SS이면, 관측치 XX를 이용한 θ\theta에 대한 추론은 T(X)T(X)를 통해서만 XX에 의존해야 한다.
i.e.,x\quad i.e., xyyT(x)=T(y)T(x)=T(y)를 만족하면 xx를 이용한 θ\theta의 추론과 yy를 이용한 θ\theta의 추론이 동일해야 한다.


Factorization Theorem (분해 정리)

XP0,  θΘ.  X\sim P_0,\;\theta\in\Theta.\; TTθΘ\theta\in\Theta에 대한 SS일 필요충분조건은
Pθ(x)=g(T(x),θ)h(x),    xX,  θΘP_\theta(x)=g(T(x),\theta)\cdot h(x),\;\;\forall x\in\mathcal{X},\; \theta\in\Theta
를 만족하는 음이 아닌 값을 갖는 함수 g(t,θ)g(t,\theta)h(x)h(x)가 존재.

Proof.
XX가 이산형이라고 가정하고 증명해보자.
김우철 수리통계학 참고


Sufficiency와 Decision Theory

Theorem.

XPθ,  θΘ,  T(X)X\sim P_\theta, \; \theta \in \Theta,\; T(X)θ\theta 의 SS.
δ(X,)\delta(X,\cdot) 가 랜덤화된 결정규칙이라면,
R(θ,δ)=R(θ,δ),  θ.i.e.R(\theta,\delta)=R(\theta,\delta^*),\; \forall\theta.\quad\quad i.e. 평가 입장에서 동일.
를 만족하는 SS   T\;T에만 의존하는 결정규칙 δ(T,da)\delta^*(T,da)가 존재한다.

cf) θ\theta에 대한 추론을 할 때, SS만 고려하면 된다. Rao-blackwell theorem과는 다르다.


Proof.
R(θ,δ)=Eθ[L(θ,δ(X,)]=XAL(θ,a)δ(x,da)Pθ(dx),X:Sample space,  A:Action space=TXAL(θ,a)δ(x,da)PXT(dx)PθT(dt)=TAL(θ,a)Xδ(x,da)PXT(dx)PθT(dt)=TAL(θ,a)δ(t,da)PθT(dt)=R(θ,δ)  δ(t,da).\begin{aligned} R(\theta,\delta)&=\mathbb{E}_\theta[L(\theta,\delta(X,\cdot)]\\ &=\int_\mathcal{X}\int_\mathcal{A}L(\theta,a)\delta(x,da)P_\theta(dx),\quad \mathcal{X}: \text{Sample space},\; \mathcal{A}: \text{Action space}\\ &=\int_\mathcal{T}\int_\mathcal{X}\int_\mathcal{A}L(\theta,a)\delta(x,da)P^{X|T}(dx)\cdot P_\theta^T(dt)\\ &=\int_\mathcal{T}\int_\mathcal{A}L(\theta,a)\int_\mathcal{X}\delta(x,da)P^{X|T}(dx)\cdot P_\theta^T(dt)\\ &=\int_\mathcal{T}\int_\mathcal{A}L(\theta,a)\cdot\delta^*(t,da)P_\theta^T(dt)\\ &=R(\theta,\delta^*)\\ \quad\quad\quad\quad \therefore \exist\;\delta^*(t,da). \end{aligned}


Example.
X1,,XniidN(θ,1)X_1,\ldots,X_n\stackrel{\text{iid}}{\sim}N(\theta,1)

  • Xˉ:θ\bar{X}:\theta에 대한 SS.
  • Loss: L(θ,δ)=(θδ)2L(\theta,\delta)=(\theta-\delta)^2
  • 추정량: δ(X1,,Xn)=X1\delta(X_1,\ldots,X_n)=X_1
    SS의 함수이면서 δ\delta와 위험함수가 동일한 랜덤화된 결정규칙을 구하라.

Rao-Blackwell Theorem

Theorem.

XPθP={Pθ,θΘ}X\sim P_\theta \in \mathcal{P}=\{P_\theta, \theta \in \Theta\}
T=T(X):T=T(X): θ\theta의 SS.
u=u(X):u=u(X): θ\theta의 추정량.

Then,
1. ϕ(T)=Eθ[uT]\phi(T)=\mathbb{E}_\theta[u|T]θ\theta에 의존하지 않는 추정량 (TT가 SS가 아니면 추정량으로 사용 불가. 보통 조건부가 θ\theta에 의존하기에.)
2. L(θ,a)L(\theta,a)aa에 대한 convex function이면, Eθ[L(θ,u(X))]Eθ[L(θ,ϕ(T))],  θ.\mathbb{E}_\theta[L(\theta,u(X))]\geq\mathbb{E}_\theta[L(\theta,\phi(T))],\;\forall\theta.
3. Eθ[{η(θ)u(X)}2]Eθ[{η(θ)ϕ(T)}2],  θ.\mathbb{E}_\theta[\{\eta(\theta)-u(X)\}^2]\geq \mathbb{E}_\theta[\{\eta(\theta)-\phi(T)\}^2],\; \forall\theta. (2.의 특별한 경우. loss가 MSE일 때.)


Minimal Sufficiency (최소충분성)

Def. Minimal Sufficiency

XPθ,  θΘX\sim P_\theta,\; \theta \in \Theta
통계량 T(X)T(X)가 다음의 두 조건을 만족하면 θ\theta의 최소충분통계량(Minimal Sufficient Statistic)이라 한다.
a) TTθ\theta의 SS.
b) S(X)S(X)θ\theta의 SS이면, T(X)=g(S(X))T(X)=g(S(X))를 만족하는 함수 gg가 존재.

Likelihood Ratio는 Minimal Sufficient Statistic.

f(x;θ),  θΘ;f(x;\theta),\; \theta \in \Theta;     X\;\;X의 밀도함수.
x,yXx,y \in \mathcal{X}에 대해,
f(x;θ)f(y;θ)=θ\frac{f(x;\theta)}{f(y;\theta)}=\theta 에 관해 상수     \iff T(x)=T(y)T(x)=T(y) 를 만족하면, T(X)T(X)θ\theta의 MSS.
i.e.\quad i.e. Likelihood ratio가 같으면 하나의 TT값을 갖는다. xxyy는 동일한 likelihood function을 갖는다.

Proof.
f(x;θ)>0,    x,θf(x;\theta)>0, \;\; \forall x,\theta 를 가정하자.
a) TTθ\theta의 SS임을 보이자.
\quad- Y=\mathcal{Y}= TT의 공변역 (TT값들의 모임)
\quad- At:={xX:T(x)=t},  tY.A_t:= \{x\in\mathcal{X}:T(x)=t\},\; t \in \mathcal{Y}.
\quad- xt:Atx_t:A_t 의 대표값.
\quad- xT(x):xx_{T(x)}:x 가 포함된 AtA_t의 대표값.
\quad가정에 의해, f(x;θ)f(xT(x);θ):θ\frac{f(x;\theta)}{f(x_{T(x)};\theta)}:\theta 에 의존하지 X.

\quadf(x;θ)=f(x;θ)f(xT(x);θ)f(xT(x);θ)f(x;\theta)=\frac{f(x;\theta)}{f(x_{T(x)};\theta)}\cdot f(x_{T(x)};\theta)

따라서, Factorization theorem에 의해 TTθ\theta의 SS.

b) S(x):θS(x):\theta의 SS라 하자.
\quadS(x)=S(y)    T(x)=T(y)S(x)=S(y)\;\Rightarrow\; T(x)=T(y)를 보이고자.
\quadBy factorization theorem,
\quadf(x;θ)=g(s(x);θ)h(x)f(x;\theta)=g(s(x);\theta)\cdot h(x) 를 만족하는 양의 값을 갖는 g,hg,h 존재.
\quadS(x)=S(y)S(x)=S(y)x,yx,y 에 대해

\quadf(x;θ)f(y;θ)=g(s(x);θ)h(x)g(s(y);θ)h(y)=h(x)h(y);θ\frac{f(x;\theta)}{f(y;\theta)}=\frac{g(s(x);\theta)\cdot h(x)}{g(s(y);\theta)\cdot h(y)}=\frac{h(x)}{h(y)};\quad \theta에 의존 X.

가정에 의해, T(x)=T(y).T(x)=T(y).

Likelihood Principle (가능도 원칙)

Likelihood Principle을 믿으면 likelihood가 같을 때 모든 추정량이 같음. 여기서, Likelihood가 같다는 의미는 상수배만 같아도 됨. θ\theta 에 의존하지만 않으면 됨.

  1. f(x;θ)f(y;θ)=h(x,y)\frac{f(x;\theta)}{f(y;\theta)}=h(x,y) 이라면 xxyy는 같은 likelihood function을 갖는다.
  2. 동일한 likelihood function을 갖는 xx들의 TT값이 하나의 값을 가질 때 TT는 MSS.

Example. 정규모형
X1,,XnN(θ,σ2),  θR,  σ2>0.X_1,\ldots,X_n \sim N(\theta,\sigma^2), \;\theta\in\R,\; \sigma^2>0.
{x=(x1,,xn)y=(y1,,yn)\begin{cases} \mathbf{x} = (x_1, \ldots, x_n) \\ \mathbf{y} = (y_1, \ldots, y_n) \end{cases} (θ,σ2)\quad(\theta,\sigma^2)의 MSS?

Sol)
f(x;θ,σ2)f(y;θ,σ2)=1σn(2π)n/2exp[12σ2{Σ(xixˉ)2+n(xˉθ)2}]1σn(2π)n/2exp[12σ2{Σ(yiyˉ)2+n(yˉθ)2}]:(θ,σ2)\frac{f(\mathbf{x};\theta,\sigma^2)}{f(\mathbf{y};\theta,\sigma^2)}=\frac{\frac{1}{\sigma^n(2\pi)^{n/2}}{exp[-\frac{1}{2\sigma^2}\{\Sigma(x_i-\bar{x})^2+n(\bar{x}-\theta)^2\}]}}{\frac{1}{\sigma^n(2\pi)^{n/2}}{exp[-\frac{1}{2\sigma^2}\{\Sigma(y_i-\bar{y})^2+n(\bar{y}-\theta)^2\}]}}:(\theta,\sigma^2) 가 상수.     xˉ=yˉ,  Σ(xixˉ)2=Σ(yiyˉ)2.\\ \quad\quad\quad \iff \bar{x}=\bar{y},\; \Sigma(x_i-\bar{x})^2=\Sigma(y_i-\bar{y})^2.
따라서, (Xˉ,  Σ(XiXˉ)2);    (θ,σ2)(\bar{X},\; \Sigma(X_i-\bar{X})^2);\;\;(\theta,\sigma^2) 의 MSS.

profile
통린이 대학원생

0개의 댓글