수리통계학- 3.표본분포 및 근사

WooSeongkyun·2023년 3월 22일
0

수리통계학

목록 보기
3/6
flowchart TD
A1["정규분포"] -.->|정의| A2["카이제곱분포"] 
A2["카이제곱분포"] -.->|정의| A3["F분포"] 
A3["F분포"] -.->|정의| A4["t분포"]
A1["정규분포"] -.->|정의| A4["t분포"] 
A1["정규분포"] -->|모분산알음-모평균/모평균차 추정| A1["정규분포"]
A4["t분포"] -->|모분산모름-모평균/모평균차 추정| A1["정규분포"]
A2["카이제곱분포"] -->|모분산추정| A1["정규분포"]
A3["F분포"] -->|모분산비추정| A1["정규분포"]

표본적률

  • 조건
    - 확률밀도함수 f(x;θ)f(x;\theta)로부터 랜덤표본 X1,X2,,XnX _{1},X _{2},\cdots,X _{n}을 얻었다고 하자
  • 정의
    - rr차 표본적률 rrth sample moment
    - mr=1ni=1nXirm _{r}'=\displaystyle\frac{1}{n}\displaystyle\sum\limits_{i=1}^{n}{X _{i} ^{r}}
    - rr차 표본중심적률 rrth central sample moment
    - mr=1ni=1n(XiX)rm _{r}=\displaystyle\frac{1}{n}\displaystyle\sum\limits_{i=1}^{n}{(X _{i}-\overline{X }) ^{r}}
    - X=1ni=1nXi\overline{X}=\displaystyle\frac{1}{n}\displaystyle\sum\limits_{i=1}^{n}{X _{i}} 로 표본평균이다
    - 성질
    - 표본평균의 평균은 모평균이다
    - E[X]=μ\mathbb{E}[\overline{X}]=\mu
    - 표본평균의 분산은 모분산에 샘플크기를 나눈것과 같다
    - Var[X]=σ2nVar[\overline{X}]=\displaystyle\frac{\sigma ^{2}}{n}
    - 증명
    - Var[1ni=1nxi]=(1n)2nσ2Var[\displaystyle\frac{1}{n}\displaystyle\sum\limits_{i=1}^{n}{x _{i}}]=(\displaystyle\frac{1}{n}) ^{2}\cdot n \cdot \sigma ^{2}

카이제곱분포

  • nn 개의 서로 독립적인 표준정규 확률변수들을 제곱한 뒤 합하여 얻을 수 있는 분포. 자유도 kk 를 갖고 있다고 부른다

  • f(x)=12n/2Γ(n/2)xn/21exp[x/2]f(x)=\displaystyle\frac{1}{2 ^{n/2}\Gamma(n/2)}x ^{n/2-1}exp[-x/2]

  • 카이제곱분포의 관련 함수

  • 카이제곱분포의 적률생성함수
    - 조건
    - Xχ2(n)X \sim \chi ^{2}(n)
    - 정리
    - MX(t)=(12t)n/2M _{X}(t)=(1-2t) ^{-n/2}
    - E[X]=n\mathbb{E}[X]=n
    - Var(X)=2nVar(X)=2n

  • 정리
    1. 확률변수 ZN(0,1)Z \sim \mathcal{N}(0,1) 이면 Y=Z2Y=Z ^{2}Yχ2(1)Y \sim \chi ^{2}(1) 이다
    2. 서로 독립인 확률변수 Xi(i=1,2,,k)X _{i}(i=1,2,\cdots,k) 들이 각각 자유도가 kik _{i} 인 카이제곱분포를 따르면 그들의 합 Y=i=1kXiY=\displaystyle\sum\limits_{i=1}^{k}{X _{i}}는 자유도가 i=1kki\displaystyle\sum\limits_{i=1}^{k}{k _{i}} 인 카이제곱분포를 따른다
    - 증명은 확률변수 합의 적률생성함수는 각 확률변수에 대한 적률생성함수의 곱과 같음으로 유도됨
    3. 서로 독립인 확률변수 Xi(i=1,2,,k)X _{i}(i=1,2,\cdots,k) 이 각각 정규분포 N(μi,σi2)\mathcal{N}(\mu _{i},\sigma _{i} ^{2})를 따른다고 하면,V=i=1k(xiμiσi)2V=\displaystyle\sum\limits_{i=1}^{k}{(\displaystyle\frac{x _{i}-\mu _{i}}{\sigma _{i}}) ^{2}} 는 자유도가 kk 인 카이제곱분포를 따른다
    - 1,2 증명의 합에 불과함

  • 증명
    - 감마분포와 카이제곱분포의 적률생성함수 증명
    - 감마분포는 Γ(x;α,β)=1Γ(α)βαxα1ex/β\Gamma(x;\alpha,\beta)=\displaystyle\frac{1}{\Gamma(\alpha)\beta^{\alpha}} x ^{\alpha-1} e ^{- x/\beta} 이다. 카이제곱 분포는 1Γ(n/2)(12)n/2xn/21ex/2\displaystyle\frac{1}{\Gamma(n/2)}\displaystyle(\frac{1}{2}) ^{n/2}x ^{n/2-1} e^{-x/2} 이므로 α=n/2\alpha=n/2 , β=2\beta=2 인 감마분포의 일종으로 볼 수 있다
    - M(t)=E[etxΓ(x;α,β)]=01Γ(α)βαxα1ex/βetxdxM(t)=\mathbb{E}[e^{tx} \Gamma(x;\alpha,\beta)]=\displaystyle\int_{0}^{\infty }{\displaystyle\frac{1}{\Gamma(\alpha)\beta ^{\alpha}}x ^{\alpha-1}e^{-x/\beta}e^{tx}dx}
    - y=x(1βt)/βy=x \cdot (1-\beta t)/\beta 이라고 하자.
    - 01Γ(α)βα(β1βt)α1eyyα1(β1βt)\displaystyle\int_{0}^{\infty }{\displaystyle\frac{1}{\Gamma(\alpha)\beta ^{\alpha}}}(\displaystyle\frac{\beta}{1-\beta t }) ^{\alpha-1}e^{-y}y ^{\alpha-1}(\displaystyle\frac{\beta}{1-\beta t})
    - =(11βt)α1Γ(α)0eyyα1dy=(11βt)α=(\displaystyle\frac{1}{1-\beta t }) ^{\alpha}\displaystyle\frac{1}{\Gamma(\alpha)}\displaystyle\int_{0}^{\infty }{e^{-y}y ^{\alpha-1}}dy=(\displaystyle\frac{1}{1-\beta t }) ^{\alpha}

  • 그러므로 카이제곱분포의 적률생성함수는 M(t)=(112t)n/2M(t)=(\displaystyle\frac{1}{1-2t}) ^{n/2} 이다

  1. M[Z2]=12πexp(tz2)exp(z2/2)dz\mathbb{M}[Z ^{2}]=\displaystyle\int_{-\infty }^{\infty }{\displaystyle\frac{1}{\sqrt{2 \pi}}}exp(tz ^{2})exp(-z ^{2}/2)dz
    • I=exp((1/2t)z2)dzI= \displaystyle\int_{-\infty }^{\infty }{exp(-(1/2-t)z ^{2})dz} 라고 하자
    • I ^{2}=\displaystyle\int_{-\infty }^{\infty }{exp(-(1/2-t)z ^{2})dz} \cdot \displaystyle\int_{-\infty }^{\infty }{exp(-(1/2-t)z' ^{2})}dz'
    • r ^{2}=z ^{2}+z' ^{2} 라고 두면
    • I2=02π0exp((1/2t)2r2)rdrdθI ^{2}=\displaystyle\int_{0}^{2\pi}{\displaystyle\int_{0}^{\infty }{exp(-(1/2-t) ^{2}r ^{2})}rdrd \theta}
      - y=1/2try=\sqrt{1/2-t}\cdot r
      - I2=02π0exp(y2)(y(1/2t))(11/2t)dydθI ^{2}=\displaystyle\int_{0}^{2\pi}{\displaystyle\int_{0}^{\infty }{exp(-y ^{2})(\displaystyle\frac{y}{\sqrt{(1/2-t)}})(\displaystyle\frac{1}{\sqrt{1/2-t}})dyd \theta}}
      - =π1/2t=2π12t=\displaystyle\frac{\pi}{1/2-t}=\displaystyle\frac{2 \pi}{1-2t}
      - I=2π12tI=\sqrt{\displaystyle\frac{2 \pi}{1-2t}}
      - M[Z2]=(12t)1/2M[\mathbb{Z} ^{2}]=(1-2t) ^{-1/2}
      • M[i=1nχ2(ki)]=i=1nM[χ2(ki)]=i=1n(12t)ki/2=(12t)i=1nki/2\mathbb{M}[\displaystyle\sum\limits_{i=1}^{n}{\chi ^{2}(k _{i})}]=\displaystyle\prod\limits_{i=1}^{n}{\mathbb{M}[\chi ^{2}(k _{i})]}=\displaystyle\prod\limits_{i=1}^{n}{(1-2t) ^{-k _{i}/2}}=(1-2t) ^{\displaystyle\sum\limits_{i=1}^{n}{-k _{i}/2}}
      • =M[χ2(i=1nki)]=\mathbb{M}[\chi ^{2}(\displaystyle\sum\limits_{i=1}^{n}{k _{i}})]

F 분포

  • 정규분포로부터 구한 독립인 두 표본의 분산비에 대한 분포를 설명하는데 중요한 역할을 한다
  • 조건
    - 서로 독립인 카이제곱 확률변수 U,VU,V 가 있고 이들의 자유도가 각각 n,mn,m 이라고 하자
  • 정의
    - X=U/nV/mX=\displaystyle\frac{U/n}{V/m} 이라 하자. 이를 자유도가 (n,m)(n,m)FF를 따른다고 정의하자
  • 정리
    - f(x)=Γ(n+m2)Γ(n2)Γ(m2)(nm)n/2x(n2)/2(1+nx/m)(n+m)/2f(x)=\displaystyle\frac{\Gamma(\displaystyle\frac{n+m}{2})}{\Gamma(\displaystyle\frac{n}{2})\Gamma(\displaystyle\frac{m}{2})}(\displaystyle\frac{n}{m}) ^{n/2}\displaystyle\frac{x ^{(n-2)/2}}{(1+nx/m) ^{(n+m)/2}} (x>0)(x>0)

t 분포

  • 조건
    - ZN(0,1)Z \sim N(0,1) 인 표준정규분포를 따르는 확률변수고, Uχ2(k)U \sim \chi ^{2}(k) 인 자유도 ν\nu인 카이제곱분포를 따른다고 하자
  • 정의
    - t=ZU/kt=\displaystyle\frac{Z}{\sqrt{U/k}}tt 분포라고 정의한다
  • 정리
    - f(z,u)=12π1Γ(k/2)(12)k/2u(k/2)1exp[u/2]exp[z2/2]f(z,u)=\displaystyle\frac{1}{\sqrt{2 \pi}}\displaystyle\frac{1}{\Gamma(k/2)}(\displaystyle\frac{1}{2}) ^{k/2}u ^{(k/2)-1}exp[-u/2]exp[-z ^{2}/2]
    - f(x,y)f(x,y)
  • tt 분포의 용도
    - 모집단이 정규분포라고 가정하였을 때, 모분산 σ2\sigma ^{2}가 알려져 있지 않고, 표본의 수가 적을때(n<30n<30) 신뢰구간의 추정 및 가설검정에 활용된다
    - 통계학자들이 시물레이션 연구를 한 결과, 모집단이 정규분포가 아니더라도 모집단의 왜도가 심각하지 않은 종형 분포이고, 표본 크기가 매우 작지 않다면 표본분석시 tt 분포를 사용해도 적절하다고 밝혔다

정규분포로부터의 표본 추출

  • 일변수 정규분포 Gaussian distribution
    - f(x)=12πσexp[12(xμσ)2]f(x)=\displaystyle\frac{1}{\sqrt{2\pi}\sigma}exp[-\displaystyle\frac{1}{2}(\displaystyle\frac{x-\mu}{\sigma})^2]
  • 정리
    1. 서로 독립인 확률변수 XiX _{i} (i=1,2,,ni=1,2,\cdots,n) 들이 정규분포 N(μi,σi2)\mathcal{N}(\mu _{i},\sigma _{i} ^{2}) 를 따르면, 그들의 합 i=1nXi\displaystyle\sum\limits_{i=1}^{n}{X _{i}} 는 정규분포 N(i=1nμi,i=1nσi2)\mathcal{N}(\displaystyle\sum\limits_{i=1}^{n}{\mu _{i}},\displaystyle\sum\limits_{i=1}^{n}{\sigma _{i} ^{2}}) 를 따른다
  1. X1,X2,,XnX _{1},X _{2},\cdots,X _{n}N(μ,σ2)\mathcal{N}(\mu,\sigma ^{2}) 로부터 추출한 랜덤표본이라고 하자
    - X\overline{X}S2=1n1i=1n(XiX)2S ^{2}=\displaystyle\frac{1}{n-1}\displaystyle\sum\limits_{i=1}^{n}{(X _{i}-\overline{X}) ^{2}} 는 서로 독립이다
    - (n1)S2/σ2(n-1)S ^{2}/\sigma ^{2} 는 자유도가 n1n-1 인 카이제곱분포를 따른다
  2. 평균이 μX\mu _{X} 이고 분산이 σX2\sigma _{X} ^{2} 인 정규분포로부터 크기가 nn 인 랜덤표본 X1,X2,,XnX _{1},X _{2},\cdots,X _{n}이 있고,평균이 μY\mu _{Y} 이고 분산이 σY2\sigma _{Y} ^{2} 인 정규분포로부터 크기가 mm 인 랜덤표본 Y1,Y2,,YmY _{1},Y _{2},\cdots,Y _{m}이 있다 하자
    - F=SX2/σX2SY2/σY2F=\displaystyle\frac{S _{X} ^{2}/\sigma _{X} ^{2}}{S _{Y} ^{2}/\sigma _{Y} ^{2}} 는 자유도가 (n1,m1)(n-1,m-1)FF 분포를 따른다
  3. 평균이 μ\mu 이고 분산이 σ2\sigma ^{2} 인 정규분포로부터 랜덤표본 X1,X2,,XnX _{1},X _{2},\cdots, X _{n} 을 추출하였다고 하자
    - T=n(Xμ)1n1i=1n(XiX)2T=\displaystyle\frac{\sqrt{n}(\overline{X}-\mu)}{\sqrt{\displaystyle\frac{1}{n-1}\displaystyle\sum\limits_{i=1}^{n}{(X _{i}-\overline{X}) ^{2}}}} 는 자유도가 t1t-1tt 분포를 따른다
  • 증명
    1.
    - XiX _{i} 에 대한 적률함수를 MXiM _{Xi} 라고 하자 그렇다면 MiXi(t)=iMXi(t)M _{\sum_{i}^{}{Xi}}(t)=\displaystyle\prod\limits_{i}^{}{M _{Xi}}(t)
    - =i=1nexp[μit+σi2t2/2]=\displaystyle\prod\limits_{i=1}^{n}{exp[\mu _{i}t+\sigma _{i} ^{2}t ^{2}/2]}
    - =exp[t(i=1nμi+t2/2(i=1nσi2))]=exp[t(\displaystyle\sum\limits_{i=1}^{n}{\mu _{i}}+t ^{2}/2 (\displaystyle\sum\limits_{i=1}^{n}{\sigma _{i}} ^{2}))]
    	2. 우선 다음과 같은 세 사실이 참이라고 가정하자
    		1. 두 확률변수 $X,Y$ 가 서로 독립일 필요충분조건은 두 변수의 결합 적률생성함수가 각각의 적률 생성함수 곱과 같다는 것이다
    			- $M _{X,Y}(t _{1},t _{2})=M _{X}(t _{1})M _{Y}(t _{2})$
    	2. 서로 독립인 변수 $X _{i}$  가 있고 이에 대한 적률생성함수 $M _{X _{i}}$ 가 있을 때 $\mathbb{M}[\displaystyle\sum\limits_{i=1}^{n}{X _{i}}]=\displaystyle\prod\limits_{i=1}^{n}{\mathbb{M}[ {X _{i}}]}$ 이다
    	3. $\overline{X} _{n}$ 과 $S _{n}=\displaystyle\sum\limits_{i=1}^{n}{\displaystyle\frac{(X _{i}-\overline{X}_{n})}{n-1}}$ 는 서로 독립이다
    		- 그 다음 $(n-1)S _{n} ^{2}/\sigma  ^{2}=\displaystyle\frac{n-1}{\sigma  ^{2}}\displaystyle\sum\limits_{i=1}^{n}{\displaystyle\frac{(X _{i}-\overline{X}_{n})}{n-1}}=\displaystyle\sum\limits_{i=1}^{n}{\displaystyle\frac{(X _{i}-\overline{X}_{n})}{\sigma  ^{2}}}$ 
    		- $\displaystyle\sum\limits_{i=1}^{n}{\displaystyle\frac{(x _{i}-\mu ) ^{2}}{\sigma  ^{2}}}=\displaystyle\sum\limits_{i=1}^{n}{\displaystyle\frac{((x _{i}-\overline{x }_{n})+(\overline{x }_{n}-\mu )) ^{2}}{\sigma  ^{2}}}$ ($\displaystyle\sum\limits_{i=1}^{n}{(x _{i}-\overline{x}_{n})}$ 이 곱해진 교차항은 0이 된다)
    		- $\displaystyle\sum\limits_{i=1}^{n}{\displaystyle\frac{(x _{i}-\mu) ^{2}}{\sigma  ^{2}}}=(n-1)\displaystyle\frac{S _{n} ^{2}}{\sigma  ^{2}}+{\displaystyle\frac{(\overline{X}_{n}-\mu) ^{2}}{\sigma  ^{2}/n}}$
    		- 오른쪽 두 항은 서로 독립이므로 
    		- $\mathbb{M}[\chi  ^{2}(n)]=\mathbb{M}[(n-1)\displaystyle\frac{S _{n} ^{2}}{\sigma  ^{2}}]\cdot \mathbb{M}[\chi  ^{2}(1)]$
    		- $\mathbb{M}[(n-1)\displaystyle\frac{S _{n} ^{2}}{\sigma  ^{2}}]=\displaystyle\frac{\mathbb{M}[\chi  ^{2}(n)]}{\mathbb{M}[\chi  ^{2}(1)]}=(\displaystyle\frac{(1-2t) ^{-n/2}}{(1-2t) ^{-1/2}})=(1-2t) ^{-(n-1)/2}=\mathbb{M}[\chi  ^{2}(n-1)]$  
    	3. 분자는 $\displaystyle\frac{1}{n-1}\chi  ^{2}(n-1)$ 를 분모는 $\displaystyle\frac{1}{m-1}\chi  ^{2}(m-1)$ 의 분포를 따른다. 따라서 $F$ 확률 분포의 정의에 따라 $F(n-1,m-1)$ 의 분포를 따를것이다.
    	4. 위 아래에 $\displaystyle\frac{1/\sigma}{\sqrt{1/\sigma ^{2}}}$ 를 곱하면, 분자는 표준정규분포 $\mathcal{N}(0,1)$ , 분모는 $\chi  ^{2}(n-1)$ 의 분포를 따른다. 따라서 $T \sim t(n-1)$ 의 분포를 따르게 된다. 분자 $\sqrt{n}(\overline{X}_{n}-\mu)/\sigma$  와 분모 $\displaystyle\sum\limits_{i=1}^{n}{(\overline{X}_{i}-\overline{X}_{n}) ^{2}/\sigma  ^{2}}$ 는 서로 독립이므로 따라서 이 비는 $t$ 분포의 정의에 따라 $t(n-1)$ 의 분포를 따를 것이다.

통계학의 주요 정리

중심극한정리 Central Limit Theorem

  • 표본의 크기 NN이 커지면 커질수록, 표본 평균의 분포는 모집단의 분포모양에 관계없이 정규분포에 가까워진다는 정리이다
  • 이때 표본 평균의 기댓값은 모평균과 같고, 표본평균의 표준편차는 모표준편차에서 표본크기 NN의 제곱근으로 나눈값과 같다
  • 조건
    - 독립항등분포i.i.di.i.d를 따르는 확률변수 X1,X2,...,XnX_1,X_2,...,X_n이 있다하자
    - (독립항등분포 independent and identically distributed: 확률변수 X1,X2,...,XnX_1,X_2,...,X_n 들이 모두 서로 상호독립적이며, 동일한 확률분포에서 추출되었을 것이라는 가정 )
    - 각각의 변수들은 평균과 표준편차가 각각 μ,σ\mu,\sigma인 모수 분포로부터 추출되었다고 하자
  • 정리
    - Z=limnXnˉμσXˉZ=\lim_{n\to \infty}{\displaystyle\frac{\bar{X_n}-\mu}{\sigma_{\bar{X}}}}( Xˉn=1ni=1nXi\bar{X} _{n}=\displaystyle\frac{1}{n}\displaystyle\sum_{i=1}^{n}{X_i} ,σXˉ=σn\sigma_{\bar{X}}=\displaystyle\frac{\sigma}{\sqrt{n}} )은 표준정규분포를 향해간다
    - 표본평균의 표준편차 σXˉ\sigma_{\bar{X}} 는 표준오차 SESE 라고도 불린다

큰수의 법칙 Law of Large Numbers

  • 표본의 크기 NN이 커질수록 표본 평균의 값이 모평균에 가까워질 가능성이 높다는 정리이다
  • 조건
    - 확률변수의 열 X1,X2,,XnX _{1},X _{2},\cdots,X _{n} 이랑 확률변수 XX 이 같은 확률공간에서 정의된다고 하자
  • 정리
    - limnP(Xˉnμ<ϵ)=1\lim{n\to \infty}\,\,P(|\bar{X}_{n}-\mu|< \epsilon)=1
  • 해석
    - 표본의 크기가 커짐에 따라 표본평균이 모평균으로 확률적으로 수리함을 의미한다
profile
안녕하세요!

0개의 댓글