연속형 확률분포 요약노트

ese2o·2024년 5월 18일
0

포아송 분포

단위시간 내의 성공확률

pmf

pX(x)=λxeλx!,x=0,1,2,p_X(x)=\frac{\lambda^x e^{-\lambda}}{x!}, x=0,1,2, \ldots

mgf

M(t)=eλ(et1)M(t) = e^{\lambda\left(e^t-1\right)}

평균과 분산

μ=σ2=λ\mu = \sigma^2 = \lambda

지수 분포

다음 (성공)사건이 발생할때까지의 대기시간
시간 단위이기 때문에 1보다 큼

정규분포

표준정규분포

pdf

fZ(z)=ϕ(z)=12πexp(12z2),<z<f_Z(z)=\phi(z)=\frac{1}{\sqrt{2 \pi}} \exp \left(-\frac{1}{2} z^2\right),-\infty<z<\infty

mgf

M(t)=exp(12t2)M(t) = \exp \left(\frac{1}{2} t^2\right)
M(t)=texp(12t2)M(t)=exp(12t2)+t2exp(12t2)\begin{aligned} M^{\prime}(t) & =t \exp \left(\frac{1}{2} t^2\right) \\ M^{\prime \prime}(t) & =\exp \left(\frac{1}{2} t^2\right)+t^2 \exp \left(\frac{1}{2} t^2\right) \end{aligned}

표준정규분포를 따르는 Z의 평균과 분산은 각각 0, 1.

cdf

Φ(z)=z12πexp(12w2)dw\Phi(z)=\int_{-\infty}^z \frac{1}{\sqrt{2 \pi}} \exp \left(-\frac{1}{2} w^2\right) d w

특징

Φ(z)=1Φ(z)\Phi(-z)=1-\Phi(z)

여기에서 선형변환 (X=μ+σZX=\mu+\sigma Z) 을 하면 정규분포를 만들 수 있다.

정규분포

pdf

12πσ2exp{12σ2(xμ)2},<x<\frac{1}{\sqrt{2 \pi \sigma^2}} \exp \left\{-\frac{1}{2 \sigma^2}(x-\mu)^2\right\}, \quad-\infty<x<\infty

mgf

M(t)=exp(μt+12σ2t2)M(t) = \exp \left(\mu t+\frac{1}{2} \sigma^2 t^2\right)

cdf

FX(x)=P(Xx)=P(Zxμσ)=Φ(xμσ)=xfX(x)dx.F_X(x) = P(X \leq x)=P\left(Z \leq \frac{x-\mu}{\sigma}\right) ={\Phi}\left(\frac{x-\mu}{\sigma}\right)=\int_{-\infty}^x f_X(x) d x .

"독립적인" 정규분포의 합

Y=i=1naiXiY=\sum_{i=1}^n a_i X_i

평균과 분산

YN(i=1naiμi,i=1nai2σi2)Y \sim N\left(\sum_{i=1}^n a_i \mu_i, \sum_{i=1}^n a_i^2 \sigma_i^2\right)

mgf

M(t)=exp{(i=1naiμi)t+12(i=1nai2σi2)t2}M(t) = \exp \left\{\left(\sum_{i=1}^n a_i \mu_i\right) t+\frac{1}{2}\left(\sum_{i=1}^n a_i^2 \sigma_i^2\right) t^2\right\}

다변량 정규분포

ZNn(0,In)\mathbf{Z} \sim N_n\left(\mathbf{0}, \mathbf{I}_n\right)

Z=(Z1,Z2,,Zn)\mathbf{Z}=\left(Z_1, Z_2, \cdots, Z_n\right)^{\prime}

각 Zi는 표준정규분포를 따르는 iid한 확률변수이고 Z는 수직 벡터이다.

pdf

fZ(z)=(12π)n/2exp{12zz}f_{\mathbf{Z}}(\mathbf{z}) = \left(\frac{1}{2 \pi}\right)^{n / 2} \exp \left\{-\frac{1}{2} \mathbf{z}^{\prime} \mathbf{z}\right\}

평균과 분산

E[Z]=0,Cov[Z]=InE[\mathbf{Z}]=\mathbf{0}, \quad \operatorname{Cov}[\mathbf{Z}]=\mathbf{I}_n

분산이 공분산 행렬이다.

mgf

MZ(t)=exp{12tt}M_{\mathbf{Z}}(\mathbf{t}) =\exp \left\{\frac{1}{2} \mathbf{t}^{\prime} \mathbf{t}\right\}

XNn(μ,Σ)\mathbf{X} \sim N_n(\boldsymbol{\mu}, \boldsymbol{\Sigma})

더 일반적인 경우를 정의

시그마는 n*n 행렬 - 공분산 행렬임. n은 정규분포를 따르는 변수의 개수, 대각성분에는 각 변수의 분산(σi2\sigma^2_i), 나머지 성분에는 각 변수별 공분산이 들어감. 만약 모든 변수가 표준정규분포를 따르는 independent한 확률변수라면, 분산(대각성분)이 모두 1이고 나머지 성분은 0이 됨. 이 행렬을 InI_n이라고 표현하고 이것이 시그마의 특수한 경우임.

Σ\Sigma 가 대칭이며 positive semi-definite(psd)인 n*n 행렬이라고 할 때, 선형대수에 의해 항상 Σ\Sigma를 이렇게 분해할 수 있다.

Σ=ΓΛΓ\boldsymbol{\Sigma}=\boldsymbol{\Gamma}^{\prime} \boldsymbol{\Lambda} \Gamma

확률벡터를 X=Σ1/2Z+μ\mathbf{X}=\boldsymbol{\Sigma}^{1 / 2} \mathbf{Z}+\boldsymbol{\mu}로 정의했을 때,

평균과 분산

E[X]=μ,Cov[X]=Σ1/2Σ1/2=ΣE[\mathbf{X}]=\boldsymbol{\mu}, \quad \operatorname{Cov}[\mathbf{X}]=\boldsymbol{\Sigma}^{1 / 2} \boldsymbol{\Sigma}^{1 / 2}=\boldsymbol{\Sigma}

mgf

MX(t)=exp{tμ}exp{(1/2)tΣt}M_{\mathbf{X}}(\mathbf{t}) = \exp \left\{\mathbf{t}^{\prime} \boldsymbol{\mu}\right\} \exp \left\{(1 / 2) \mathbf{t}^{\prime} \boldsymbol{\Sigma} \mathbf{t}\right\}

mgf가 위와 같이 계산되면 n차원 확률벡터 X가 다변량 정규분포를 따른다고 한다.

다변량 정규확률벡터의 선형변환

XNn(μ,Σ)X \sim N_n(\boldsymbol{\mu}, \boldsymbol{\Sigma})이고 Y=AX+b\mathbf{Y}=\mathbf{A} \mathbf{X}+\mathbf{b}, A는 m*n 행렬이다.
이때 Y는 Nm(Aμ+b,AΣA)N_m\left(\mathbf{A} \boldsymbol{\mu}+\mathbf{b}, \mathbf{A} \boldsymbol{\Sigma} \mathbf{A}^{\prime}\right) 분포를 따른다.

평균과 분산

YNm(Aμ+b,AΣA)Y \sim N_m\left(\mathbf{A} \boldsymbol{\mu}+\mathbf{b}, \mathbf{A} \boldsymbol{\Sigma} \mathbf{A}^{\prime}\right)

mgf

MY(t)=exp{t(Aμ+b)+12t(AΣA)t}M_{\mathbf{Y}}(\mathbf{t}) = \exp \left\{\mathbf{t}^{\prime}(\mathbf{A} \boldsymbol{\mu}+\mathbf{b})+\frac{1}{2} \mathbf{t}^{\prime}\left(\mathbf{A} \boldsymbol{\Sigma} \mathbf{A}^{\prime}\right) \mathbf{t}\right\}

다변량 확률변수에서의 주변분포

X가 Nn(μ,Σ)N_n(\boldsymbol{\mu}, \boldsymbol{\Sigma})의 분포(n차원)를 따를 때, m차원 X1과 n-m차원 X2로 분할할 수 있다.

X=[X1X2]Nn([μ1μ2],[Σ11Σ12Σ21Σ22]).\mathbf{X}=\left[\begin{array}{l} \mathbf{X}_1 \\ \mathbf{X}_2 \end{array}\right] \sim N_n\left(\left[\begin{array}{l} \boldsymbol{\mu}_1 \\ \boldsymbol{\mu}_2 \end{array}\right],\left[\begin{array}{ll} \boldsymbol{\Sigma}_{11} & \boldsymbol{\Sigma}_{12} \\ \boldsymbol{\Sigma}_{21} & \boldsymbol{\Sigma}_{22} \end{array}\right]\right) .

이때 X1은 Nm(μ1,Σ11)N_m\left(\boldsymbol{\mu}_1, \boldsymbol{\Sigma}_{11}\right)의 분포를 따른다.

이때, X1과 X2는 Σ12=O\boldsymbol{\Sigma}_{12}=\mathbf{O}인 경우에 한하여 독립이다.

여기서 이변량정규분포의 조건부분포를 유도할 수 있다.

조건부분포

평균과 분산

X1X2Nm(μ1+Σ12Σ221(X2μ2),Σ11Σ12Σ221Σ21)\mathbf{X}_1 \mid \mathbf{X}_2 \sim N_m\left(\boldsymbol{\mu}_1+\boldsymbol{\Sigma}_{12} \boldsymbol{\Sigma}_{22}^{-1}\left(\mathbf{X}_2-\boldsymbol{\mu}_2\right), \boldsymbol{\Sigma}_{11}-\boldsymbol{\Sigma}_{12} \boldsymbol{\Sigma}_{22}^{-1} \boldsymbol{\Sigma}_{21}\right)

mgf

MX1x2(t1)=exp(t1(μ1+Σ12Σ221(X2μ2))+12t1(Σ11Σ12Σ221Σ21)t1),M_{\mathbf{X}_1 \mid \mathbf{x}_2}\left(\mathbf{t}_1\right)=\exp \left(\mathbf{t}_1^{\prime}\left(\boldsymbol{\mu}_1+\boldsymbol{\Sigma}_{12} \boldsymbol{\Sigma}_{22}^{-1}\left(\mathbf{X}_2-\boldsymbol{\mu}_2\right)\right)+\frac{1}{2} \mathbf{t}_1^{\prime}\left(\boldsymbol{\Sigma}_{11}-\boldsymbol{\Sigma}_{12} \boldsymbol{\Sigma}_{22}^{-1} \boldsymbol{\Sigma}_{21}\right) \mathbf{t}_1\right),

μ1+Σ12Σ221(X2μ2)\boldsymbol{\mu}_1+\boldsymbol{\Sigma}_{12} \boldsymbol{\Sigma}_{22}^{-1}\left(\mathbf{X}_2-\boldsymbol{\mu}_2\right)가 평균이고 Σ11Σ12Σ221Σ21\boldsymbol{\Sigma}_{11}-\boldsymbol{\Sigma}_{12} \boldsymbol{\Sigma}_{22}^{-1} \boldsymbol{\Sigma}_{21}이 분산인 다변수 정규 확률벡터의 mgf이다. (겹치는 계수 확인)

감마 분포

지수분포의 일반화된 형태
첫번째 사건이 발생하기까지 걸리는 시간이 beta일때, alpha번째 사건이 발생하기까지 걸리는 시간이 X(=r.v.)
즉 어느정도 시간이 흐른 뒤에 그 기준점부터 대기시간을 추정하겠다는 뜻

감마 함수

감마함수란, α>0\alpha>0 일때 아래와 같이 정의되는 특수 함수이다. 파라미터는 α\alpha이다.

Γ(α)=0yα1eydy\Gamma(\alpha)=\int_0^{\infty} y^{\alpha-1} e^{-y} d y
  • If α=1\alpha=1
    Γ(1)=0eydy=1\Gamma(1)=\int_0^{\infty} e^{-y} d y=1
  • If α>1\alpha>1
    Γ(α)=0(α1)yα2eydy=(α1)Γ(α1)=(α1)!\Gamma(\alpha)=\int_0^{\infty}(\alpha-1) y^{\alpha-2} e^{-y} d y=(\alpha-1) \Gamma(\alpha-1) = (\alpha-1)!
  • If α=1/2\alpha=1/2
    Γ(1/2)=π\Gamma(1 / 2)=\sqrt{\pi}

감마 분포

연속확률분포 중 하나로, 두 개의 파라미터, α\alpha, β\beta 를 가진다.
감마함수의 변수변환이라고 이해함

y=x/βy=x/\beta 로 두면 감마 함수가 이렇게 바뀐다

Γ(α)=0(xβ)α1ex/β(1β)dx=01βαxα1ex/βdx\begin{aligned} \Gamma(\alpha) & =\int_0^{\infty}\left(\frac{x}{\beta}\right)^{\alpha-1} e^{-x / \beta}\left(\frac{1}{\beta}\right) d x \\ & =\int_0^{\infty} \frac{1}{\beta^\alpha} x^{\alpha-1} e^{-x / \beta} d x \end{aligned}

이때 양변을 Γ(α)\Gamma(\alpha)로 나눠주면

1=01Γ(α)βαxα1ex/βdx=0fX(x)dx\begin{aligned} 1 & =\int_0^{\infty} \frac{1}{\Gamma(\alpha) \beta^\alpha} x^{\alpha-1} e^{-x / \beta} d x \\ & =\int_0^{\infty} f_X(x) d x \end{aligned}

이때 X를 감마분포(α,β\alpha, \beta)를 따르는 확률변수로 보고, fX(x)dx=1Γ(α)βαxα1ex/βf_X(x) d x = \frac{1}{\Gamma(\alpha) \beta^\alpha} x^{\alpha-1} e^{-x / \beta} 가 pdf이다.
여기서 α\alpha가 shape parameter, β\beta가 scale parameter이다.

mgf

M(t)=(1βt)αM(t) = (1-\beta t)^{-\alpha}
M(t)=(α)(1βt)α1(β)M(t)=(α)(α1)(1βt)α2(β)2\begin{gathered} M^{\prime}(t)=\underline{(-\alpha)(1-\beta t)^{-\alpha-1}(-\beta)} \\ M^{\prime \prime}(t)=(-\alpha)(-\alpha-1)(1-\beta t)^{-\alpha-2}(-\beta)^2 \end{gathered}

평균과 분산

μ=αβ,σ2=αβ2\mu = \alpha\beta, \sigma^2=\alpha\beta^2

특징

감마분포를 따르는 확률변수의 합은 감마분포를 따른다.

XΓ(α,β)cXΓ(α,cβ)Γ(1,β)=dExp(1β)Γ(r2,2)=dχ(r)2\begin{aligned} & X \sim \Gamma(\alpha, \beta) \Rightarrow c X \sim \Gamma(\alpha, c \beta) \\ & \Gamma(1, \beta) \stackrel{d}{=} \operatorname{Exp}\left(\frac{1}{\beta}\right) \\ & \Gamma\left(\frac{r}{2}, 2\right) \stackrel{d}{=} \chi_{(r)}^2 \end{aligned}

k번째 사건이 일어나기까지의 대기시간은 Γ(k,1/λ)\Gamma(k, 1 / \lambda) 분포를 따른다.

베타 분포

t분포

표준정규분포를 따르는 확률변수 Z카이제곱분포를 따르는 확률변수 V (독립)

T=ZV/rT=\frac{Z}{\sqrt{V / r}}

pdf

자유도: r

fT(t)=012πΓ(r/2)2r/2ur/21eu2(1+t2r)urdu=12πrΓ(r/2)2r/20u(r+1)/21eu2(1+t2r)du=12πrΓ(r/2)2r/2Γ(r+12){2(1+t2r)1}(r+1)/2=Γ((r+1)/2)πrΓ(r/2)(1+t2r)(r+1)/2,<t<,\begin{aligned} f_T(t) & =\int_0^{\infty} \frac{1}{\sqrt{2 \pi} \Gamma(r / 2) 2^{r / 2}} u^{r / 2-1} e^{-\frac{u}{2}\left(1+\frac{t^2}{r}\right)} \sqrt{\frac{u}{r}} d u \\ & =\frac{1}{\sqrt{2 \pi r} \Gamma(r / 2) 2^{r / 2}} \int_0^{\infty} u^{(r+1) / 2-1} e^{-\frac{u}{2}\left(1+\frac{t^2}{r}\right)} d u \\ & =\frac{1}{\sqrt{2 \pi r} \Gamma(r / 2) 2^{r / 2}} \Gamma\left(\frac{r+1}{2}\right)\left\{2\left(1+\frac{t^2}{r}\right)^{-1}\right\}^{(r+1) / 2} \\ & =\frac{\Gamma((r+1) / 2)}{\sqrt{\pi r} \Gamma(r / 2)}\left(1+\frac{t^2}{r}\right)^{-(r+1) / 2}, \quad-\infty<t<\infty, \end{aligned}

mgf

E(Tk)=rk/2E(Zk)Γ((rk)/2)2k/2Γ(r/2)E\left(T^k\right) = r^{k / 2} E\left(Z^k\right) \frac{\Gamma((r-k) / 2) 2^{-k / 2}}{\Gamma(r / 2)}

평균과 분산

E(T)=0 and Var(T)=E(T2)=rr2E(T)=0 \text { and } \operatorname{Var}(T)=E\left(T^2\right)=\frac{r}{r-2}
                                                                                             

0개의 댓글