Normal Distribution

‍이세현·2025년 4월 14일
0

Normal Distribution

정규분포는 이항분포의 극한분포로, 중심극한정리를 유도하면서 발견되었다.
중심극한정리: nn개의 서로 독립인 관측오차는 nn이 크면 클수록 오차의 평균은 0이고 어떤 표준편차를 갖는 정규분포를 따른다.

  • 정규분포가 다양한 분야에서 폭넓게 사용되는 이유
    1. 모집단으로부터 추출된 표본이 정규분포를 따를 때 표본의 수학적 성질과 표본으로 계산되는 함수들이 간결하고 편리하다.
    2. 다양한 물리적 현상을 관찰하는 실험으로부터 얻어지는 데이터가 실제로 정규분포를 따르는 경우가 많다.
    3. 중심극한정리에 의해 직접 정규분포를 따르거나, 간단한 변환을 통해 쉽게 정규분포를 따르는 경우가 많다. 이러한 이유로 수많은 통계적 추론의 기반이 된다.

Normal Distribution의 기본적 성질

확률변수 XX가 다음의 확률밀도함수를 가질 때, 평균이 μ\mu, 분산이 σ2\sigma^2인 정규분포를 따른다고 한다. (XN(μ,σ2))\Big(X\sim N(\mu,\sigma^2)\Big) 정규분포의 모수는 기댓값, 분산과 동일하다.

f(xμ,σ2)=12πσexp((xμ)22σ2),if <x<f(x|\mu,\sigma^2)=\frac{1}{\sqrt{2\pi}\cdot\sigma}\exp\Big(-\frac{(x-\mu)^2}{2\sigma^2}\Big), \quad \text{if }-\infin<x<\infin
  • 정규분포의 PDF는 중심이 μ\mu이고 좌우대칭인 종 모양의 형태를 가진다.
    • 평균과 중앙값이 동일하다.
  • σ2\sigma^2는 분포의 넓고 좁은 정도(산포)를 결정하는 모수로, 분산이 크면 위아래가 짧고 좌우로 넓게 퍼진 형태이다. 분산이 작으면 위아래가 높고 좌우로 좁은 뾰족한 형태이다.
  • 정규분포의 PDF를 존재구간(<x<)(-\infin<x<\infin)에 대해 적분하면 그 넓이는 1이다.
  • 정규분포의 CDF는 닫힌 형태로 얻어지지 않는다. 따라서, 정규분포를 이용한 확률계산을 할 때는 표준정규분포로 변환하여 표준화시킨 후에 확률분포표를 이용해서 구해야 한다.
  • 확률변수 Z=(Xμ)/σZ=(X-\mu)/\sigma라고 한다면 E[Z]=0,Var[Z]=1E[Z]=0, Var[Z]=1이 성립한다. 이 ZZ를 표준정규분포라고 하며 다음과 같이 나타낼 수 있다.
    ZN(0,1)Z\sim N(0,1)
    {PDFϕ(z)=f(x0,1)=12πexp(z22)CDFΦ(z)=F(z)=zf(t)dt\begin{cases}\text{PDF} & \phi(z)=f(x|0,1)=\frac{1}{\sqrt{2\pi}}\exp(-\frac{z^2}{2})\\ \text{CDF} & \Phi(z)=F(z)=\int_{-\infin}^zf(t)dt\end{cases}
  • 정규분포의 적률생성함수(MGF)는 다음과 같다.
    MX(t)=exp(μt+σ2t22)M_X(t)=\exp(\mu t+\frac{\sigma^2t^2}{2})
  • 정규분포의 누적분포함수는 다음과 같다.
    P(aXb)=P(aμσZbμσ)=F(b)F(a)P(a\le X\le b)=P(\frac{a-\mu}{\sigma}\le Z \le \frac{b-\mu}{\sigma})=F(b)-F(a)

정규확률변수의 선형결합

  • 만약 XN(μ,σ2)X\sim N(\mu, \sigma^2)이고 aabb가 연속적이면 Y=aX+bN(aμ+b,a2σ2)Y=aX+b\sim N(a\mu+b, a^2\sigma^2)
    • XX가 정규분포를 따른다면 선형함수 YY 역시 정규분포를 따른다.
  • 만약 X1N(μ1,σ12)X_1\sim N(\mu_1,\sigma_1^2)X2N(μ2,σ22)X_2\sim N(\mu_2,\sigma_2^2)의 확률변수들이 서로 독립이면 Y=X1+X2N(μ1+μ2,σ12+σ22)Y=X_1+X_2\sim N(\mu_1+\mu_2,\sigma_1^2+\sigma_2^2)
  • 만약 XiN(μ,σ2),1inX_i\sim N(\mu,\sigma^2), 1\le i\le n의 확률변수들이 서로 독립이면 이들의 표본 평균 Xˉ=Xi/n\bar{X}=\sum X_i/nXˉN(μ,σ2n)\bar{X}\sim N(\mu, \frac{\sigma^2}{n})와 같은 분포를 따른다.
    nn이 무한대에 가까워질수록 분산은 0에 수렴하여 모평균에 수렴한다. 다시 말해 실제 값과 거의 차이가 없어진다.
    • 정규분포를 따르는 확률변수들의 합은 역시 정규분포를 따른다.

정규분포를 활용한 분포의 근사화

중심극한정리

상호 독립이며 동일한 분포를 따르는 확률변수 X1,X2,,XnX_1, X_2, \dots,X_n의 평균이 μ\mu, 분산이 σ2\sigma^2일 때 nn개의 표본으로부터 얻어진 평균의 분포는 평균 μ\mu, 분산 σ2n\frac{\sigma^2}{n}인 정규분포를 따른다.

Xˉ=1n(X1+X2++Xn)\bar{X}=\frac{1}{n}(X_1+X_2+\dots+X_n)
Zn=Xˉμσ/nN(0,1)as nZ_n=\frac{\bar{X}-\mu}{\sigma/\sqrt{n}}\sim N(0,1) \qquad\text{as } n\rightarrow\infin
  • 중심극한정리는 확률변수들의 평균에 대한 확률값을 추정하는데 편리한 방법을 제공한다.
  • 한 표본의 평균은 각각의 측정치의 실제 분포를 대신해서 정규분포를 따른다고 가정한다.
  • nn개의 표본이 추출되는 데이터의 분포가 정규분포가 아닌 다른 임의의 분포로 가정하여도 그 표본평균의 분포는 정규분포를 따른다. 즉, nn이 충분이 크다면 표본평균의 분포는 표본이 추출된 분포에 상관 없이(iid를 따르기만 한다면) 근사적으로 정규분포를 따른다.

이항분포의 정규근사

이항분포의 모수 nn이 매우 클 때는 이항분포의 누적분포함수를 계산하는 것이 거의 불가능하다. 하지만, 중심극한정리를 활용하면 이항분포의 정규근사를 통해 해결할 수 있다.

  • 이항분포를 따르는 확률변수는 베르누이 확률변수의 합으로 표현할 수 있다. X1,X2,,XnX_1,X_2,\dots,X_n을 평균 μ=p\mu=p, 분산 σ2=p(1p)\sigma^2=p(1-p)인 베르누이 분포로부터 뽑은 확률표본이라고 할 때, 이 확률변수들의 합 YB(np,np(1p))Y\sim B(np,np(1-p))이 된다. 이를 표준화하였을 때 nn\rightarrow\infin이 되면 N(0,1)N(0,1)로 수렴한다.
    Z=Ynpnp(1p)=Xˉpp(1p)/nN(0,1)Z=\frac{Y-np}{\sqrt{np(1-p)}}=\frac{\bar{X}-p}{\sqrt{p(1-p)/n}}\rightarrow N(0,1)
  • 이항분포 B(n,p)B(n,p)를 동일한 기댓값과 분산을 갖는 정규분포로 근사할 수 있다.
    XB(n,p)N(np,np(1p))X\sim B(n,p)\rightarrow N(np,np(1-p))
  • 이때, 정규분포를 이용해 이항분포의 확률값을 계산할 때, 이산형 확률변수 구간의 계산을 연속형으로 하면 오차가 발생한다. 따라서, 이 오차를 보정하는 식을 연속화 보정이라고 한다.
    P(aXb)a0.5b+0.5g(x)dxP(a\le X\le b)\approx\int_{a-0.5}^{b+0.5}g(x)dx

정규분포와 연관된 분포

대수정규분포 (The Lognormal Distribution)

확률변수 Y=ln(X)X=eYY=\ln(X)\rightarrow X=e^Y가 평균이 μ\mu, 분산이 σ\sigma인 정규분포를 따른다면 확률변수 XX는 모수 μ\muσ2\sigma^2를 가지는 대수정규분포를 따른다.

X=eYLN(μ,σ2)X=e^Y\sim LN(\mu, \sigma^2)
  • F(x)=P(Xx)=P(eYx)=P(Yln(x))=Φ(ln(x)μσ)F(x)=P(X\le x)=P(e^Y\le x)=P(Y\le\ln(x))=\Phi\Big(\frac{\ln(x)-\mu}{\sigma}\Big)
  • f(x)=ddxF(x)=1σxϕ(ln(x)μσ)=1σxϕ(z)f(x)=\frac{d}{dx}F(x)=\frac{1}{\sigma x}\phi\Big(\frac{\ln(x)-\mu}{\sigma}\Big)=\frac{1}{\sigma x}\phi(z)
  • 이때 ϕ(z)=12πez22\phi(z)=\frac{1}{\sqrt{2\pi}}e^{-\frac{z^2}{2}}
  • 모수의 평균과 분산은 대수정규분포의 평균, 분산과 같지 않다.
  • E[X]=eμ+σ2/2E[X]=e^{\mu+\sigma^2/2}
  • Var[X]=e2μ+σ2(eσ21)Var[X]=e^{2\mu+\sigma^2}(e^{\sigma^2}-1)

카이제곱분포

자유도가 1인 표준정규 확률변수의 제곱의 분포는 χ2(1)\chi^2(1)이고 다음을 따른다.

XN(μ,σ2)X\sim N(\mu, \sigma^2)
Z2=(Xμσ)2χ2(1)Z^2=\Big(\frac{X-\mu}{\sigma}\Big)^2\sim\chi^2(1)
  • Y=Z2Y=Z^2인 카이제곱분포의 확률밀도함수: f(y)=12ν/2Γ(ν/2)yν/21ey/2,y0f(y)=\frac{1}{2^{\nu/2}\Gamma(\nu/2)}y^{\nu/2-1}e^{-y/2}, \quad y\ge0
  • 자유도 ν\nuX2\mathcal{X}^2인 확률변수 YY는 다음과 같다.
    Y=Z12+Z22++Zν2χ2(n)Y=Z_1^2+Z_2^2+\cdots+Z_\nu^2\sim\chi^2(n)
    이때 ZiZ_i는 독립인 표준정규 확률변수이다.
  • 카이제곱분포는 감마분포의 특수한 형태로서 통계적 검정 및 추론에서 매우 중요하게 사용된다.
    Xχ2(ν)=Γ(α=ν2,λ=12)X\sim \chi^2(\nu)=\Gamma(\alpha=\frac{\nu}{2}, \lambda=\frac{1}{2})
  • E[X]=νE[X]=\nu
  • Var[X]=2νVar[X]=2\nu
  • Mx(t)=(112t)ν/2for t<1/2M_x(t)=(\frac{1}{1-2t})^{\nu/2}\quad\text{for }t<1/2
  • 확률변수 X1,X2,,XkX_1, X_2, \dots, X_k가 서로 독립이고 자유도가 νi\nu_i인 카이제곱 분포를 따를 때, 확률변수의 합 X1+X2++XkX_1+X_2+\dots+X_k은 자유도가 ν1++νk\nu_1+\dots+\nu_k인 카이제곱 분포를 따른다.

T 분포

표준정규분포를 따르는 확률변수를 독립인 χν2/ν\chi^2_\nu/\nu의 제곱근으로 나눈 확률변수는 자유도 ν\nu를 가지는 t-분포를 따른다.

T=WV/ν=N(0,1)χ2(ν)/νtvT=\frac{W}{\sqrt{V/\nu}}=\frac{N(0,1)}{\sqrt{\chi^2(\nu)/\nu}}\sim t_v
  • 자유도 ν\nu가 증가함에 따라 t-분포는 점점 더 표준정규분포에 가깝게 되어 ν\nu\rightarrow\infin일 때 표준정규분포는 t-분포의 극한 분포가 된다.

F 분포

두 개의 χ2\chi^2 확률변수 (Uχ2(ν1),Vχ2(ν2))(U\sim\chi^2(\nu_1),\quad V\sim\chi^2(\nu_2))가 서로 독립일 때 다음과 같다.

F=χ2(ν1)/ν1χ2(ν2)/ν2Fν1,ν2F=\frac{\chi^2(\nu_1)/\nu_1}{\chi^2(\nu_2)/\nu_2}\sim F_{\nu_1,\nu_2}
profile
Hi, there 👋

0개의 댓글