Joint Probability Distribution

Roh's warehouse·2025년 9월 20일

Statistics

목록 보기
2/8

Joint Probability Distribution

Joint Probability Distribution

결합분포(Joint Probability Distribution)는 두 개의 확률변수가 취할 수 있는 값들의 모든 쌍의 확률을 나타낸 것이다.

  1. 이산형 결합확률질량함수

    p(x,y)=P(X=x,Y=y)p(x,y) = P(X=x, Y=y)
    • 0p(x,y)10 \leq p(x,y) \leq 1
    • xyp(x,y)=1\sum_x\sum_y p(x,y) = 1
    • P(a<Xb,c<Yd)=a<xbc<ydp(x,y)P(a<X\leq b, c<Y\leq d) = \sum_{a<x\leq b}\sum_{c<y\leq d}p(x,y)
  2. 연속형 결합확률밀도함수

    P(a<Xb,c<Yd)=abcdf(x,y)dydxP(a < X \leq b, c < Y \leq d) = \int_a^b \int_c^d f(x, y) \, dy \, dx
    • f(x,y)0f(x, y) \geq 0
    • f(x,y)dxdy=1\int \int f(x, y) \, dx \, dy = 1
    • P(a<Xb,c<Yd)=cdabf(x,y)dxdyP(a < X \leq b, c < Y \leq d) = \int_c^d \int_a^b f(x, y) \, dx \, dy
  • E[g(X,Y)]=g(x,y)f(x,y)dxdyE[g(X, Y)] = \int_{-\infty}^{\infty} \int_{-\infty}^{\infty} g(x, y) f(x, y) \, dx \, dy

  • E[ag(X,Y)+bh(X,Y)]=aE[g(X,Y)]+bE[h(X,Y)]E[ag(X, Y) + bh(X, Y)] = a E[g(X, Y)] + b E[h(X, Y)]

Marginal PDF

주변확률밀도함수(Marginal PDF)는 다음과 같다.

  • pX(x)=yp(x,y)p_X(x) = \sum_y p(x, y)
  • fX(x)=f(x,y)dyf_X(x) = \int f(x, y) \, dy

두 확률변수 X, Y 가 다음을 만족할때 두 확률변수는 서로 독립이다.

  • 이산형: pX,Y(x,y)=pX(x)pY(y)p_{X,Y}(x,y) = p_X(x) p_Y(y)
  • 연속형: fX,Y(x,y)=fX(x)fY(y)f_{X,Y}(x,y) = f_X(x) f_Y(y)
    • X와 Y가 서로 독립이면, E(XY)=E(X)E(Y)E(XY) = E(X)E(Y)

Covariance and Correlation Coefficient

  • 공분산(Covariance)

    Cov(X,Y)=E[(XμX)(YμY)]=E(XY)μXμY=E(XY)E(X)E(Y)Cov(X, Y) = E[(X - \mu_X)(Y - \mu_Y)] = E(XY) - \mu_X \mu_Y = E(XY) - E(X)E(Y)
  • 상관계수(Correlation coefficient) - 선형의 연관성을 나타냄

    Corr(X,Y)=ρXY=Cov(X,Y)sd(X)sd(Y)Corr(X, Y) = \rho_{XY} = \frac{Cov(X, Y)}{sd(X) sd(Y)}

확률변수 X, Y에 대해 다음과 같은 성질들이 있다.

  • Cov(aX+b,cY+d)=acCov(X,Y)Cov(aX + b, cY + d) = ac \, Cov(X, Y)

  • Corr(aX+b,cY+d)=sign(ac)Corr(X,Y)Corr(aX + b, cY + d) = sign(ac) \, Corr(X, Y)

  • Var(X±Y)=Var(X)+Var(Y)±2Cov(X,Y)Var(X \pm Y) = Var(X) + Var(Y) \pm 2 \, Cov(X, Y)

  • Var(aX+bY)=a2Var(X)+b2Var(Y)+2abCov(X,Y)Var(aX + bY) = a^2 \, Var(X) + b^2 \, Var(Y) + 2ab \, Cov(X, Y)

  • 1ρ1-1 \leq \rho \leq 1

  • Y=a+bXY = a + bX이면 ρ=±1\rho = \pm 1

확률변수 X, Y가 독립일 경우,

  • E(XY)=E(X)E(Y)E(XY) = E(X)E(Y)

  • E[g(X)h(Y)]=E[g(X)]E[h(Y)]E[g(X)h(Y)] = E[g(X)]E[h(Y)]

  • Cov(X,Y)=0,Corr(X,Y)=0Cov(X, Y) = 0, \, Corr(X, Y) = 0

    • 주의: Cov(X,Y)=0Cov(X, Y) = 0인 것이 X,YX, Y의 독립을 의미하지 않음
  • Var(X±Y)=Var(X)+Var(Y)Var(X \pm Y) = Var(X) + Var(Y)

Conditional Probability Distribution

조건부 확률분포(Conditional Probability Distribution)는 두개의 확률변수가 있을 때, 하나의 확률변수의 값이 주어졌을때, 나머지 하나의 확률변수의 확률분포를 말한다.

  1. 이산 확률변수
    두개의 이산 확률변수 X, Y에 대하여 X = x가 주어졌을때의 Y의 확률질량함수:

    p(yx)=P(Y=yX=x)=P(X=x,Y=y)P(X=x)p(y \mid x) = P(Y = y \mid X = x) = \frac{P(X = x, Y = y)}{P(X = x)}

    p(yx)p(y \mid x)X=xX = x로 고정 되어있을 때의 Y의 확률질량함수이다.

  2. 연속 확률변수
    두개의 연속 확률변수 X, Y에 대하여 X=xX = x가 주어졌을 때의 Y의 확률밀도함수:

    f(yx)=f(x,y)f(x)f(y \mid x) = \frac{f(x,y)}{f(x)}

    f(yx)f(y \mid x)X=xX = x가 고정되어 있을 때의 Y의 확률밀도함수이다.

    • 하나가 이산 확률변수이고, 다른 하나가 연속 확률변수여도 잘 정의 될 수 있다.

Conditional Independence

두 확률변수 X, Y가 또 다른 확률변수 Z가 주어졌을때 서로 독립인 경우 X, Y는 조건부 독립(Conditional Independence)이라고 부른다.

즉, 모든 x,y,zx, y, z에 대하여, p(x,yz)=p(xz)p(yz)p(x, y \mid z) = p(x \mid z)p(y \mid z) 또는 f(x,yz)=f(xz)f(yz)f(x, y \mid z) = f(x \mid z) f(y \mid z) 이다.

  • XYZX \perp Y \mid Z 로 표시한다.

Random Vectors

각 원소 XiX_i가 확률변수인 크기가 p×1p \times 1인 (열)벡터 X=(X1,,Xp)T\mathbf{X} = (X_1, \cdots, X_p)^T를 확률벡터(random vector)라고 부른다.

  • 확률벡터의 확률분포 - 결합확률분포(joint probability distribution)

  • 결합확률질량함수(joint probability mass function): pX1,,Xp(x1,,xp)p_{X_1, \cdots, X_p}(x_1, \cdots, x_p)

  • 결합확률밀도함수(joint probability density function): fX1,,Xp(x1,,xp)f_{X_1, \cdots, X_p}(x_1, \cdots, x_p)

  • 결합누적확률분포(joint cumulative distribution function): FX1,,Xp(x1,,xp)=P(X1x1,,Xpxp)F_{X_1, \cdots, X_p}(x_1, \cdots, x_p) = P(X_1 \leq x_1, \cdots, X_p \leq x_p)

Mean of Random Vectors

E(X)=E(X1Xp)=(E(X1)E(Xp))=(μ1μp)=μ,E(\mathbf{X}) = E \begin{pmatrix} X_1 \\ \vdots \\ X_p \end{pmatrix} = \begin{pmatrix} E(X_1) \\ \vdots \\ E(X_p) \end{pmatrix} = \begin{pmatrix} \mu_1 \\ \vdots \\ \mu_p \end{pmatrix} = \mu,
  • μi=E(Xi)\mu_i = E(X_i)

Covariance Matrix

확률벡터 X\mathbf{X}의 공분산 행렬 (covariance matrix) Σ\Sigma는 다음과 같이 정의한다.

cov(X)=E((Xμ)(Xμ)T)cov(\mathbf{X}) = E((\mathbf{X} - \mu)(\mathbf{X} - \mu)^T)

var(Xi)=σi2,cov(Xi,Xj)=σijvar(X_i) = \sigma_i^2, \, cov(X_i, X_j) = \sigma_{ij} 라고 하고, σii=σi2\sigma_{ii} = \sigma_i^2 라고 하자. 그러면, 공분산 행렬은 다음과 같이 표현된다.

Σ=cov(X)=(σ11σ12σ1pσ21σ22σ2pσp1σp2σpp)\Sigma = cov(\mathbf{X}) = \begin{pmatrix} \sigma_{11} & \sigma_{12} & \cdots & \sigma_{1p} \\ \sigma_{21} & \sigma_{22} & \cdots & \sigma_{2p} \\ \vdots & \vdots & \ddots & \vdots \\ \sigma_{p1} & \sigma_{p2} & \cdots & \sigma_{pp} \end{pmatrix}
  • Σ1\Sigma^{-1}: Precision matrix

Marginal Probability Distribution

  • PMF: pXi(xi)=xj,jip(x1,,xp)p_{X_i}(x_i) = \sum_{x_j, j \neq i} p(x_1, \cdots, x_p)

  • PDF: fXi(xi)=f(x1,,xp)dx1dxi1dxi+1dxpf_{X_i}(x_i) = \int f(x_1, \cdots, x_p) \, dx_1 \cdots dx_{i-1} \, dx_{i+1} \cdots dx_p

  • CDF: FXi(xi)=limxj,jiF(x1,,xp)F_{X_i}(x_i) = \lim_{x_j \to \infty, j \neq i} F(x_1, \cdots, x_p)

Conditional PMF

이산인 확률변수 X1,,XpX_1, \cdots, X_p에 대하여 X1=x1,,Xk=xkX_1 = x_1, \cdots, X_k = x_k, (k<p)(k < p)가 주어졌을때의 Xk+1,,XpX_{k+1}, \cdots, X_p의 확률질량함수:

p(xk+1,,xpx1,,xk)=P(Xk+1=xk+1,,Xp=xpX1=x1,,Xk=xk)=P(X1=x1,,Xp=xp)P(X1=x1,,Xk=xk)\begin{aligned} &p(x_{k+1}, \cdots, x_p \mid x_1, \cdots, x_k) \\ & = P(X_{k+1} = x_{k+1}, \cdots, X_p = x_p \mid X_1 = x_1, \cdots, X_k = x_k) \\ & = \frac{P(X_1 = x_1, \cdots, X_p = x_p)}{P(X_1 = x_1, \cdots, X_k = x_k)} \end{aligned}
  • p(xk+1,,xpx1,,xk)p(x_{k+1}, \cdots, x_p \mid x_1, \cdots, x_k)는 확률질량함수이다.

Conditional PDF

연속인 확률변수 X1,,XpX_1, \cdots, X_p에 대하여 X1=x1,,Xk=xkX_1 = x_1, \cdots, X_k = x_k가 주어졌을때의 Xk+1,,XpX_{k+1}, \cdots, X_p의 확률밀도함수:

f(xk+1,,xpx1,,xk)=f(x1,,xp)f(x1,,xk)f(x_{k+1}, \cdots, x_p \mid x_1, \cdots, x_k) = \frac{f(x_1, \cdots, x_p)}{f(x_1, \cdots, x_k)}
  • f(xk+1,,xpx1,,xk)f(x_{k+1}, \cdots, x_p \mid x_1, \cdots, x_k)는 확률밀도함수이다.
  • 이산 확률변수와 연속 확률변수가 섞여있어도 조건부 확률분포를 얘기할 수 있다.

Independence

확률변수 X1,,XpX_1, \cdots, X_p가 다음을 만족할 때 서로 독립이다:

모든 x1,,xpx_1, \cdots, x_p에 대해,

     Discrete: p(x1,,xp)=pX1(x1)pXp(xp)p(x_1, \cdots, x_p) = p_{X_1}(x_1) \cdots p_{X_p}(x_p)

     Continuous: f(x1,,xp)=fX1(x1)fXp(xp)f(x_1, \cdots, x_p) = f_{X_1}(x_1) \cdots f_{X_p}(x_p)

  • X1,,XpX_1, \cdots, X_p가 서로 독립이면, E(X1Xp)=E(X1)E(Xp)E(X_1 \cdots X_p) = E(X_1) \cdots E(X_p)

Examples of Multivariate Probability Distribution

Multinomial Distribution

다항 분포 (Multinomial Distribution)는 독립시행에서 나오는 결과 (outcome)가 두 가지 이상일 때를 모형화 한 것이다.

k의 서로 다른 결과가 나오는 독립시행을 n번 시도 하였을때 각각의 결과가 나오는 횟수를 Xj라고 하자. 즉, XjX_j 는 n번의 독립 시행에서 범주 j가 나온 횟수이다. 즉, X1++Xk=nX_1 + \dots + X_k = n이다.

한번의 시행에서 j번째 범주가 나올 확률을 pjp_j라고 하자. 즉, p1++pk=1p_1 + \dots + p_k = 1이다.

이 때, 각 범주별로 나오는 횟수 (X1,,Xk)(X_1, \dots , X_k) 는 다항분포 (multinomial distribution)을 따르고 다음과 같이 표시한다: X=(X1,,Xk)Multi(n,(p1,,pk))\mathbf{X} = (X_1, \cdots, X_k) \sim \text{Multi}(n, (p_1, \cdots, p_k))

  • 다항분포의 확률질량함수는 다음과 같다.

    p(n1,,nk)=p(n1,,nkp)=P(X1=n1,,Xk=nk)=n!n1!nk!p1n1pknk\begin{aligned} p(n_1, \cdots, n_k) &= p(n_1, \cdots, n_k \mid \mathbf{p}) \\ &= P(X_1 = n_1, \cdots, X_k = n_k) \\ &= \frac{n!}{n_1! \cdots n_k!} p_1^{n_1} \cdots p_k^{n_k} \end{aligned}
    • p=(p1,,pk)\mathbf{p} = (p_1, \cdots, p_k)
  • 이항분포의 확장으로 볼 수 있다. k=2k = 2이면 다항분포는 이항분포와 같다.

  • E(Xj)=npj,var(Xj)=npj(1pj),cov(Xj,Xj)=npjpjE(X_j) = np_j, \, var(X_j) = np_j(1 - p_j), \, cov(X_j, X_{j'}) = -np_jp_{j'}

Dirichlet Distribution

디리클레 분포(Dirichlet Distribution)는 연속 확률분포중의 하나로, 0Xj10 \leq X_j \leq 1이면서 j=1kXj=1\sum_{j=1}^k X_j = 1을 만족하는 확률변수들의 벡터 X=(X1,,Xk)\mathbf{X} = (X_1, \cdots, X_k) (k2)(k \geq 2)가 다음의 확률밀도함수를 가지는 경우이다.

f(x1,,xk)=f(x1,,xkα)=1B(α)j=1kxjαj1,f(x_1, \cdots, x_k) = f(x_1, \cdots, x_k \mid \alpha) = \frac{1}{B(\alpha)} \prod_{j=1}^k x_j^{\alpha_j - 1},
xj[0,1],jxj=1,α=(α1,,αk).x_j \in [0, 1], \sum_j x_j = 1, \alpha = (\alpha_1, \cdots, \alpha_k).

αj>0\alpha_j > 0은 확률밀도함수를 정하는 모수(parameter)이고,

B(α)=j=1kΓ(αj)Γ(jαj)는 정규화 상수 (normalized constant)이다.B(\alpha) = \frac{\prod_{j=1}^k \Gamma(\alpha_j)}{\Gamma(\sum_j \alpha_j)} \text{는 정규화 상수 (normalized constant)이다.}
  • XDir(α)\mathbf{X} \sim \text{Dir}(\alpha)로 나타낸다.

  • E(Xj)=αj/iαiE(X_j) = \alpha_j / \sum_i \alpha_i

  • k=2k = 2이면 디리클레분포는 베타분포와 같다.

Multivariate Gaussian Distribution

각 원소가 가우시안 분포 (정규분포)를 따르는 확률벡터의 분포를 다변량 가우시안분포(Multivariate Gaussian Distribution)라고 한다.

  • 가우시안 확률벡터 (크기 pp)의 확률밀도함수는 다음과 같이 정의된다.

    f(x1,,xp)=f(x1,,xpμ,Σ)=(2π)p2Σ12exp(12(xμ)TΣ1(xμ))\begin{aligned} f(x_1, \cdots, x_p) &= f(x_1, \cdots, x_p \mid \mu, \Sigma) \\ &= (2\pi)^{-\frac{p}{2}} \lvert \Sigma \rvert^{-\frac{1}{2}} \exp \left( -\frac{1}{2} (\mathbf{x} - \mu)^T \Sigma^{-1} (\mathbf{x} - \mu) \right) \end{aligned}
    • Σ\vert \Sigma \vertΣ\Sigma의 행렬식 (determinant)이다.
  • XNp(μ,Σ)\mathbf{X} \sim N_p(\mu, \Sigma)로 나타낸다.

  • 각 원소가 표준정규분포이고 서로 독립이면, ZNp(0,I)\mathbf{Z} \sim N_p(0, I)로 표현된다. II는 단위행렬 (identity matrix)이다.

  • Σ\Sigma는 일반적으로 양의 정 부호 행렬 (positive definite matrix)이다.

  • 양의 정부호 행렬은 Cholesky decomposition에 의해 Σ=AAT\Sigma = AA^T로 표현되고 표준정규분포 벡터 Z\mathbf{Z}를 이용하면 AZ+μN(μ,Σ)\mathbf{AZ} + \mu \sim N(\mu, \Sigma)임을 알 수 있다.

  • σij=E((Xiμi)(Xjμj))=0\sigma_{ij} = E((X_i - \mu_i)(X_j - \mu_j)) = 0 이면, 즉 Σ\Sigma(i,j)(i,j) 원소가 0 이면, Xi,XjX_i, X_j 는 서로 독립이다.

    • 따라서, 서로 독립인 가우시안 확률변수로 이루어진 다변량 가우시안 확률벡터의 공분산 행렬은 대각행렬이다. 즉, Σ=diag(d1,,dp)\Sigma = \text{diag}(d_1, \cdots, d_p).
  • a1X1++apXpa_1X_1 + \cdots + a_pX_p (적어도 하나의 aia_i가 0이 아닌 경우)는 가우시안분포(정규분포)를 따른다.

  • X1,,XpX_1, \cdots, X_p중에 k(kp)k \, (k \leq p)개의 원소를 뽑아 만든 벡터 Xs=(Xi1,,Xik)\mathbf{X}_s = (X_{i_1}, \cdots, X_{i_k})도 가우시안분포를 따른다.

  • XsNs(μs,Σs),μs=(μi1,,μik)T,Σs\mathbf{X}_s \sim N_s(\mu_s, \Sigma_s), \mu_s = (\mu_{i_1}, \dots, \mu_{i_k})^T, \Sigma_s(l,m)(l, m) 원소는 σil,im\sigma_{i_l, i_m} 이다.

  • p=2p = 2인 경우, 이변량 가우시안 (bivariate Gaussian) 분포이며, 확률밀도함수는 다음과 같이 상관계수를 포함한 5개의 모수로 표현 할 수도 있다. 이때, σ12=ρσ1σ2\sigma_{12} = \rho \sigma_1 \sigma_2이다.

f(x1,x2)=12πσ1σ21ρ2exp(12(1ρ2)[(x1μ1)2σ12+(x2μ2)2σ222ρ(x1μ1)(x2μ2)σ1σ2])f(x_1, x_2) = \frac{1}{2 \pi \sigma_1 \sigma_2 \sqrt{1 - \rho^2}} \exp \left( -\frac{1}{2(1 - \rho^2)} \left[ \frac{(x_1 - \mu_1)^2}{\sigma_1^2} + \frac{(x_2 - \mu_2)^2}{\sigma_2^2} - 2 \rho \frac{(x_1 - \mu_1)(x_2 - \mu_2)}{\sigma_1 \sigma_2} \right] \right)

Partitioned Gaussian Distribution

가우시안 확률벡터의 일부로 만든 벡터의 분포를 분할 가우시안 분포 (Partitioned Gaussian Distribution)라고 하며, 평균벡터와 공분산 행렬은 원 확률벡터의 평균벡터와 공분산행렬을 분할하여 표현할 수 있다.

X=(X1,,Xp)TNp(μ,Σ)\mathbf{X} = (X_1, \cdots, X_p)^T \sim N_p(\mu, \Sigma)일 때, X=(X1T,X2T)T\mathbf{X} = (\mathbf{X}_1^T, \mathbf{X}_2^T)^T로 나누어진다고 하자. 편의상 X1=(X1,,Xm)T,X2=(Xm+1,,Xp)T\mathbf{X}_1 = (X_1, \cdots, X_m)^T, \mathbf{X}_2 = (X_{m+1}, \cdots, X_p)^T라고 하자. 실제로는 순서상관없이 두개의 그룹으로 묶어도 된다.

이때, X1Nm(μ1,Σ11),μ=(μ1T,μ2T)T,Σ=(Σ11Σ12Σ21Σ22)\mathbf{X}_1 \sim N_m(\mu_1, \Sigma_{11}), \, \mu = (\mu_1^T, \mu_2^T)^T, \Sigma = \begin{pmatrix} \Sigma_{11} & \Sigma_{12} \\ \Sigma_{21} & \Sigma_{22} \end{pmatrix}

Conditional Partitioned Gaussian Distribution

X2=a\mathbf{X}_2 = \mathbf{a}로 주어졌을때 X1\mathbf{X}_1의 조건부 확률분포는

X1X2=aNm(μ1+Σ12Σ221(aμ2),Σ11Σ12Σ221Σ21)\mathbf{X}_1 \mid \mathbf{X}_2 = \mathbf{a} \sim N_m \left( \mu_1 + \Sigma_{12} \Sigma_{22}^{-1} (\mathbf{a} - \mu_2), \Sigma_{11} - \Sigma_{12} \Sigma_{22}^{-1} \Sigma_{21} \right)

X=(X1,X2)\mathbf{X} = (\mathbf{X}_1, \mathbf{X}_2)일때, 즉 이변량 가우시안 일때,

X1X2=aN(μ1+σ1σ2ρ(aμ2),(1ρ2)σ12)\mathbf{X}_1 \mid \mathbf{X}_2 = a \sim N \left( \mu_1 + \frac{\sigma_1}{\sigma_2} \rho (a - \mu_2), (1 - \rho^2) \sigma_1^2 \right)

Mixure Distribution

여러개의 분포의 선형결합으로 이루어진 분포를 혼합분포(Mixure Distribution)라고 한다.

이산확률분포에서는 kk개의 이산확률분포의 선형결합으로 이루어진 다음과 같은 확률질량함수를 가진다.

p(x)=w1p1(x)++wkpk(x)=i=1kwipi(x)p(x) = w_1 p_1(x) + \cdots + w_k p_k(x) = \sum_{i=1}^k w_i p_i(x)

이때 pk(x)p_k(x)는 확률질량함수이고, wi0,wi=1w_i \geq 0, \sum w_i = 1을 만족한다.

연속확률분포에서는 다음과 같은 확률밀도함수를 가진다.

f(x)=w1f1(x)++wkfk(x)=i=1kwifi(x).f(x) = w_1 f_1(x) + \cdots + w_k f_k(x) = \sum_{i=1}^k w_i f_i(x).

Gaussian Mixure Distribution

fif_i들이 가우시안 확률밀도함수인 경우 가우시안 혼합분포(Gaussian Mixure Distribution)라고 한다.

ϕ(x)\phi(x)를 표준정규분포의 확률밀도함수라고 하자. 즉,

ϕ(x)=12πe12x2.\phi(x) = \frac{1}{\sqrt{2\pi}} e^{-\frac{1}{2}x^2}.

XN(μ,σ2)X \sim N(\mu, \sigma^2)인 경우, XX의 확률밀도함수는 1σϕ(Xμσ)\frac{1}{\sigma}\phi\left(\frac{X - \mu}{\sigma}\right)로 표현할 수 있다.

이 경우 kk개의 구성원을 가지는 가우시안 혼합 분포의 확률밀도함수는 다음과 같이 쓸 수 있다.

f(x)=i=1kwi1σiϕ(xμiσi).f(x) = \sum_{i=1}^k w_i \frac{1}{\sigma_i} \phi\left(\frac{x - \mu_i}{\sigma_i}\right).
  • k=2k = 2인 경우 f(x)=w11σ1ϕ(xμ1σ1)+(1w1)1σ2ϕ(xμ2σ2)f(x) = w_1 \frac{1}{\sigma_1} \phi\left(\frac{x - \mu_1}{\sigma_1}\right) + (1 - w_1) \frac{1}{\sigma_2} \phi\left(\frac{x - \mu_2}{\sigma_2}\right)

  • X1,,Xni.i.d.f(x)=i=1kwi1σiϕ(xμiσi)X_1, \cdots, X_n \overset{i.i.d.}{\sim} f(x) = \sum_{i=1}^k w_i \frac{1}{\sigma_i} \phi\left(\frac{x - \mu_i}{\sigma_i}\right), 즉, 가우시안 혼합 분포를 따르는 랜덤 추출된 데이터가 있다고 할때, 각 XjX_jwiw_i의 확률로 N(μi,σi2)N(\mu_i, \sigma_i^2)을 따른다고 해석할 수 있다.

  • 군집분석의 모델로 사용할 수 있다.

  • 왼쪽: 파란선 N(1,12)N(−1, 1^2), 빨간선 N(2,22)N(2, 2^2)
  • 오른쪽: 파란점선 0.5×N(1,12)0.5 \times N(−1, 1^2), 빨간점선 0.5×N(2,22)0.5 \times N(2, 2^2) -> 까만선: 0.5×N(1,12)+0.5×N(2,22)0.5 \times N(−1, 1^2) + 0.5 \times N(2, 2^2)

Sample Distribution

Distribution of Sample Mean

표본평균 (sample mean), Xˉ\bar{X}은 표본의 중심경향성을 나타내는 통계량이다.

  • 모집단의 평균 (모평균)을 μ\mu라고 하면, 표본평균은 μ\mu의 추정량 (estimator)이다.

  • 표본 {X1,X2,,Xn}\{X_1, X_2, \cdots, X_n\}가 모평균 μ\mu, 모분산 σ2\sigma^2인 모집단에서 추출된 랜덤표본일때,

    Xˉ=1ni=1nXi.\bar{X} = \frac{1}{n} \sum_{i=1}^n X_i.
  • 무한모집단에서 추출된 랜덤표본일 경우,

    E(Xˉ)=μ,Var(Xˉ)=σ2n,sd(Xˉ)=σnE(\bar{X}) = \mu, \, Var(\bar{X}) = \frac{\sigma^2}{n}, \, sd(\bar{X}) = \frac{\sigma}{\sqrt{n}}
  • 크기가 NN인 유한모집단에서 추출된 랜덤표본일 경우,

    E(Xˉ)=μ,Var(Xˉ)=NnN1σ2n.E(\bar{X}) = \mu, \, Var(\bar{X}) = \frac{N - n}{N - 1} \cdot \frac{\sigma^2}{n}.

Law of Large Numbers (LLN)

큰 수의 법칙(Law of Large Numbers, LLN)은 표본의 크기 n 이 커질수록 표본평균의 분산은 0에 가까워진다는 것을 말한다.

표본평균의 기대값은 모평균과 같고, 분산이 작아지므로, Xˉ\bar{X}는 모평균 μ\mu의 근처에 밀집되어 분포함을 알 수 있다. 이러한 결과를 큰수의 법칙이라고 한다.

Central Limit Theorem (CLT)

중심극한정리(Central Limit Theorem, CLT)는 임의의 모집단에 대해 Xˉμσ/n\frac{\bar{X} - \mu}{\sigma / \sqrt{n}}의 분포는 표준정규분포 N(0,1)N(0, 1)에 근사한다는 것을 말한다.

유한모집단의 경우, 모집단의 크기 NN과 표본의 크기 nn이 충분히 크면(단 NnN \gg n) NnN1\frac{N - n}{N - 1}의 값이 1에 근사하므로, 위의 성질이 성립한다.

중심극한정리를 통해, 모집단의 분포가 어떤 형태이든지 표본의 크기가 크면 표본평균의 분포를 정규분포로 근사할 수 있다.

  • 즉, Xˉ\bar{X}의 분포 N(μ,σ2n)\approx N \left( \mu, \frac{\sigma^2}{n} \right).

Normal Approximation Using the Binomial Distribution

X1,X2,,XnX_1, X_2, \cdots, X_n이 성공률이 pp인 베르누이분포를 따르는 무한모집단의 랜덤표본이라고 하자. 이 경우, S=i=1nXiS = \sum_{i=1}^n X_i은 이항분포 B(n,p)B(n, p)을 따른다.

중심극한정리를 적용하면, nn이 충분히 클 때

Snpnp(1p)=p^pp(1p)/n\frac{S - np}{\sqrt{np(1 - p)}} = \frac{\hat{p} - p}{\sqrt{p(1 - p)/n}}

의 분포는 표준정규분포 N(0,1)N(0, 1)에 근사한다. (p^\hat{p}= 베르누이분포의 표본비율 Sn\frac{S}{n}.)

즉, nn이 충분히 크고, npnp가 적당한 값이면, B(n,p)B(n, p)를 이용하는 확률계산을 N(np,np(1p))N(np, np(1 - p))를 이용하여 근사할 수 있다.

profile
공부랑 연구랑 생각

0개의 댓글