다변량 가우시안 분포(Multivariate Gaussian Distribution)

김승혁·2024년 11월 25일

다변량 가우시안 분포(Multivariate Gaussian Distribution)는 여러 변수들에 대해 확률 분포를 정의하는 확률 분포입니다. 이는 각 변수들이 서로 독립적이지 않고 상호 의존적인 경우에도 적용될 수 있습니다. 이 분포는 여러 변수들이 함께 어떤 형태의 데이터를 생성할 때 자주 사용됩니다.

다변량 가우시안 분포의 수학적 정의

다변량 가우시안 분포는 다음과 같은 확률 밀도 함수(PDF)로 정의됩니다.

f(x)=1(2π)dΣexp(12(xμ)TΣ1(xμ))f(\mathbf{x}) = \frac{1}{\sqrt{(2\pi)^d |\Sigma|}} \exp \left( -\frac{1}{2} (\mathbf{x} - \boldsymbol{\mu})^T \Sigma^{-1} (\mathbf{x} - \boldsymbol{\mu}) \right)

여기서:

  • x\mathbf{x}dd-차원 벡터로, 분포의 랜덤 변수입니다.
  • μ\boldsymbol{\mu}dd-차원 평균 벡터입니다.
  • Σ\Sigmad×dd \times d 공분산 행렬입니다. 이 행렬은 각 변수 간의 상호 연관성(상관 관계)을 나타냅니다.
  • Σ1\Sigma^{-1}는 공분산 행렬의 역행렬입니다.
  • Σ|\Sigma|는 공분산 행렬 Σ\Sigma의 행렬식입니다.
  • dd는 변수의 차원(변수의 개수)을 나타냅니다.

주요 구성 요소

  1. 평균 벡터 μ\boldsymbol{\mu}:

    • 이 벡터는 각 변수의 평균 값을 나타냅니다. 벡터 형태로 주어지며, 각 항목은 해당 변수의 평균값입니다.
  2. 공분산 행렬 Σ\Sigma:

    • 공분산 행렬은 변수들 간의 상관 관계를 나타냅니다. 대각선 요소는 각 변수의 분산을 나타내고, 비대각선 요소는 두 변수 간의 공분산을 나타냅니다.
    • 만약 공분산 행렬이 단위 행렬이면, 각 변수들은 독립적이고 분산이 동일하다는 것을 의미합니다.

예시

만약 두 개의 변수 X1X_1X2X_2가 있을 때, 그들의 다변량 가우시안 분포는 다음과 같습니다.

f(x)=12πσ1σ21ρ2exp(12(1ρ2)[(x1μ1)2σ122ρ(x1μ1)(x2μ2)σ1σ2+(x2μ2)2σ22])f(\mathbf{x}) = \frac{1}{2\pi \sigma_1 \sigma_2 \sqrt{1 - \rho^2}} \exp \left( -\frac{1}{2(1 - \rho^2)} \left[ \frac{(x_1 - \mu_1)^2}{\sigma_1^2} - 2\rho \frac{(x_1 - \mu_1)(x_2 - \mu_2)}{\sigma_1 \sigma_2} + \frac{(x_2 - \mu_2)^2}{\sigma_2^2} \right] \right)

여기서:

  • μ1,μ2\mu_1, \mu_2는 각각 X1X_1X2X_2의 평균값입니다.
  • σ1,σ2\sigma_1, \sigma_2는 각각 X1X_1X2X_2의 표준편차입니다.
  • ρ\rho는 두 변수 X1X_1X2X_2의 상관 계수입니다.

요약

다변량 가우시안 분포는 다차원 데이터에서 변수들이 어떻게 상호 연관되어 있는지 모델링하는 데 유용합니다. 평균 벡터와 공분산 행렬을 통해 각 변수의 분포와 변수들 간의 관계를 나타낼 수 있습니다.


두 변수 X1X_1X2X_2의 다변량 가우시안 분포를 살펴보겠습니다.

이 경우, 변수들은 서로 상관관계가 있을 수 있습니다.

설정:

  • 평균 벡터 μ=[0,0]\mu = [0, 0] (두 변수의 평균값은 각각 0)
  • 공분산 행렬 Σ=[10.80.81]\Sigma = \begin{bmatrix} 1 & 0.8 \\ 0.8 & 1 \end{bmatrix} (두 변수 간의 상관 관계는 0.8)

공분산 행렬 설명:

  • 대각선 원소는 각 변수의 분산을 나타냅니다. 여기서는 두 변수 모두 분산이 1입니다.
  • 비대각선 원소는 두 변수 간의 공분산을 나타냅니다. 여기서는 공분산이 0.8로 설정되어 있습니다. 이는 두 변수 간에 상당한 양의 양의 상관 관계가 있음을 의미합니다.

다변량 가우시안 분포의 PDF 계산을 위한 예시 수식:

f(x)=1(2π)dΣexp(12(xμ)TΣ1(xμ))f(\mathbf{x}) = \frac{1}{\sqrt{(2\pi)^d |\Sigma|}} \exp \left( -\frac{1}{2} (\mathbf{x} - \boldsymbol{\mu})^T \Sigma^{-1} (\mathbf{x} - \boldsymbol{\mu}) \right)

이 식에서:

  • x=[x1x2]\mathbf{x} = \begin{bmatrix} x_1 \\ x_2 \end{bmatrix}는 두 변수의 값 벡터입니다.

  • μ=[00]\boldsymbol{\mu} = \begin{bmatrix} 0 \\ 0 \end{bmatrix}는 평균 벡터입니다.

  • Σ\Sigma는 공분산 행렬입니다.

  • Σ|\Sigma|는 공분산 행렬의 행렬식입니다.

  • Σ1\Sigma^{-1}는 공분산 행렬의 역행렬입니다.

1. 행렬식과 역행렬 계산

먼저 공분산 행렬의 행렬식과 역행렬을 계산합니다.

공분산 행렬:

Σ=[10.80.81]\Sigma = \begin{bmatrix} 1 & 0.8 \\ 0.8 & 1 \end{bmatrix}

행렬식 계산:

Σ=(1×1)(0.8×0.8)=10.64=0.36|\Sigma| = (1 \times 1) - (0.8 \times 0.8) = 1 - 0.64 = 0.36

역행렬 계산:

Σ1=1Σ[10.80.81]=10.36[10.80.81]=[2.77782.22222.22222.7778]\Sigma^{-1} = \frac{1}{|\Sigma|} \begin{bmatrix} 1 & -0.8 \\ -0.8 & 1 \end{bmatrix} = \frac{1}{0.36} \begin{bmatrix} 1 & -0.8 \\ -0.8 & 1 \end{bmatrix} = \begin{bmatrix} 2.7778 & -2.2222 \\ -2.2222 & 2.7778 \end{bmatrix}

2. 확률 밀도 함수 (PDF) 계산

이제 예시로 x=[12]\mathbf{x} = \begin{bmatrix} 1 \\ 2 \end{bmatrix}라는 값을 사용하여 확률 밀도 함수를 계산해 보겠습니다.

f(x)=1(2π)2Σexp(12(xμ)TΣ1(xμ))f(\mathbf{x}) = \frac{1}{\sqrt{(2\pi)^2 |\Sigma|}} \exp \left( -\frac{1}{2} (\mathbf{x} - \boldsymbol{\mu})^T \Sigma^{-1} (\mathbf{x} - \boldsymbol{\mu}) \right)

계산 과정:

  • xμ=[12][00]=[12]\mathbf{x} - \boldsymbol{\mu} = \begin{bmatrix} 1 \\ 2 \end{bmatrix} - \begin{bmatrix} 0 \\ 0 \end{bmatrix} = \begin{bmatrix} 1 \\ 2 \end{bmatrix}

  • (xμ)T=[12](\mathbf{x} - \boldsymbol{\mu})^T = \begin{bmatrix} 1 & 2 \end{bmatrix}

  • 이제 이 값을 공분산 행렬의 역행렬과 곱합니다:
    (xμ)TΣ1(xμ)=[12][2.77782.22222.22222.7778][12](\mathbf{x} - \boldsymbol{\mu})^T \Sigma^{-1} (\mathbf{x} - \boldsymbol{\mu}) = \begin{bmatrix} 1 & 2 \end{bmatrix} \begin{bmatrix} 2.7778 & -2.2222 \\ -2.2222 & 2.7778 \end{bmatrix} \begin{bmatrix} 1 \\ 2 \end{bmatrix}

먼저 행렬 곱을 진행합니다:
[12][2.77782.22222.22222.7778]=[2.77784.44442.2222+5.5556]=[1.66663.3334]\begin{bmatrix} 1 & 2 \end{bmatrix} \begin{bmatrix} 2.7778 & -2.2222 \\ -2.2222 & 2.7778 \end{bmatrix} = \begin{bmatrix} 2.7778 - 4.4444 & -2.2222 + 5.5556 \end{bmatrix} = \begin{bmatrix} -1.6666 & 3.3334 \end{bmatrix}

이제 마지막으로 벡터와 곱합니다:
[1.66663.3334][12]=(1.6666×1)+(3.3334×2)=1.6666+6.6668=5.0002\begin{bmatrix} -1.6666 & 3.3334 \end{bmatrix} \begin{bmatrix} 1 \\ 2 \end{bmatrix} = (-1.6666 \times 1) + (3.3334 \times 2) = -1.6666 + 6.6668 = 5.0002

따라서, (xμ)TΣ1(xμ)=5.0002(\mathbf{x} - \boldsymbol{\mu})^T \Sigma^{-1} (\mathbf{x} - \boldsymbol{\mu}) = 5.0002

최종 PDF 값:

f(x)=1(2π)2×0.36exp(12×5.0002)f(\mathbf{x}) = \frac{1}{\sqrt{(2\pi)^2 \times 0.36}} \exp \left( -\frac{1}{2} \times 5.0002 \right)

f(x)=1(2π)2×0.36exp(2.5001)f(\mathbf{x}) = \frac{1}{\sqrt{(2\pi)^2 \times 0.36}} \exp(-2.5001)

f(x)=12.288×0.082085f(\mathbf{x}) = \frac{1}{\sqrt{2.288}} \times 0.082085

f(x)=11.51×0.0820850.0544f(\mathbf{x}) = \frac{1}{1.51} \times 0.082085 \approx 0.0544

따라서, x=[12]\mathbf{x} = \begin{bmatrix} 1 \\ 2 \end{bmatrix}에서의 확률 밀도 값은 약 0.0544입니다.

요약

  • 이 예제에서는 두 변수의 다변량 가우시안 분포를 사용하여 확률 밀도 함수를 계산했습니다.
  • 공분산 행렬을 사용해 두 변수 간의 상관 관계를 고려하고, 주어진 값에 대해 PDF 값을 계산하는 과정이 포함되었습니다.
  • f(x)f(\mathbf{x})는 주어진 값에서 분포의 밀도를 나타내며, 이 값은 데이터가 해당 위치에 있을 확률을 의미합니다.
profile
열심히 사는 척

0개의 댓글