다변량 가우시안 분포(Multivariate Gaussian Distribution) 는 여러 변수들에 대해 확률 분포를 정의하는 확률 분포입니다. 이는 각 변수들이 서로 독립적이지 않고 상호 의존적인 경우에도 적용될 수 있습니다. 이 분포는 여러 변수들이 함께 어떤 형태의 데이터를 생성할 때 자주 사용됩니다.
다변량 가우시안 분포의 수학적 정의
다변량 가우시안 분포는 다음과 같은 확률 밀도 함수(PDF) 로 정의됩니다.
f ( x ) = 1 ( 2 π ) d ∣ Σ ∣ exp ( − 1 2 ( x − μ ) T Σ − 1 ( x − μ ) ) f(\mathbf{x}) = \frac{1}{\sqrt{(2\pi)^d |\Sigma|}} \exp \left( -\frac{1}{2} (\mathbf{x} - \boldsymbol{\mu})^T \Sigma^{-1} (\mathbf{x} - \boldsymbol{\mu}) \right) f ( x ) = ( 2 π ) d ∣ Σ ∣ 1 exp ( − 2 1 ( x − μ ) T Σ − 1 ( x − μ ) )
여기서:
x \mathbf{x} x 는 d d d -차원 벡터로, 분포의 랜덤 변수입니다.
μ \boldsymbol{\mu} μ 는 d d d -차원 평균 벡터입니다.
Σ \Sigma Σ 는 d × d d \times d d × d 공분산 행렬입니다. 이 행렬은 각 변수 간의 상호 연관성(상관 관계)을 나타냅니다.
Σ − 1 \Sigma^{-1} Σ − 1 는 공분산 행렬의 역행렬입니다.
∣ Σ ∣ |\Sigma| ∣ Σ ∣ 는 공분산 행렬 Σ \Sigma Σ 의 행렬식입니다.
d d d 는 변수의 차원(변수의 개수)을 나타냅니다.
주요 구성 요소
평균 벡터 μ \boldsymbol{\mu} μ :
이 벡터는 각 변수의 평균 값을 나타냅니다. 벡터 형태로 주어지며, 각 항목은 해당 변수의 평균값입니다.
공분산 행렬 Σ \Sigma Σ :
공분산 행렬은 변수들 간의 상관 관계를 나타냅니다. 대각선 요소는 각 변수의 분산을 나타내고, 비대각선 요소는 두 변수 간의 공분산을 나타냅니다.
만약 공분산 행렬이 단위 행렬이면, 각 변수들은 독립적이고 분산이 동일하다는 것을 의미합니다.
예시
만약 두 개의 변수 X 1 X_1 X 1 과 X 2 X_2 X 2 가 있을 때, 그들의 다변량 가우시안 분포는 다음과 같습니다.
f ( x ) = 1 2 π σ 1 σ 2 1 − ρ 2 exp ( − 1 2 ( 1 − ρ 2 ) [ ( x 1 − μ 1 ) 2 σ 1 2 − 2 ρ ( x 1 − μ 1 ) ( x 2 − μ 2 ) σ 1 σ 2 + ( x 2 − μ 2 ) 2 σ 2 2 ] ) f(\mathbf{x}) = \frac{1}{2\pi \sigma_1 \sigma_2 \sqrt{1 - \rho^2}} \exp \left( -\frac{1}{2(1 - \rho^2)} \left[ \frac{(x_1 - \mu_1)^2}{\sigma_1^2} - 2\rho \frac{(x_1 - \mu_1)(x_2 - \mu_2)}{\sigma_1 \sigma_2} + \frac{(x_2 - \mu_2)^2}{\sigma_2^2} \right] \right) f ( x ) = 2 π σ 1 σ 2 1 − ρ 2 1 exp ( − 2 ( 1 − ρ 2 ) 1 [ σ 1 2 ( x 1 − μ 1 ) 2 − 2 ρ σ 1 σ 2 ( x 1 − μ 1 ) ( x 2 − μ 2 ) + σ 2 2 ( x 2 − μ 2 ) 2 ] )
여기서:
μ 1 , μ 2 \mu_1, \mu_2 μ 1 , μ 2 는 각각 X 1 X_1 X 1 과 X 2 X_2 X 2 의 평균값입니다.
σ 1 , σ 2 \sigma_1, \sigma_2 σ 1 , σ 2 는 각각 X 1 X_1 X 1 과 X 2 X_2 X 2 의 표준편차입니다.
ρ \rho ρ 는 두 변수 X 1 X_1 X 1 과 X 2 X_2 X 2 의 상관 계수입니다.
요약
다변량 가우시안 분포는 다차원 데이터에서 변수들이 어떻게 상호 연관되어 있는지 모델링하는 데 유용합니다. 평균 벡터와 공분산 행렬을 통해 각 변수의 분포와 변수들 간의 관계를 나타낼 수 있습니다.
두 변수 X 1 X_1 X 1 과 X 2 X_2 X 2 의 다변량 가우시안 분포를 살펴보겠습니다.
이 경우, 변수들은 서로 상관관계가 있을 수 있습니다.
설정:
평균 벡터 μ = [ 0 , 0 ] \mu = [0, 0] μ = [ 0 , 0 ] (두 변수의 평균값은 각각 0)
공분산 행렬 Σ = [ 1 0.8 0.8 1 ] \Sigma = \begin{bmatrix} 1 & 0.8 \\ 0.8 & 1 \end{bmatrix} Σ = [ 1 0 . 8 0 . 8 1 ] (두 변수 간의 상관 관계는 0.8)
공분산 행렬 설명:
대각선 원소는 각 변수의 분산을 나타냅니다. 여기서는 두 변수 모두 분산이 1입니다.
비대각선 원소는 두 변수 간의 공분산을 나타냅니다. 여기서는 공분산이 0.8로 설정되어 있습니다. 이는 두 변수 간에 상당한 양의 양의 상관 관계가 있음을 의미합니다.
다변량 가우시안 분포의 PDF 계산을 위한 예시 수식:
f ( x ) = 1 ( 2 π ) d ∣ Σ ∣ exp ( − 1 2 ( x − μ ) T Σ − 1 ( x − μ ) ) f(\mathbf{x}) = \frac{1}{\sqrt{(2\pi)^d |\Sigma|}} \exp \left( -\frac{1}{2} (\mathbf{x} - \boldsymbol{\mu})^T \Sigma^{-1} (\mathbf{x} - \boldsymbol{\mu}) \right) f ( x ) = ( 2 π ) d ∣ Σ ∣ 1 exp ( − 2 1 ( x − μ ) T Σ − 1 ( x − μ ) )
이 식에서:
x = [ x 1 x 2 ] \mathbf{x} = \begin{bmatrix} x_1 \\ x_2 \end{bmatrix} x = [ x 1 x 2 ] 는 두 변수의 값 벡터입니다.
μ = [ 0 0 ] \boldsymbol{\mu} = \begin{bmatrix} 0 \\ 0 \end{bmatrix} μ = [ 0 0 ] 는 평균 벡터입니다.
Σ \Sigma Σ 는 공분산 행렬입니다.
∣ Σ ∣ |\Sigma| ∣ Σ ∣ 는 공분산 행렬의 행렬식입니다.
Σ − 1 \Sigma^{-1} Σ − 1 는 공분산 행렬의 역행렬입니다.
1. 행렬식과 역행렬 계산
먼저 공분산 행렬의 행렬식과 역행렬을 계산합니다.
공분산 행렬:
Σ = [ 1 0.8 0.8 1 ] \Sigma = \begin{bmatrix} 1 & 0.8 \\ 0.8 & 1 \end{bmatrix} Σ = [ 1 0 . 8 0 . 8 1 ]
행렬식 계산:
∣ Σ ∣ = ( 1 × 1 ) − ( 0.8 × 0.8 ) = 1 − 0.64 = 0.36 |\Sigma| = (1 \times 1) - (0.8 \times 0.8) = 1 - 0.64 = 0.36 ∣ Σ ∣ = ( 1 × 1 ) − ( 0 . 8 × 0 . 8 ) = 1 − 0 . 6 4 = 0 . 3 6
역행렬 계산:
Σ − 1 = 1 ∣ Σ ∣ [ 1 − 0.8 − 0.8 1 ] = 1 0.36 [ 1 − 0.8 − 0.8 1 ] = [ 2.7778 − 2.2222 − 2.2222 2.7778 ] \Sigma^{-1} = \frac{1}{|\Sigma|} \begin{bmatrix} 1 & -0.8 \\ -0.8 & 1 \end{bmatrix} = \frac{1}{0.36} \begin{bmatrix} 1 & -0.8 \\ -0.8 & 1 \end{bmatrix} = \begin{bmatrix} 2.7778 & -2.2222 \\ -2.2222 & 2.7778 \end{bmatrix} Σ − 1 = ∣ Σ ∣ 1 [ 1 − 0 . 8 − 0 . 8 1 ] = 0 . 3 6 1 [ 1 − 0 . 8 − 0 . 8 1 ] = [ 2 . 7 7 7 8 − 2 . 2 2 2 2 − 2 . 2 2 2 2 2 . 7 7 7 8 ]
2. 확률 밀도 함수 (PDF) 계산
이제 예시로 x = [ 1 2 ] \mathbf{x} = \begin{bmatrix} 1 \\ 2 \end{bmatrix} x = [ 1 2 ] 라는 값을 사용하여 확률 밀도 함수를 계산해 보겠습니다.
f ( x ) = 1 ( 2 π ) 2 ∣ Σ ∣ exp ( − 1 2 ( x − μ ) T Σ − 1 ( x − μ ) ) f(\mathbf{x}) = \frac{1}{\sqrt{(2\pi)^2 |\Sigma|}} \exp \left( -\frac{1}{2} (\mathbf{x} - \boldsymbol{\mu})^T \Sigma^{-1} (\mathbf{x} - \boldsymbol{\mu}) \right) f ( x ) = ( 2 π ) 2 ∣ Σ ∣ 1 exp ( − 2 1 ( x − μ ) T Σ − 1 ( x − μ ) )
계산 과정:
x − μ = [ 1 2 ] − [ 0 0 ] = [ 1 2 ] \mathbf{x} - \boldsymbol{\mu} = \begin{bmatrix} 1 \\ 2 \end{bmatrix} - \begin{bmatrix} 0 \\ 0 \end{bmatrix} = \begin{bmatrix} 1 \\ 2 \end{bmatrix} x − μ = [ 1 2 ] − [ 0 0 ] = [ 1 2 ]
( x − μ ) T = [ 1 2 ] (\mathbf{x} - \boldsymbol{\mu})^T = \begin{bmatrix} 1 & 2 \end{bmatrix} ( x − μ ) T = [ 1 2 ]
이제 이 값을 공분산 행렬의 역행렬과 곱합니다:
( x − μ ) T Σ − 1 ( x − μ ) = [ 1 2 ] [ 2.7778 − 2.2222 − 2.2222 2.7778 ] [ 1 2 ] (\mathbf{x} - \boldsymbol{\mu})^T \Sigma^{-1} (\mathbf{x} - \boldsymbol{\mu}) = \begin{bmatrix} 1 & 2 \end{bmatrix} \begin{bmatrix} 2.7778 & -2.2222 \\ -2.2222 & 2.7778 \end{bmatrix} \begin{bmatrix} 1 \\ 2 \end{bmatrix} ( x − μ ) T Σ − 1 ( x − μ ) = [ 1 2 ] [ 2 . 7 7 7 8 − 2 . 2 2 2 2 − 2 . 2 2 2 2 2 . 7 7 7 8 ] [ 1 2 ]
먼저 행렬 곱을 진행합니다:
[ 1 2 ] [ 2.7778 − 2.2222 − 2.2222 2.7778 ] = [ 2.7778 − 4.4444 − 2.2222 + 5.5556 ] = [ − 1.6666 3.3334 ] \begin{bmatrix} 1 & 2 \end{bmatrix} \begin{bmatrix} 2.7778 & -2.2222 \\ -2.2222 & 2.7778 \end{bmatrix} = \begin{bmatrix} 2.7778 - 4.4444 & -2.2222 + 5.5556 \end{bmatrix} = \begin{bmatrix} -1.6666 & 3.3334 \end{bmatrix} [ 1 2 ] [ 2 . 7 7 7 8 − 2 . 2 2 2 2 − 2 . 2 2 2 2 2 . 7 7 7 8 ] = [ 2 . 7 7 7 8 − 4 . 4 4 4 4 − 2 . 2 2 2 2 + 5 . 5 5 5 6 ] = [ − 1 . 6 6 6 6 3 . 3 3 3 4 ]
이제 마지막으로 벡터와 곱합니다:
[ − 1.6666 3.3334 ] [ 1 2 ] = ( − 1.6666 × 1 ) + ( 3.3334 × 2 ) = − 1.6666 + 6.6668 = 5.0002 \begin{bmatrix} -1.6666 & 3.3334 \end{bmatrix} \begin{bmatrix} 1 \\ 2 \end{bmatrix} = (-1.6666 \times 1) + (3.3334 \times 2) = -1.6666 + 6.6668 = 5.0002 [ − 1 . 6 6 6 6 3 . 3 3 3 4 ] [ 1 2 ] = ( − 1 . 6 6 6 6 × 1 ) + ( 3 . 3 3 3 4 × 2 ) = − 1 . 6 6 6 6 + 6 . 6 6 6 8 = 5 . 0 0 0 2
따라서, ( x − μ ) T Σ − 1 ( x − μ ) = 5.0002 (\mathbf{x} - \boldsymbol{\mu})^T \Sigma^{-1} (\mathbf{x} - \boldsymbol{\mu}) = 5.0002 ( x − μ ) T Σ − 1 ( x − μ ) = 5 . 0 0 0 2
최종 PDF 값:
f ( x ) = 1 ( 2 π ) 2 × 0.36 exp ( − 1 2 × 5.0002 ) f(\mathbf{x}) = \frac{1}{\sqrt{(2\pi)^2 \times 0.36}} \exp \left( -\frac{1}{2} \times 5.0002 \right) f ( x ) = ( 2 π ) 2 × 0 . 3 6 1 exp ( − 2 1 × 5 . 0 0 0 2 )
f ( x ) = 1 ( 2 π ) 2 × 0.36 exp ( − 2.5001 ) f(\mathbf{x}) = \frac{1}{\sqrt{(2\pi)^2 \times 0.36}} \exp(-2.5001) f ( x ) = ( 2 π ) 2 × 0 . 3 6 1 exp ( − 2 . 5 0 0 1 )
f ( x ) = 1 2.288 × 0.082085 f(\mathbf{x}) = \frac{1}{\sqrt{2.288}} \times 0.082085 f ( x ) = 2 . 2 8 8 1 × 0 . 0 8 2 0 8 5
f ( x ) = 1 1.51 × 0.082085 ≈ 0.0544 f(\mathbf{x}) = \frac{1}{1.51} \times 0.082085 \approx 0.0544 f ( x ) = 1 . 5 1 1 × 0 . 0 8 2 0 8 5 ≈ 0 . 0 5 4 4
따라서, x = [ 1 2 ] \mathbf{x} = \begin{bmatrix} 1 \\ 2 \end{bmatrix} x = [ 1 2 ] 에서의 확률 밀도 값은 약 0.0544입니다.
요약
이 예제에서는 두 변수의 다변량 가우시안 분포를 사용하여 확률 밀도 함수를 계산했습니다.
공분산 행렬을 사용해 두 변수 간의 상관 관계를 고려하고, 주어진 값에 대해 PDF 값을 계산하는 과정이 포함되었습니다.
f ( x ) f(\mathbf{x}) f ( x ) 는 주어진 값에서 분포의 밀도를 나타내며, 이 값은 데이터가 해당 위치에 있을 확률을 의미합니다.