이 시리즈는 포항공과대학교 옥정슬 교수님의 기계학습(CSED515) 수업과, [Probabilistic Machine Learning: An Introduction], [Probabilistic Machine Learning: Advanced Topics], [Pattern Recognition and Machine Learning] 등을 참고로 하여 작성된 글입니다.
지난 포스트에서는 다양한 Univariate distribution을 다뤄봤습니다. 이번에는 Multivariate distribution(다변량 분포)과, Gaussian joint distribution을 다뤄보고자 합니다.
Multivariate Distribution and Multivariate Gaussian
Covariance(공분산)
두 확률 변수 X X X 와 Y Y Y 간의 공분산은 X X X 와 Y Y Y 가 선형적으로 얼마나 관련되어 있는지를 측정합니다. 공분산은 다음과 같이 정의됩니다.
Cov [ X , Y ] = E [ ( X − E [ X ] ) ( Y − E [ Y ] ) ] = E [ X Y ] − E [ X ] E [ Y ] \text{Cov}[X, Y] = \mathbb{E}[(X - \mathbb{E}[X])(Y - \mathbb{E}[Y])] = \mathbb{E}[XY] - \mathbb{E}[X] \mathbb{E}[Y] Cov [ X , Y ] = E [ ( X − E [ X ] ) ( Y − E [ Y ] ) ] = E [ X Y ] − E [ X ] E [ Y ]
D D D 차원의 랜덤 벡터 x x x 의 공분산 행렬은 다음과 같이 대칭이며, positive semi-definite(양의 준정부호) 행렬입니다.
Σ = ( Cov [ X 1 , X 1 ] Cov [ X 1 , X 2 ] ⋯ Cov [ X 1 , X D ] Cov [ X 2 , X 1 ] Cov [ X 2 , X 2 ] ⋯ Cov [ X 2 , X D ] ⋮ ⋮ ⋱ ⋮ Cov [ X D , X 1 ] Cov [ X D , X 2 ] ⋯ Cov [ X D , X D ] ) \Sigma = \begin{pmatrix} \text{Cov}[X_1, X_1] & \text{Cov}[X_1, X_2] & \cdots & \text{Cov}[X_1, X_D] \\ \text{Cov}[X_2, X_1] & \text{Cov}[X_2, X_2] & \cdots & \text{Cov}[X_2, X_D] \\ \vdots & \vdots & \ddots & \vdots \\ \text{Cov}[X_D, X_1] & \text{Cov}[X_D, X_2] & \cdots & \text{Cov}[X_D, X_D] \end{pmatrix} Σ = ⎝ ⎜ ⎜ ⎜ ⎜ ⎛ Cov [ X 1 , X 1 ] Cov [ X 2 , X 1 ] ⋮ Cov [ X D , X 1 ] Cov [ X 1 , X 2 ] Cov [ X 2 , X 2 ] ⋮ Cov [ X D , X 2 ] ⋯ ⋯ ⋱ ⋯ Cov [ X 1 , X D ] Cov [ X 2 , X D ] ⋮ Cov [ X D , X D ] ⎠ ⎟ ⎟ ⎟ ⎟ ⎞
이로부터 중요한 결과를 얻을 수 있습니다.
E [ x x T ] = Σ + μ μ T \mathbb{E}[xx^T] = \Sigma + \mu\mu^T E [ x x T ] = Σ + μ μ T
또 다른 유용한 결과는 선형 변환의 공분산이 다음과 같이 주어진다는 것입니다.
Cov [ A x + b ] = A Cov [ x ] A T \text{Cov}[Ax + b] = A \text{Cov}[x] A^T Cov [ A x + b ] = A Cov [ x ] A T
두 랜덤 벡터 간의 교차 공분산은 다음과 같이 정의됩니다.
Cov [ x , y ] = E [ ( x − E [ x ] ) ( y − E [ y ] ) T ] \text{Cov}[x, y] = \mathbb{E}[(x - \mathbb{E}[x])(y - \mathbb{E}[y])^T] Cov [ x , y ] = E [ ( x − E [ x ] ) ( y − E [ y ] ) T ]
예를 들어, 두 랜덤 변수 X X X 와 Y Y Y 가 있다고 가정합시다. X X X 의 평균은 μ X = 2 \mu_X = 2 μ X = 2 , Y Y Y 의 평균은 μ Y = 3 \mu_Y = 3 μ Y = 3 입니다. 관측된 데이터는 다음과 같습니다.
먼저, 공분산을 계산해봅시다.
각 변수의 편차를 계산합니다.
X − μ X = [ − 1 , 0 , 1 , 2 , 3 ] X - \mu_X = [-1, 0, 1, 2, 3] X − μ X = [ − 1 , 0 , 1 , 2 , 3 ]
Y − μ Y = [ 1 , 2 , − 1 , 0 , 3 ] Y - \mu_Y = [1, 2, -1, 0, 3] Y − μ Y = [ 1 , 2 , − 1 , 0 , 3 ]
공분산을 계산합니다.
Cov [ X , Y ] = 1 N ∑ i = 1 N ( X i − μ X ) ( Y i − μ Y ) = ( − 1 ) ( 1 ) + 0 ( 2 ) + 1 ( − 1 ) + 2 ( 0 ) + 3 ( 3 ) 5 = − 1 + 0 − 1 + 0 + 9 5 = 7 5 = 1.4 \text{Cov}[X, Y] = \frac{1}{N}\sum_{i=1}^{N} (X_i - \mu_X)(Y_i - \mu_Y) = \frac{(-1)(1) + 0(2) + 1(-1) + 2(0) + 3(3)}{5} = \frac{-1 + 0 - 1 + 0 + 9}{5} = \frac{7}{5} = 1.4 Cov [ X , Y ] = N 1 i = 1 ∑ N ( X i − μ X ) ( Y i − μ Y ) = 5 ( − 1 ) ( 1 ) + 0 ( 2 ) + 1 ( − 1 ) + 2 ( 0 ) + 3 ( 3 ) = 5 − 1 + 0 − 1 + 0 + 9 = 5 7 = 1 . 4
따라서, 공분산 행렬은 다음과 같습니다.
Σ = ( Cov [ X , X ] Cov [ X , Y ] Cov [ Y , X ] Cov [ Y , Y ] ) = ( Var [ X ] 1.4 1.4 Var [ Y ] ) \Sigma = \begin{pmatrix} \text{Cov}[X, X] & \text{Cov}[X, Y] \\ \text{Cov}[Y, X] & \text{Cov}[Y, Y] \end{pmatrix} = \begin{pmatrix} \text{Var}[X] & 1.4 \\ 1.4 & \text{Var}[Y] \end{pmatrix} Σ = ( Cov [ X , X ] Cov [ Y , X ] Cov [ X , Y ] Cov [ Y , Y ] ) = ( Var [ X ] 1 . 4 1 . 4 Var [ Y ] )
여기서 Var [ X ] \text{Var}[X] Var [ X ] 와 Var [ Y ] \text{Var}[Y] Var [ Y ] 는 각각 다음과 같이 계산됩니다.
Var [ X ] = ( − 1 ) 2 + 0 2 + 1 2 + 2 2 + 3 2 5 = 1 + 0 + 1 + 4 + 9 5 = 15 5 = 3 \text{Var}[X] = \frac{(-1)^2 + 0^2 + 1^2 + 2^2 + 3^2}{5} = \frac{1 + 0 + 1 + 4 + 9}{5} = \frac{15}{5} = 3 Var [ X ] = 5 ( − 1 ) 2 + 0 2 + 1 2 + 2 2 + 3 2 = 5 1 + 0 + 1 + 4 + 9 = 5 1 5 = 3
Var [ Y ] = 1 2 + 2 2 + ( − 1 ) 2 + 0 2 + 3 2 5 = 1 + 4 + 1 + 0 + 9 5 = 15 5 = 3 \text{Var}[Y] = \frac{1^2 + 2^2 + (-1)^2 + 0^2 + 3^2}{5} = \frac{1 + 4 + 1 + 0 + 9}{5} = \frac{15}{5} = 3 Var [ Y ] = 5 1 2 + 2 2 + ( − 1 ) 2 + 0 2 + 3 2 = 5 1 + 4 + 1 + 0 + 9 = 5 1 5 = 3
따라서, 공분산 행렬은.
Σ = ( 3 1.4 1.4 3 ) \Sigma = \begin{pmatrix} 3 & 1.4 \\ 1.4 & 3 \end{pmatrix} Σ = ( 3 1 . 4 1 . 4 3 )
Correlation(상관관계)
공분산은 음의 무한대에서 양의 무한대까지 가능합니다. 이를 정규화한 것이 correlation입니다. 두 확률 변수 X X X 와 Y Y Y 간의 (피어슨) 상관 계수는 다음과 같이 정의할 수 있습니다.
ρ = corr [ X , Y ] = Cov [ X , Y ] Var [ X ] Var [ Y ] \rho = \text{corr}[X, Y] = \frac{\text{Cov}[X, Y]}{\sqrt{\text{Var}[X] \text{Var}[Y]}} ρ = corr [ X , Y ] = Var [ X ] Var [ Y ] Cov [ X , Y ]
또한, corr [ X , Y ] = 1 \text{corr}[X, Y] = 1 corr [ X , Y ] = 1 인 경우에만 Y = a X + b Y = aX + b Y = a X + b (a > 0 a > 0 a > 0 )입니다. 이는 X X X 와 Y Y Y 간에 선형 관계가 있을 때 성립합니다.
벡터 x x x 의 관련 랜덤 변수들의 상관 행렬은 다음과 같이 주어집니다.
corr ( x ) = ( 1 Cov [ X 1 , X 2 ] σ 1 σ 2 ⋯ Cov [ X 1 , X D ] σ 1 σ D Cov [ X 2 , X 1 ] σ 2 σ 1 1 ⋯ Cov [ X 2 , X D ] σ 2 σ D ⋮ ⋮ ⋱ ⋮ Cov [ X D , X 1 ] σ D σ 1 Cov [ X D , X 2 ] σ D σ 2 ⋯ 1 ) \text{corr}(x) = \begin{pmatrix} 1 & \frac{\text{Cov}[X_1, X_2]}{\sigma_1 \sigma_2} & \cdots & \frac{\text{Cov}[X_1, X_D]}{\sigma_1 \sigma_D} \\ \frac{\text{Cov}[X_2, X_1]}{\sigma_2 \sigma_1} & 1 & \cdots & \frac{\text{Cov}[X_2, X_D]}{\sigma_2 \sigma_D} \\ \vdots & \vdots & \ddots & \vdots \\ \frac{\text{Cov}[X_D, X_1]}{\sigma_D \sigma_1} & \frac{\text{Cov}[X_D, X_2]}{\sigma_D \sigma_2} & \cdots & 1 \end{pmatrix} corr ( x ) = ⎝ ⎜ ⎜ ⎜ ⎜ ⎜ ⎛ 1 σ 2 σ 1 Cov [ X 2 , X 1 ] ⋮ σ D σ 1 Cov [ X D , X 1 ] σ 1 σ 2 Cov [ X 1 , X 2 ] 1 ⋮ σ D σ 2 Cov [ X D , X 2 ] ⋯ ⋯ ⋱ ⋯ σ 1 σ D Cov [ X 1 , X D ] σ 2 σ D Cov [ X 2 , X D ] ⋮ 1 ⎠ ⎟ ⎟ ⎟ ⎟ ⎟ ⎞
이는 보다 간결하게 다음과 같이 쓸 수 있습니다.
corr ( x ) = ( diag ( Σ x x ) ) − 1 2 Σ x x ( diag ( Σ x x ) ) − 1 2 \text{corr}(x) = \left(\text{diag}(\Sigma_{xx})\right)^{-\frac{1}{2}} \Sigma_{xx} \left(\text{diag}(\Sigma_{xx})\right)^{-\frac{1}{2}} corr ( x ) = ( diag ( Σ x x ) ) − 2 1 Σ x x ( diag ( Σ x x ) ) − 2 1
Correlation은 독립성이나 인과 관계를 나타내지 않습니다. 이에 관해서는 반례를 들어 해결하는 것이 일반적입니다. 반대로 독립일 경우 Covariance나 correlation은 0입니다. 그 역은 일반적으로 성립하지 않는다는 점을 조심해야 합니다.
Multivariate Gaussian Distribution
Mahalanobis distance
Multivariate Gaussian pdf의 기하학적 형태를 고려해볼 수 있습니다.
특정 점 y y y 에서의 로그 확률은 다음과 같이 주어집니다.
log p ( y ∣ μ , Σ ) = − 1 2 ( y − μ ) T Σ − 1 ( y − μ ) + const \log p(y|\mu, \Sigma) = -\frac{1}{2}(y - \mu)^T \Sigma^{-1} (y - \mu) + \text{const} log p ( y ∣ μ , Σ ) = − 2 1 ( y − μ ) T Σ − 1 ( y − μ ) + const
y y y 와 μ \mu μ 의 차이에 대한 Mahalanobis distance Δ \Delta Δ 의 제곱은 다음과 같이 정의됩니다.
Δ 2 = ( y − μ ) T Σ − 1 ( y − μ ) \Delta^2 = (y - \mu)^T \Sigma^{-1} (y - \mu) Δ 2 = ( y − μ ) T Σ − 1 ( y − μ )
따라서 일정한 (로그) 확률의 등고선은 일정한 Mahalanobis distance의 등고선과 동일합니다.
Mahalanobis distance의 일정한 등고선의 기하학적 형태에 대한 통찰을 얻기 위해, Σ \Sigma Σ 와 정밀 행렬 Λ = Σ − 1 \Lambda = \Sigma^{-1} Λ = Σ − 1 가 모두 양의 정부호 행렬임을 활용합니다. Σ \Sigma Σ 의 eigendecomposition(고윳값 분해)는 다음과 같습니다.
Σ = U Λ U T \Sigma = U \Lambda U^T Σ = U Λ U T
여기서 U U U 는 고유 벡터 행렬(eigenvector matrix)이고, Λ \Lambda Λ 는 고유값 대각 행렬(eigenvalue diagonal matrix)입니다. 새로운 좌표계 z = U T ( y − μ ) z = U^T (y - \mu) z = U T ( y − μ ) 를 정의하면, Mahalanobis distance는 다음과 같이 표현될 수 있습니다.
Δ 2 = z T Λ z = ∑ d = 1 D λ d z d 2 \Delta^2 = z^T \Lambda z = \sum_{d=1}^{D} \lambda_d z_d^2 Δ 2 = z T Λ z = d = 1 ∑ D λ d z d 2
이는 Mahalanobis distance를 새로운 좌표계 z z z 에서의 유클리드 거리로 해석할 수 있음을 의미하며, 이 때 z z z 는 U U U 로 y y y 를 회전시키고 Λ \Lambda Λ 로 스케일링한 결과입니다.
Multivariate Gaussian의 marginal, conditional distribution
만약 y = ( y 1 , y 2 ) y = (y_1, y_2) y = ( y 1 , y 2 ) 가 다음과 같이 joint gaussian distribution를 따른다면.
y ∼ N ( ( μ 1 μ 2 ) , ( Σ 11 Σ 12 Σ 21 Σ 22 ) ) y \sim \mathcal{N}\left(\begin{pmatrix}\mu_1 \\ \mu_2\end{pmatrix}, \begin{pmatrix}\Sigma_{11} & \Sigma_{12} \\ \Sigma_{21} & \Sigma_{22}\end{pmatrix}\right) y ∼ N ( ( μ 1 μ 2 ) , ( Σ 1 1 Σ 2 1 Σ 1 2 Σ 2 2 ) )
그 주변 분포는 다음과 같이 주어집니다.
p ( y 1 ) = N ( y 1 ∣ μ 1 , Σ 11 ) p(y_1) = \mathcal{N}(y_1 | \mu_1, \Sigma_{11}) p ( y 1 ) = N ( y 1 ∣ μ 1 , Σ 1 1 )
p ( y 2 ) = N ( y 2 ∣ μ 2 , Σ 22 ) p(y_2) = \mathcal{N}(y_2 | \mu_2, \Sigma_{22}) p ( y 2 ) = N ( y 2 ∣ μ 2 , Σ 2 2 )
그리고 posterior conditional distribution은은 다음과 같이 주어집니다.
p ( y 1 ∣ y 2 ) = N ( y 1 ∣ μ 1 + Σ 12 Σ 22 ( y 2 − μ 2 ) , Σ 11 − Σ 12 2 Σ 22 ) p(y_1 | y_2) = \mathcal{N}\left(y_1 \Big| \mu_1 + \frac{\Sigma_{12}}{\Sigma_{22}} (y_2 - \mu_2), \Sigma_{11} - \frac{\Sigma_{12}^2}{\Sigma_{22}}\right) p ( y 1 ∣ y 2 ) = N ( y 1 ∣ ∣ ∣ ∣ μ 1 + Σ 2 2 Σ 1 2 ( y 2 − μ 2 ) , Σ 1 1 − Σ 2 2 Σ 1 2 2 )
Linear Gaussian System
Bayes' Theorem for Gaussian
잠재 변수에 대한 사후 분포는 다음과 같이 주어집니다.
p ( z ∣ y ) = N ( z ∣ μ z ∣ y , Σ z ∣ y ) p(z | y) = \mathcal{N}(z | \mu_{z|y}, \Sigma_{z|y}) p ( z ∣ y ) = N ( z ∣ μ z ∣ y , Σ z ∣ y )
Σ z ∣ y − 1 = Σ z − 1 + W T Σ y − 1 W \Sigma_{z|y}^{-1} = \Sigma^{-1}_z + W^T \Sigma^{-1}_y W Σ z ∣ y − 1 = Σ z − 1 + W T Σ y − 1 W
μ z ∣ y = Σ z ∣ y [ W T Σ y − 1 ( y − b ) + Σ z − 1 μ z ] \mu_{z|y} = \Sigma_{z|y} \left[ W^T \Sigma^{-1}_y (y - b) + \Sigma^{-1}_z \mu_z \right] μ z ∣ y = Σ z ∣ y [ W T Σ y − 1 ( y − b ) + Σ z − 1 μ z ]
이는 가우시안에 대한 베이즈 정리(Bayes' Rule for Gaussians)로 알려져 있습니다. 또한, 사후 분포의 정규화 상수는 다음과 같이 주어집니다.
p ( y ) = ∫ N ( z ∣ μ , Σ ) N ( y ∣ W z + b , Σ y ) d z = N ( y ∣ W μ + b , Σ y + W Σ W T ) p(y) = \int \mathcal{N}(z | \mu, \Sigma) \mathcal{N}(y | Wz + b, \Sigma_y) dz = \mathcal{N}(y | W\mu + b, \Sigma_y + W \Sigma W^T) p ( y ) = ∫ N ( z ∣ μ , Σ ) N ( y ∣ W z + b , Σ y ) d z = N ( y ∣ W μ + b , Σ y + W Σ W T )
gaussian prior p ( z ) p(z) p ( z ) 와 gaussian likelihood p ( y ∣ z ) p(y|z) p ( y ∣ z ) 가 결합될 때 사후 분포 p ( z ∣ y ) p(z|y) p ( z ∣ y ) 가 또 다른 가우시안 분포가 됨을 볼 수 있습니다. 따라서 가우시안은 bayesian 조건부 연산에 대해 닫혀 있습니다. 이를 더 일반적으로 설명하기 위해, 가우시안 사전 분포는 가우시안 우도의 켤레 사전 분포(Conjugate Prior)라고 합니다.
Derivation of conditional mena and covariance
conditional mean, covariance를 유도할 수 있습니다. 기본 아이디어는 joint distribution p ( z , y ) = p ( z ) p ( y ∣ z ) p(z, y) = p(z)p(y|z) p ( z , y ) = p ( z ) p ( y ∣ z ) 를 유도한 다음 p ( z ∣ y ) p(z|y) p ( z ∣ y ) 를 계산하는 것입니다.
자세히 설명하면, 다음과 같이 진행됩니다. joint distribution의 로그는 다음과 같습니다.
log p ( z , y ) = − 1 2 ( z − μ ) T Σ z − 1 ( z − μ ) − 1 2 ( y − W z − b ) T Σ y − 1 ( y − W z − b ) \log p(z, y) = -\frac{1}{2}(z - \mu)^T \Sigma^{-1}_z (z - \mu) - \frac{1}{2}(y - Wz - b)^T \Sigma^{-1}_y (y - Wz - b) log p ( z , y ) = − 2 1 ( z − μ ) T Σ z − 1 ( z − μ ) − 2 1 ( y − W z − b ) T Σ y − 1 ( y − W z − b )
이는 분포가 이차 형식의 지수 함수이므로 joint gaussian distribution임을 나타냅니다. z z z 와 y y y 를 포함하는 이차 항을 확장하고, 선형 및 상수 항을 무시하면 다음과 같습니다.
Q = − 1 2 z T Σ z − 1 z − 1 2 ( y − W z − b ) T Σ y − 1 ( y − W z − b ) Q = -\frac{1}{2} z^T \Sigma^{-1}_z z - \frac{1}{2} (y - Wz - b)^T \Sigma^{-1}_y (y - Wz - b) Q = − 2 1 z T Σ z − 1 z − 2 1 ( y − W z − b ) T Σ y − 1 ( y − W z − b )
이를 추가적으로 정리하면
Cov − 1 = Σ − 1 + W T Σ y − 1 W = Λ = ( Λ z z Λ z y Λ y z Λ y y ) \text{Cov}^{-1} = \Sigma^{-1} + W^T \Sigma^{-1}_y W = \Lambda = \begin{pmatrix} \Lambda_{zz} & \Lambda_{zy} \\ \Lambda_{yz} & \Lambda_{yy} \end{pmatrix} Cov − 1 = Σ − 1 + W T Σ y − 1 W = Λ = ( Λ z z Λ y z Λ z y Λ y y )
μ z ∣ y = Σ z ∣ y [ W T Σ y − 1 ( y − b ) + Σ z − 1 μ z ] \mu_{z|y} = \Sigma_{z|y} [W^T \Sigma^{-1}_y (y - b) + \Sigma^{-1}_z \mu_z] μ z ∣ y = Σ z ∣ y [ W T Σ y − 1 ( y − b ) + Σ z − 1 μ z ]
= Σ z ∣ y [ W T Σ y − 1 ( y − b ) ] = \Sigma_{z|y} [W^T \Sigma^{-1}_y (y - b)] = Σ z ∣ y [ W T Σ y − 1 ( y − b ) ]
= Σ z ∣ y Σ z − 1 μ z + Σ z ∣ y W T Σ y − 1 ( y − b ) = \Sigma_{z|y} \Sigma^{-1}_z \mu_z + \Sigma_{z|y} W^T \Sigma^{-1}_y (y - b) = Σ z ∣ y Σ z − 1 μ z + Σ z ∣ y W T Σ y − 1 ( y − b )
= Σ z ∣ y ( W T Σ y − 1 y + Σ z − 1 μ z − W T Σ y − 1 b ) = \Sigma_{z|y} (W^T \Sigma^{-1}_y y + \Sigma^{-1}_z \mu_z - W^T \Sigma^{-1}_y b) = Σ z ∣ y ( W T Σ y − 1 y + Σ z − 1 μ z − W T Σ y − 1 b )
만약 유도를 해야한다면 상수 항에 대한 처리나 그 결과가 여전히 gaussian임을 보이는 추가적인 작업은 필요할 것 같습니다.
Completing the Square
gaussian을 다룰 때, 제곱 완성(Completing the Square)이라는 대수적 트릭을 사용하는 것이 일반적입니다.
스칼라의 경우, 다음과 같이 쓸 수 있습니다.
f ( x ) = a x 2 + b x + c = a ( x − h ) 2 + k f(x) = ax^2 + bx + c = a(x - h)^2 + k f ( x ) = a x 2 + b x + c = a ( x − h ) 2 + k
h = − b 2 a h = -\frac{b}{2a} h = − 2 a b
k = c − b 2 4 a k = c - \frac{b^2}{4a} k = c − 4 a b 2
벡터의 경우, 다음과 같이 쓸 수 있습니다.
f ( x ) = x T A x + x T b + c = ( x − h ) T A ( x − h ) + k f(x) = x^T A x + x^T b + c = (x - h)^T A (x - h) + k f ( x ) = x T A x + x T b + c = ( x − h ) T A ( x − h ) + k
h = − 1 2 A − 1 b h = -\frac{1}{2} A^{-1} b h = − 2 1 A − 1 b
k = c − 1 4 b T A − 1 b k = c - \frac{1}{4} b^T A^{-1} b k = c − 4 1 b T A − 1 b
즉, 여러 gaussian의 조합 과정에서 그 결과가 gaussian임이 보장되면 그때의 mean과 covariance는 쉽게 알아낼 수 있습니다.
exponent 쪽에 있는 상수는 쉽게 빼내어 정규화를 위한 것으로 간주할 수 있기 때문입니다.
Multivariate distribution과 Multivariate Gaussian에 대해 알아봤습니다. Multivariate Gaussian의 경우, joint, conditional일 때의 distribution과 mean, covariance는 자주 쓰이는 느낌입니다. 이를 활용한 응용(e.g., Kalman filter)도 많고, 특히 여러 gaussian을 조합해서 그 결과가 여전히 gaussian임과 그때의 mean, covariance가 어떻게 되는지 유도해보는 것도 좋을 듯 합니다.