(6-1) 머신러닝 기초 - 가우시안 분포

Yongjoo Lee·2021년 1월 11일

gaussian distribution machine learning probability distribution

Programmers 인공지능 데브코스

목록 보기

24/33

가우시안 분포

가우시안 분포 (Gaussian Distribution)

가우시안 분포가 일어나는 여러가지 상황
- 정보이론에서 엔트로피를 최대화시키는 확률분포
- 중심극한 정리
  - 동일한 확률변수 N개가 있을 때, N이 커질수록 가우시안 분포에 가까워짐
    
    ![https://velog.velcdn.com/images%2Fleeyongjoo%2Fpost%2F816b52f2-e214-4ce5-afb5-d85439448e8a%2Fimage.png%5D(https%3A%2F%2Fimages.velog.io%2Fimages%2Fleeyongjoo%2Fpost%2F816b52f2-e214-4ce5-afb5-d85439448e8a%2Fimage.png)
단일변수 $x$

![https://velog.velcdn.com/images%2Fleeyongjoo%2Fpost%2F9c7d7ece-6b00-4fdb-9855-0677a785df86%2Fimage.png%5D(https%3A%2F%2Fimages.velog.io%2Fimages%2Fleeyongjoo%2Fpost%2F9c7d7ece-6b00-4fdb-9855-0677a785df86%2Fimage.png)
$D$ 차원 벡터 $\bold x$

![https://velog.velcdn.com/images%2Fleeyongjoo%2Fpost%2F0754d752-5261-4dbd-a36a-d3e206460f92%2Fimage.png%5D(https%3A%2F%2Fimages.velog.io%2Fimages%2Fleeyongjoo%2Fpost%2F0754d752-5261-4dbd-a36a-d3e206460f92%2Fimage.png)

💡 여기서 $\mu$ 는 $D$ 차원의 평균 벡터 $\Sigma$ (sigma)는 $D \times D$ 크기를 가지는 공분산 행렬이다.

중요한 것은 $\mu$ 와 $\Sigma$ 가 평균과 공분산으로 주어진 것이 아니고, 이것들이 파라미터로 주어진 확률밀도함수의 평균과 공분산이 $\mu$ 와 $\Sigma$ 가 된다는 것이다.

가우시안 분포의 가하학적인 형태

$\bold x$ 에 대한 함수적 종속성은 지수부에 등장하는 이차형식(quadratic form)에 있다.

![https://velog.velcdn.com/images%2Fleeyongjoo%2Fpost%2F2fb07ab0-f1c3-4650-99dc-9b5a53f954ac%2Fimage.png%5D(https%3A%2F%2Fimages.velog.io%2Fimages%2Fleeyongjoo%2Fpost%2F2fb07ab0-f1c3-4650-99dc-9b5a53f954ac%2Fimage.png)
$\sum$ 가 공분산으로 주어진 것이 아니기 때문에 처음부터 이 행렬이 대칭이라고 생각할 필요는 없다.

💡하지만 이차형식에 나타나는 행렬은 오직 대칭부분만이 그 값에 기여한다는 사실을 기억할 것!

👉 $\sum$ 는 대칭행렬인 것으로 간주

대칭행렬의 성질에 따라서 $\sum$ 를 다음과 같이 나타낼 수 있다.

![https://velog.velcdn.com/images%2Fleeyongjoo%2Fpost%2F8bbbb5a4-02e6-4f77-ab24-0c3df86e6a3d%2Fimage.png%5D(https%3A%2F%2Fimages.velog.io%2Fimages%2Fleeyongjoo%2Fpost%2F8bbbb5a4-02e6-4f77-ab24-0c3df86e6a3d%2Fimage.png)

이차형식은 다음과 같이 표현될 수 있다.

![https://velog.velcdn.com/images%2Fleeyongjoo%2Fpost%2Fd909bdc2-904f-40b9-bf57-3eb22e6c8485%2Fimage.png%5D(https%3A%2F%2Fimages.velog.io%2Fimages%2Fleeyongjoo%2Fpost%2Fd909bdc2-904f-40b9-bf57-3eb22e6c8485%2Fimage.png)

벡터식으로 확장하면

\bold y =U(\bold x-\bold\mu)

$\bold y$ 를 벡터들 $\bold\mu_i$ 에 의해 정의된 새로운 좌표체계 내의 점으로 해석할 수 있다.
이것을 기저변환(change of basis)이라고 한다.

$\begin{aligned}\bold y&=U(\bold{x-\mu})\\\bold{x-\mu}&=U^{-1}\bold y\\&=U^T\bold y\\&=\begin{aligned}\begin{bmatrix} \vert & \vert & & \vert\\ a_1 & a_2 & \cdots & _n\\ \vert & \vert & & \vert\end{bmatrix}\end{aligned}\end{aligned}$
- $\bold{x-\mu}$ : standard basis 에서의 좌표
- $\bold y$ : basis $\{\bold u_1, \bold u_2, \dots, \bold u_D\}$ 에서의 좌표
  
  ![https://velog.velcdn.com/images%2Fleeyongjoo%2Fpost%2F30ff3062-5622-4f01-ab53-9b3a23129c78%2Fimage.png%5D(https%3A%2F%2Fimages.velog.io%2Fimages%2Fleeyongjoo%2Fpost%2F30ff3062-5622-4f01-ab53-9b3a23129c78%2Fimage.png)
  
  타원을 이루며, 모양은 $\lambda$ 값에 의해 결정됨

가우시안 분포의 Normalization 증명

확률이론시간에 배운 확률변수의 함수를 복습할 것.

$\bold y$ 의 확률밀도함수를 구하기 위해서 Jacobian $\bold J$ 를 구해야 한다.

\bold J_{ij}=\frac{\partial x_i}{\partial y_j}=U_{ji}=(U^T)_{ij}

\bold J=U^T

|\bold J|^2=|U^T|^2=|U^T||U|=|U^TU|=|\bold I|=1

행렬식 $|\Sigma|$ 는 고유값의 곱으로 나타낼 수 있다.

|\Sigma|^{1/2}=\prod_{j=1}^D\lambda_j^{1/2}

따라서, $\bold y$ 의 확률밀도함수는

![https://velog.velcdn.com/images%2Fleeyongjoo%2Fpost%2Fe3d2df94-cdea-42a9-be75-e7b5a0861697%2Fimage.png%5D(https%3A%2F%2Fimages.velog.io%2Fimages%2Fleeyongjoo%2Fpost%2Fe3d2df94-cdea-42a9-be75-e7b5a0861697%2Fimage.png)

$\bold y$ 의 normalization

![https://velog.velcdn.com/images%2Fleeyongjoo%2Fpost%2F48530e91-1d4f-4e7b-862b-8398a154cdd7%2Fimage.png%5D(https%3A%2F%2Fimages.velog.io%2Fimages%2Fleeyongjoo%2Fpost%2F48530e91-1d4f-4e7b-862b-8398a154cdd7%2Fimage.png)

가우시안 분포의 기댓값

다변량(multivariate) 확률변수의 기댓값

$\bold x=(x_1, x_2,\dots,x_n)^T$
$\mathbb E[\bold x]=(\mathbb E[x_1],\dots, \mathbb E[x_n])^T$
$\mathbb E[x_1]=\int x_1\;p(x_1)\;dx_1$

여기서 $x$ 는 벡터

![https://velog.velcdn.com/images%2Fleeyongjoo%2Fpost%2F13217ecd-95b0-4bf1-9fa3-9828e1d5e47c%2Fimage.png%5D(https%3A%2F%2Fimages.velog.io%2Fimages%2Fleeyongjoo%2Fpost%2F13217ecd-95b0-4bf1-9fa3-9828e1d5e47c%2Fimage.png)

\text{by} \;\bold z=\bold{x-\mu}

z에 관한 식은 결국 0이 된다. 따라서 다음과 같은 식이 성립한다.

![https://velog.velcdn.com/images%2Fleeyongjoo%2Fpost%2F19639405-06d6-4e60-99eb-9a2f8325a023%2Fimage.png%5D(https%3A%2F%2Fimages.velog.io%2Fimages%2Fleeyongjoo%2Fpost%2F19639405-06d6-4e60-99eb-9a2f8325a023%2Fimage.png)

가우시안 분포의 공분산

공분산을 구하기 위해서 먼저 2차 적률(second order moments)을 구한다.

![https://velog.velcdn.com/images%2Fleeyongjoo%2Fpost%2Fcfe22fcb-6b36-47c2-ae28-5ec958f845e4%2Fimage.png%5D(https%3A%2F%2Fimages.velog.io%2Fimages%2Fleeyongjoo%2Fpost%2Fcfe22fcb-6b36-47c2-ae28-5ec958f845e4%2Fimage.png)

![https://velog.velcdn.com/images%2Fleeyongjoo%2Fpost%2Fa7a3f8a0-b4b9-47d9-9a6d-691daf96f0b4%2Fimage.png%5D(https%3A%2F%2Fimages.velog.io%2Fimages%2Fleeyongjoo%2Fpost%2Fa7a3f8a0-b4b9-47d9-9a6d-691daf96f0b4%2Fimage.png)

$\bold z=U^T\bold y$ 로 치환하면

![https://velog.velcdn.com/images%2Fleeyongjoo%2Fpost%2F2c597a49-c286-4be6-a91e-4d1af338841c%2Fimage.png%5D(https%3A%2F%2Fimages.velog.io%2Fimages%2Fleeyongjoo%2Fpost%2F2c597a49-c286-4be6-a91e-4d1af338841c%2Fimage.png)

위의 결과를 이용하면 공분산은 다음과 같다.

![https://velog.velcdn.com/images%2Fleeyongjoo%2Fpost%2F77c71e8f-fa8d-4a32-beb0-59fedcf07551%2Fimage.png%5D(https%3A%2F%2Fimages.velog.io%2Fimages%2Fleeyongjoo%2Fpost%2F77c71e8f-fa8d-4a32-beb0-59fedcf07551%2Fimage.png)

조건부 가우시안 분포 (Conditional Gaussian Distributions)

$D$ 차원의 확률변수 벡터 $\bold x$ 가 가우시안 분포 $N(\bold x|\bold \mu, \Sigma)$ 를 따른다고 하자.

$\bold x$ 를 두 그룹의 확률변수들로 나누었을 때, 한 그룹이 주어졌을 때 나머지 그룹의 조건부 확률도 가우시안 분포를 따르고, 각 그룹의 주변확률 또한 가우시안 분포를 따른다는 것을 보이고자 한다.

$\bold x$ 가 다음과 같은 형태를 가진다고 하자.

![https://velog.velcdn.com/images%2Fleeyongjoo%2Fpost%2F7889e6f9-87fa-4d4d-90a4-39879f07a475%2Fimage.png%5D(https%3A%2F%2Fimages.velog.io%2Fimages%2Fleeyongjoo%2Fpost%2F7889e6f9-87fa-4d4d-90a4-39879f07a475%2Fimage.png)

$\bold x_a$ 는 $M$ 개의 원소를 가진다고 하자. 그리고 평균 벡터와 공분산 행렬은 다음과 같이 주어진다고 하자.

![https://velog.velcdn.com/images%2Fleeyongjoo%2Fpost%2Fb5022ebb-7783-4400-9364-55d17792904b%2Fimage.png%5D(https%3A%2F%2Fimages.velog.io%2Fimages%2Fleeyongjoo%2Fpost%2Fb5022ebb-7783-4400-9364-55d17792904b%2Fimage.png)

때로는 공분산의 역행렬, 즉 정확도 행렬(precision matrix)을 사용하는 것이 수식을 간편하게 한다.

![https://velog.velcdn.com/images%2Fleeyongjoo%2Fpost%2Fe37bfdb1-a3f2-445c-b44b-e8d13b14d269%2Fimage.png%5D(https%3A%2F%2Fimages.velog.io%2Fimages%2Fleeyongjoo%2Fpost%2Fe37bfdb1-a3f2-445c-b44b-e8d13b14d269%2Fimage.png)

💡 두 전체 행렬의 관계는 서로 역행렬이 되는 관계 (그러나 각각의 작은 행렬에 대해서는 성립하지 않음)

지수부의 이차형식을 위의 파티션을 사용해서 전개해보면

![https://velog.velcdn.com/images%2Fleeyongjoo%2Fpost%2F2753f3ad-1c92-48d4-8106-3ed01af7a2bf%2Fimage.png%5D(https%3A%2F%2Fimages.velog.io%2Fimages%2Fleeyongjoo%2Fpost%2F2753f3ad-1c92-48d4-8106-3ed01af7a2bf%2Fimage.png)

완전제곱식(Completing the Square) 방법

다음과 같은 조건부 확률을 구하고자 한다.

![https://velog.velcdn.com/images%2Fleeyongjoo%2Fpost%2F429c4782-2261-4efb-b730-872fe11e3b94%2Fimage.png%5D(https%3A%2F%2Fimages.velog.io%2Fimages%2Fleeyongjoo%2Fpost%2F429c4782-2261-4efb-b730-872fe11e3b94%2Fimage.png)

확률밀도함수 $p(\bold x_a, \bold x_b)$ 를 $p(\bold x_a, \bold x_b)=g(\bold x_a)\alpha$ 로 나타낼 수 있다고 하자.

여기서 $\alpha$ 는 $\bold x_a$ 와 독립적이고 $\int g(\bold x_a)d\bold x_a=1$ 이다.

따라서

$\begin{aligned}\int p(\bold x_a, \bold x_b)d\bold x_a &=\int g(\bold x_a)\alpha\;d\bold x_a\\&=\alpha \int g(\bold x_a) \;d\bold x_a\\&=\alpha\end{aligned}$

$\alpha=p(\bold x_b)\\p(\bold x_a, \bold x_b)=g(\bold x_a)p(\bold x_b)\\g(\bold x_a)=p(\bold x_a|\bold x_b)$

위 과정을 통해 함수 $g(\bold x_a)$ 를 찾는 것이 목표!

🔥 가우시안 분포의 지수부는 다음과 같이 전개된다는 것이 중요한 포인트이다.

![https://velog.velcdn.com/images%2Fleeyongjoo%2Fpost%2F58143d52-76c5-4d9a-9cc2-c3f46f0c916a%2Fimage.png%5D(https%3A%2F%2Fimages.velog.io%2Fimages%2Fleeyongjoo%2Fpost%2F58143d52-76c5-4d9a-9cc2-c3f46f0c916a%2Fimage.png)

👉 여기서 상수부 const는 $\bold x$ 와 독립된 항들의 모든 것이다. 따라서 어떤 복잡한 함수라도 지수부를 정리했을 때 위의 형태가 된다면 이 함수는 공분산 행렬 $\Sigma$ 와 평균벡터 $\bold \mu$ 를 가지는 가우시안 분포임을 알 수 있다.

$\bold x$ 에 관한 이차항과 일차항의 계수를 살피면 된다는 것이다.

$\bold x_a$ 의 이차항은

![https://velog.velcdn.com/images%2Fleeyongjoo%2Fpost%2F531f6750-22c7-4495-aca2-b86cf49ea1e6%2Fimage.png%5D(https%3A%2F%2Fimages.velog.io%2Fimages%2Fleeyongjoo%2Fpost%2F531f6750-22c7-4495-aca2-b86cf49ea1e6%2Fimage.png)

따라서 공분산은

![https://velog.velcdn.com/images%2Fleeyongjoo%2Fpost%2F85f026be-9354-47c2-8abc-13422414d0f1%2Fimage.png%5D(https%3A%2F%2Fimages.velog.io%2Fimages%2Fleeyongjoo%2Fpost%2F85f026be-9354-47c2-8abc-13422414d0f1%2Fimage.png)

이제 평균벡터를 구하기 위해서는 $\bold x_a$ 의 일차항을 정리하면 된다.

$\bold x_a$ 의 일차항은

![https://velog.velcdn.com/images%2Fleeyongjoo%2Fpost%2F21dbbc05-e5eb-4dcd-af29-638851450090%2Fimage.png%5D(https%3A%2F%2Fimages.velog.io%2Fimages%2Fleeyongjoo%2Fpost%2F21dbbc05-e5eb-4dcd-af29-638851450090%2Fimage.png)

$\bold x_a$ 의 일차항의 계수는 $\Sigma_{a|b}^{-1}\mu_{a|b}$ 이어야 하므로 $\Sigma_{a|b}$ 를 곱하면

![https://velog.velcdn.com/images%2Fleeyongjoo%2Fpost%2Fc547d57b-c4c8-41ff-ac77-f3c5139988e1%2Fimage.png%5D(https%3A%2F%2Fimages.velog.io%2Fimages%2Fleeyongjoo%2Fpost%2Fc547d57b-c4c8-41ff-ac77-f3c5139988e1%2Fimage.png)

주변 가우시안 분포 (Marginal Gaussian Distributions)

다음과 같은 주변분포를 계산하고자 한다.

![https://velog.velcdn.com/images%2Fleeyongjoo%2Fpost%2F702c7972-849d-4b4c-8667-2bea5eb25db8%2Fimage.png%5D(https%3A%2F%2Fimages.velog.io%2Fimages%2Fleeyongjoo%2Fpost%2F702c7972-849d-4b4c-8667-2bea5eb25db8%2Fimage.png)

아래와 같이 $f(\bold x_b, \bold x_a)$ 를 완전제곱식으로 만든다.

![https://velog.velcdn.com/images%2Fleeyongjoo%2Fpost%2F1d9850f3-1439-444e-aa73-15e9163a9ba2%2Fimage.png%5D(https%3A%2F%2Fimages.velog.io%2Fimages%2Fleeyongjoo%2Fpost%2F1d9850f3-1439-444e-aa73-15e9163a9ba2%2Fimage.png)

![https://velog.velcdn.com/images%2Fleeyongjoo%2Fpost%2F906bbdf0-a4de-46de-8e96-5c26656f9c9f%2Fimage.png%5D(https%3A%2F%2Fimages.velog.io%2Fimages%2Fleeyongjoo%2Fpost%2F906bbdf0-a4de-46de-8e96-5c26656f9c9f%2Fimage.png)

![https://velog.velcdn.com/images%2Fleeyongjoo%2Fpost%2F4dfe0174-f36a-4e4e-8659-595b48d16af4%2Fimage.png%5D(https%3A%2F%2Fimages.velog.io%2Fimages%2Fleeyongjoo%2Fpost%2F4dfe0174-f36a-4e4e-8659-595b48d16af4%2Fimage.png)

👉 이 값은 공분산 $\Lambda_{bb}$ 에만 종속되고 $\bold x_a$ 에 독립적이므로 $\alpha\beta \text{exp}\{\tau+g(\bold x_a)+\text{const}\}$ 의 지수부에만 집중하면 된다.

마지막으로 $\tau+g(\bold x_a)+\text{const}$ 를 살펴보자.

![https://velog.velcdn.com/images%2Fleeyongjoo%2Fpost%2F254e2cfc-5efb-47d7-87fd-f08e2d9cd93c%2Fimage.png%5D(https%3A%2F%2Fimages.velog.io%2Fimages%2Fleeyongjoo%2Fpost%2F254e2cfc-5efb-47d7-87fd-f08e2d9cd93c%2Fimage.png)

따라서 공분산은

![https://velog.velcdn.com/images%2Fleeyongjoo%2Fpost%2F07f1ec49-ca08-4f85-af60-bf69a8297e2b%2Fimage.png%5D(https%3A%2F%2Fimages.velog.io%2Fimages%2Fleeyongjoo%2Fpost%2F07f1ec49-ca08-4f85-af60-bf69a8297e2b%2Fimage.png)

평균벡터는

![https://velog.velcdn.com/images%2Fleeyongjoo%2Fpost%2F315c4544-c1fa-4ff8-9ac4-b16e8bfaaab9%2Fimage.png%5D(https%3A%2F%2Fimages.velog.io%2Fimages%2Fleeyongjoo%2Fpost%2F315c4544-c1fa-4ff8-9ac4-b16e8bfaaab9%2Fimage.png)

공분산의 형태가 복잡하게 보이지만 Schur complement(슐러 보수)를 사용하면

![https://velog.velcdn.com/images%2Fleeyongjoo%2Fpost%2F7c3996fd-37d6-48f8-a23c-d9634558ec57%2Fimage.png%5D(https%3A%2F%2Fimages.velog.io%2Fimages%2Fleeyongjoo%2Fpost%2F7c3996fd-37d6-48f8-a23c-d9634558ec57%2Fimage.png)

👉 정리하면

$\mathbb E[\bold x_a]=\bold\mu_a$
$\text{cov}[\bold x_a]=\Sigma_{aa}$

가우시안 분포를 위한 베이즈 정리 (Bayes' Theorem for Gaussian Variables)

$p(\bold x)$ 와 $p(\bold y|\bold x)$ 가 주어져 있고 $p(\bold y|\bold x)$ 의 평균은 $\bold x$ 의 선형함수이고 공분산은 $\bold x$ 와 독립적이라고 하자.

이제 $p(\bold y)$ 와 $p(\bold x|\bold y)$ 를 구할 것이다.

(이 결과는 다음 시간에 배울 선형회귀(베이시안)의 주요 내용을 유도하는 데 유용하게 쓰일 것이다.)

$p(\bold x)$ 와 $p(\bold y|\bold x)$ 가 다음과 같이 주어진다고 하자.

![https://velog.velcdn.com/images%2Fleeyongjoo%2Fpost%2F570ef642-af69-4a31-ba2c-f396751a49a7%2Fimage.png%5D(https%3A%2F%2Fimages.velog.io%2Fimages%2Fleeyongjoo%2Fpost%2F570ef642-af69-4a31-ba2c-f396751a49a7%2Fimage.png)

먼저 $\bold z=\begin{bmatrix}\bold x\\\bold y\end{bmatrix}$ 를 위한 결합확률분포를 구하자.

이 결합확률분포를 구하고 나면 $p(\bold y)$ 와 $p(\bold x|\bold y)$ 는 앞에서 얻은 결과에 의해 쉽게 유도할 수 있다.

먼저 로그값을 생각해보자.

![https://velog.velcdn.com/images%2Fleeyongjoo%2Fpost%2F288c0261-b80e-41e8-9e13-e38875a2f4ed%2Fimage.png%5D(https%3A%2F%2Fimages.velog.io%2Fimages%2Fleeyongjoo%2Fpost%2F288c0261-b80e-41e8-9e13-e38875a2f4ed%2Fimage.png)

$\bold z$ 의 이차항은 다음과 같다.

![https://velog.velcdn.com/images%2Fleeyongjoo%2Fpost%2F50b80ab7-1a7e-4fde-8a56-c356a0aac131%2Fimage.png%5D(https%3A%2F%2Fimages.velog.io%2Fimages%2Fleeyongjoo%2Fpost%2F50b80ab7-1a7e-4fde-8a56-c356a0aac131%2Fimage.png)

![https://velog.velcdn.com/images%2Fleeyongjoo%2Fpost%2F24153286-98da-4182-837f-5a700b54289c%2Fimage.png%5D(https%3A%2F%2Fimages.velog.io%2Fimages%2Fleeyongjoo%2Fpost%2F24153286-98da-4182-837f-5a700b54289c%2Fimage.png)

따라서 공분산은 다음과 같다.

![https://velog.velcdn.com/images%2Fleeyongjoo%2Fpost%2Fc795c9e5-8622-419e-8bb7-4d1c727b969c%2Fimage.png%5D(https%3A%2F%2Fimages.velog.io%2Fimages%2Fleeyongjoo%2Fpost%2Fc795c9e5-8622-419e-8bb7-4d1c727b969c%2Fimage.png)

평균벡터를 찾기 위해서 $\bold z$ 의 1차항을 정리한다.

![https://velog.velcdn.com/images%2Fleeyongjoo%2Fpost%2Faed6d47f-90b6-403f-b7f7-e25357f86b87%2Fimage.png%5D(https%3A%2F%2Fimages.velog.io%2Fimages%2Fleeyongjoo%2Fpost%2Faed6d47f-90b6-403f-b7f7-e25357f86b87%2Fimage.png)

따라서 평균벡터는

![https://velog.velcdn.com/images%2Fleeyongjoo%2Fpost%2F9a5ef67e-406c-409f-abbb-cb9e49c1cdb5%2Fimage.png%5D(https%3A%2F%2Fimages.velog.io%2Fimages%2Fleeyongjoo%2Fpost%2F9a5ef67e-406c-409f-abbb-cb9e49c1cdb5%2Fimage.png)

![https://velog.velcdn.com/images%2Fleeyongjoo%2Fpost%2F2657b154-a1ca-45a8-a284-cc3ba2d41255%2Fimage.png%5D(https%3A%2F%2Fimages.velog.io%2Fimages%2Fleeyongjoo%2Fpost%2F2657b154-a1ca-45a8-a284-cc3ba2d41255%2Fimage.png)

$\bold y$ 를 위한 주변확률분포의 평균과 공분산은 앞의 "주변 가우시안 분포" 결과를 적용하면 쉽게 구할 수 있다.

![https://velog.velcdn.com/images%2Fleeyongjoo%2Fpost%2Fe29ce002-c80b-408e-ba54-4eac59c979c4%2Fimage.png%5D(https%3A%2F%2Fimages.velog.io%2Fimages%2Fleeyongjoo%2Fpost%2Fe29ce002-c80b-408e-ba54-4eac59c979c4%2Fimage.png)

마찬가지로 조건부 확률 $p(\bold x|\bold y)$ 의 평균과 공분산은 "조건부 가우시안 분포" 결과를 적용해 유도할 수 있다.

![https://velog.velcdn.com/images%2Fleeyongjoo%2Fpost%2F3f51906c-2751-4c1a-99cc-43b1fb10c53c%2Fimage.png%5D(https%3A%2F%2Fimages.velog.io%2Fimages%2Fleeyongjoo%2Fpost%2F3f51906c-2751-4c1a-99cc-43b1fb10c53c%2Fimage.png)

주어진 x에 대한 주변 가우스 분포와 폼에서 주어진 x에 대한 조건부 가우스 분포

가우시안 분포의 최대우도 (Maximum Likelihood for the Gaussian)

가우시안 분포에 의해 생성된 데이터 $\bold X = (\bold x_1, \dots, \bold x_n)^T$ 가 주어졌을 때,

우도를 최대화하는 파라미터 값들(평균, 공분산)을 찾는 것이 목표라고 하자.

로그우도 함수는 다음과 같다.

![https://velog.velcdn.com/images%2Fleeyongjoo%2Fpost%2F59f35bc4-fd8d-46cd-a005-a7b2fdddbdfb%2Fimage.png%5D(https%3A%2F%2Fimages.velog.io%2Fimages%2Fleeyongjoo%2Fpost%2F59f35bc4-fd8d-46cd-a005-a7b2fdddbdfb%2Fimage.png)

먼저 우도를 최대화하는 평균벡터 $\bold\mu_{ML}$ 을 찾아보자.

$\bold y=\bold{(x-\mu)}$ 라고 하면 다음의 식이 유도된다.

![https://velog.velcdn.com/images%2Fleeyongjoo%2Fpost%2Fef0be721-f40b-4672-b062-b3e099969ca3%2Fimage.png%5D(https%3A%2F%2Fimages.velog.io%2Fimages%2Fleeyongjoo%2Fpost%2Fef0be721-f40b-4672-b062-b3e099969ca3%2Fimage.png)

![https://velog.velcdn.com/images%2Fleeyongjoo%2Fpost%2F32b2d9ad-a58b-44d4-bcbb-cccbdaf3d0bd%2Fimage.png%5D(https%3A%2F%2Fimages.velog.io%2Fimages%2Fleeyongjoo%2Fpost%2F32b2d9ad-a58b-44d4-bcbb-cccbdaf3d0bd%2Fimage.png)

다음으로 우도를 최대화하는 공분산행렬 $\Sigma_{ML}$ 은 다음과 같다.

![https://velog.velcdn.com/images%2Fleeyongjoo%2Fpost%2F22bc796c-a0c3-4789-8fdb-f9841c10a47b%2Fimage.png%5D(https%3A%2F%2Fimages.velog.io%2Fimages%2Fleeyongjoo%2Fpost%2F22bc796c-a0c3-4789-8fdb-f9841c10a47b%2Fimage.png)

📌 위의 식 유도를 위해 아래의 기본적인 선형대수 결과를 사용

$|A^{-1}|=1/|A|$
$\bold x^TA\bold x=\text{tr}(\bold x^TA\bold x)=\text{tr}(\bold x \bold x^TA)$
$\text{tr}(A)+\text{tr}(B)=\text{tr}(A+B)$
$\frac{\partial}{\partial A}\text{tr}(BA)=B^T$
$\frac{\partial}{\partial A}\ln|A|=(A^{-1})^T$

가우시안 분포를 위한 베이시안 추론 (Bayesian Inference for the Gaussian)

MLE 방법은 파라미터들( $\bold \mu$ , $\Sigma$ )의 하나의 값만을 구하게 해준다.

베이시안 방법을 사용하면 파라미터의 확률분포 자체를 구할수 있게 된다.

단변량 가우시안 확률변수 $x$ 의 $\mu$ 를 베이시안 추론을 통해 구해보자(분산 $\sigma^2$ 는 주어졌다고 가정)

목표는 $\mu$ 의 사후확률 $p(\mu|\bold X)$ 을 우도함수 $p(\bold X|\mu)$ 와 사전확률 $p(\mu)$ 을 통해 구하는 것이다.

우도함수

![https://velog.velcdn.com/images%2Fleeyongjoo%2Fpost%2F8b65d33d-2b42-4c59-aed7-5e895b99fe07%2Fimage.png%5D(https%3A%2F%2Fimages.velog.io%2Fimages%2Fleeyongjoo%2Fpost%2F8b65d33d-2b42-4c59-aed7-5e895b99fe07%2Fimage.png)

사전확률

![https://velog.velcdn.com/images%2Fleeyongjoo%2Fpost%2F7213f065-0930-417b-bbc7-c1a1353e89a3%2Fimage.png%5D(https%3A%2F%2Fimages.velog.io%2Fimages%2Fleeyongjoo%2Fpost%2F7213f065-0930-417b-bbc7-c1a1353e89a3%2Fimage.png)

사후확률

![https://velog.velcdn.com/images%2Fleeyongjoo%2Fpost%2F691ac987-6857-4cb3-94a9-b3ab2ac2090b%2Fimage.png%5D(https%3A%2F%2Fimages.velog.io%2Fimages%2Fleeyongjoo%2Fpost%2F691ac987-6857-4cb3-94a9-b3ab2ac2090b%2Fimage.png)

![https://velog.velcdn.com/images%2Fleeyongjoo%2Fpost%2F6f396c1f-d4c1-4624-924d-131d6ddd3246%2Fimage.png%5D(https%3A%2F%2Fimages.velog.io%2Fimages%2Fleeyongjoo%2Fpost%2F6f396c1f-d4c1-4624-924d-131d6ddd3246%2Fimage.png)

![https://velog.velcdn.com/images%2Fleeyongjoo%2Fpost%2Fb1a7d13e-801d-4d13-8d67-31e29eb947df%2Fimage.png%5D(https%3A%2F%2Fimages.velog.io%2Fimages%2Fleeyongjoo%2Fpost%2Fb1a7d13e-801d-4d13-8d67-31e29eb947df%2Fimage.png)

Yongjoo Lee

하나씩 정리하는 개발공부로그입니다.

이전 포스트

(5-5) 머신러닝 기초 - 확률분포

다음 포스트