(6-1) 머신러닝 기초 - 가우시안 분포

Yongjoo Lee·2021년 1월 11일
0
post-thumbnail

가우시안 분포

가우시안 분포 (Gaussian Distribution)

💡 여기서 μ\muDD차원의 평균 벡터Σ\Sigma(sigma)는 D×DD \times D 크기를 가지는 공분산 행렬이다.

중요한 것은 μ\muΣ\Sigma가 평균과 공분산으로 주어진 것이 아니고, 이것들이 파라미터로 주어진 확률밀도함수의 평균과 공분산이 μ\muΣ\Sigma가 된다는 것이다.

가우시안 분포의 가하학적인 형태

👉 \sum는 대칭행렬인 것으로 간주

대칭행렬의 성질에 따라서 \sum를 다음과 같이 나타낼 수 있다.

![https://velog.velcdn.com/images%2Fleeyongjoo%2Fpost%2F8bbbb5a4-02e6-4f77-ab24-0c3df86e6a3d%2Fimage.png%5D(https%3A%2F%2Fimages.velog.io%2Fimages%2Fleeyongjoo%2Fpost%2F8bbbb5a4-02e6-4f77-ab24-0c3df86e6a3d%2Fimage.png)

이차형식은 다음과 같이 표현될 수 있다.

![https://velog.velcdn.com/images%2Fleeyongjoo%2Fpost%2Fd909bdc2-904f-40b9-bf57-3eb22e6c8485%2Fimage.png%5D(https%3A%2F%2Fimages.velog.io%2Fimages%2Fleeyongjoo%2Fpost%2Fd909bdc2-904f-40b9-bf57-3eb22e6c8485%2Fimage.png)

벡터식으로 확장하면

y=U(xμ)\bold y =U(\bold x-\bold\mu)

가우시안 분포의 Normalization 증명

확률이론시간에 배운 확률변수의 함수를 복습할 것.

y\bold y 의 확률밀도함수를 구하기 위해서 Jacobian J\bold J 를 구해야 한다.

Jij=xiyj=Uji=(UT)ij\bold J_{ij}=\frac{\partial x_i}{\partial y_j}=U_{ji}=(U^T)_{ij}
J=UT\bold J=U^T
J2=UT2=UTU=UTU=I=1|\bold J|^2=|U^T|^2=|U^T||U|=|U^TU|=|\bold I|=1

행렬식 Σ|\Sigma|는 고유값의 곱으로 나타낼 수 있다.

Σ1/2=j=1Dλj1/2|\Sigma|^{1/2}=\prod_{j=1}^D\lambda_j^{1/2}

따라서, y\bold y의 확률밀도함수는

![https://velog.velcdn.com/images%2Fleeyongjoo%2Fpost%2Fe3d2df94-cdea-42a9-be75-e7b5a0861697%2Fimage.png%5D(https%3A%2F%2Fimages.velog.io%2Fimages%2Fleeyongjoo%2Fpost%2Fe3d2df94-cdea-42a9-be75-e7b5a0861697%2Fimage.png)

y\bold y의 normalization

![https://velog.velcdn.com/images%2Fleeyongjoo%2Fpost%2F48530e91-1d4f-4e7b-862b-8398a154cdd7%2Fimage.png%5D(https%3A%2F%2Fimages.velog.io%2Fimages%2Fleeyongjoo%2Fpost%2F48530e91-1d4f-4e7b-862b-8398a154cdd7%2Fimage.png)

가우시안 분포의 기댓값

다변량(multivariate) 확률변수의 기댓값

  • x=(x1,x2,,xn)T\bold x=(x_1, x_2,\dots,x_n)^T

  • E[x]=(E[x1],,E[xn])T\mathbb E[\bold x]=(\mathbb E[x_1],\dots, \mathbb E[x_n])^T

  • E[x1]=x1  p(x1)  dx1\mathbb E[x_1]=\int x_1\;p(x_1)\;dx_1

    여기서 xx는 벡터

![https://velog.velcdn.com/images%2Fleeyongjoo%2Fpost%2F13217ecd-95b0-4bf1-9fa3-9828e1d5e47c%2Fimage.png%5D(https%3A%2F%2Fimages.velog.io%2Fimages%2Fleeyongjoo%2Fpost%2F13217ecd-95b0-4bf1-9fa3-9828e1d5e47c%2Fimage.png)

by  z=xμ\text{by} \;\bold z=\bold{x-\mu}

z에 관한 식은 결국 0이 된다. 따라서 다음과 같은 식이 성립한다.

![https://velog.velcdn.com/images%2Fleeyongjoo%2Fpost%2F19639405-06d6-4e60-99eb-9a2f8325a023%2Fimage.png%5D(https%3A%2F%2Fimages.velog.io%2Fimages%2Fleeyongjoo%2Fpost%2F19639405-06d6-4e60-99eb-9a2f8325a023%2Fimage.png)

가우시안 분포의 공분산

공분산을 구하기 위해서 먼저 2차 적률(second order moments)을 구한다.

![https://velog.velcdn.com/images%2Fleeyongjoo%2Fpost%2Fcfe22fcb-6b36-47c2-ae28-5ec958f845e4%2Fimage.png%5D(https%3A%2F%2Fimages.velog.io%2Fimages%2Fleeyongjoo%2Fpost%2Fcfe22fcb-6b36-47c2-ae28-5ec958f845e4%2Fimage.png)

![https://velog.velcdn.com/images%2Fleeyongjoo%2Fpost%2Fa7a3f8a0-b4b9-47d9-9a6d-691daf96f0b4%2Fimage.png%5D(https%3A%2F%2Fimages.velog.io%2Fimages%2Fleeyongjoo%2Fpost%2Fa7a3f8a0-b4b9-47d9-9a6d-691daf96f0b4%2Fimage.png)

z=UTy\bold z=U^T\bold y로 치환하면

![https://velog.velcdn.com/images%2Fleeyongjoo%2Fpost%2F2c597a49-c286-4be6-a91e-4d1af338841c%2Fimage.png%5D(https%3A%2F%2Fimages.velog.io%2Fimages%2Fleeyongjoo%2Fpost%2F2c597a49-c286-4be6-a91e-4d1af338841c%2Fimage.png)

위의 결과를 이용하면 공분산은 다음과 같다.

![https://velog.velcdn.com/images%2Fleeyongjoo%2Fpost%2F77c71e8f-fa8d-4a32-beb0-59fedcf07551%2Fimage.png%5D(https%3A%2F%2Fimages.velog.io%2Fimages%2Fleeyongjoo%2Fpost%2F77c71e8f-fa8d-4a32-beb0-59fedcf07551%2Fimage.png)

조건부 가우시안 분포 (Conditional Gaussian Distributions)

DD차원의 확률변수 벡터 x\bold x가 가우시안 분포 N(xμ,Σ)N(\bold x|\bold \mu, \Sigma)를 따른다고 하자.

x\bold x를 두 그룹의 확률변수들로 나누었을 때, 한 그룹이 주어졌을 때 나머지 그룹의 조건부 확률도 가우시안 분포를 따르고, 각 그룹의 주변확률 또한 가우시안 분포를 따른다는 것을 보이고자 한다.

x\bold x 가 다음과 같은 형태를 가진다고 하자.

![https://velog.velcdn.com/images%2Fleeyongjoo%2Fpost%2F7889e6f9-87fa-4d4d-90a4-39879f07a475%2Fimage.png%5D(https%3A%2F%2Fimages.velog.io%2Fimages%2Fleeyongjoo%2Fpost%2F7889e6f9-87fa-4d4d-90a4-39879f07a475%2Fimage.png)

xa\bold x_aMM개의 원소를 가진다고 하자. 그리고 평균 벡터와 공분산 행렬은 다음과 같이 주어진다고 하자.

![https://velog.velcdn.com/images%2Fleeyongjoo%2Fpost%2Fb5022ebb-7783-4400-9364-55d17792904b%2Fimage.png%5D(https%3A%2F%2Fimages.velog.io%2Fimages%2Fleeyongjoo%2Fpost%2Fb5022ebb-7783-4400-9364-55d17792904b%2Fimage.png)

때로는 공분산의 역행렬, 즉 정확도 행렬(precision matrix)을 사용하는 것이 수식을 간편하게 한다.

![https://velog.velcdn.com/images%2Fleeyongjoo%2Fpost%2Fe37bfdb1-a3f2-445c-b44b-e8d13b14d269%2Fimage.png%5D(https%3A%2F%2Fimages.velog.io%2Fimages%2Fleeyongjoo%2Fpost%2Fe37bfdb1-a3f2-445c-b44b-e8d13b14d269%2Fimage.png)

💡 두 전체 행렬의 관계는 서로 역행렬이 되는 관계 (그러나 각각의 작은 행렬에 대해서는 성립하지 않음)

지수부의 이차형식을 위의 파티션을 사용해서 전개해보면

![https://velog.velcdn.com/images%2Fleeyongjoo%2Fpost%2F2753f3ad-1c92-48d4-8106-3ed01af7a2bf%2Fimage.png%5D(https%3A%2F%2Fimages.velog.io%2Fimages%2Fleeyongjoo%2Fpost%2F2753f3ad-1c92-48d4-8106-3ed01af7a2bf%2Fimage.png)

완전제곱식(Completing the Square) 방법

다음과 같은 조건부 확률을 구하고자 한다.

![https://velog.velcdn.com/images%2Fleeyongjoo%2Fpost%2F429c4782-2261-4efb-b730-872fe11e3b94%2Fimage.png%5D(https%3A%2F%2Fimages.velog.io%2Fimages%2Fleeyongjoo%2Fpost%2F429c4782-2261-4efb-b730-872fe11e3b94%2Fimage.png)

확률밀도함수 p(xa,xb)p(\bold x_a, \bold x_b)p(xa,xb)=g(xa)αp(\bold x_a, \bold x_b)=g(\bold x_a)\alpha 로 나타낼 수 있다고 하자.

여기서 α\alphaxa\bold x_a와 독립적이고 g(xa)dxa=1\int g(\bold x_a)d\bold x_a=1이다.

따라서

p(xa,xb)dxa=g(xa)α  dxa=αg(xa)  dxa=α\begin{aligned}\int p(\bold x_a, \bold x_b)d\bold x_a &=\int g(\bold x_a)\alpha\;d\bold x_a\\&=\alpha \int g(\bold x_a) \;d\bold x_a\\&=\alpha\end{aligned}

α=p(xb)p(xa,xb)=g(xa)p(xb)g(xa)=p(xaxb)\alpha=p(\bold x_b)\\p(\bold x_a, \bold x_b)=g(\bold x_a)p(\bold x_b)\\g(\bold x_a)=p(\bold x_a|\bold x_b)

위 과정을 통해 함수 g(xa)g(\bold x_a) 를 찾는 것이 목표!

🔥 가우시안 분포의 지수부는 다음과 같이 전개된다는 것이 중요한 포인트이다.

![https://velog.velcdn.com/images%2Fleeyongjoo%2Fpost%2F58143d52-76c5-4d9a-9cc2-c3f46f0c916a%2Fimage.png%5D(https%3A%2F%2Fimages.velog.io%2Fimages%2Fleeyongjoo%2Fpost%2F58143d52-76c5-4d9a-9cc2-c3f46f0c916a%2Fimage.png)

👉 여기서 상수부 const는 x\bold x와 독립된 항들의 모든 것이다. 따라서 어떤 복잡한 함수라도 지수부를 정리했을 때 위의 형태가 된다면 이 함수는 공분산 행렬 Σ\Sigma와 평균벡터 μ\bold \mu를 가지는 가우시안 분포임을 알 수 있다.

x\bold x에 관한 이차항과 일차항의 계수를 살피면 된다는 것이다.

xa\bold x_a의 이차항은

![https://velog.velcdn.com/images%2Fleeyongjoo%2Fpost%2F531f6750-22c7-4495-aca2-b86cf49ea1e6%2Fimage.png%5D(https%3A%2F%2Fimages.velog.io%2Fimages%2Fleeyongjoo%2Fpost%2F531f6750-22c7-4495-aca2-b86cf49ea1e6%2Fimage.png)

따라서 공분산은

![https://velog.velcdn.com/images%2Fleeyongjoo%2Fpost%2F85f026be-9354-47c2-8abc-13422414d0f1%2Fimage.png%5D(https%3A%2F%2Fimages.velog.io%2Fimages%2Fleeyongjoo%2Fpost%2F85f026be-9354-47c2-8abc-13422414d0f1%2Fimage.png)

이제 평균벡터를 구하기 위해서는 xa\bold x_a 의 일차항을 정리하면 된다.

xa\bold x_a 의 일차항은

![https://velog.velcdn.com/images%2Fleeyongjoo%2Fpost%2F21dbbc05-e5eb-4dcd-af29-638851450090%2Fimage.png%5D(https%3A%2F%2Fimages.velog.io%2Fimages%2Fleeyongjoo%2Fpost%2F21dbbc05-e5eb-4dcd-af29-638851450090%2Fimage.png)

xa\bold x_a 의 일차항의 계수는 Σab1μab\Sigma_{a|b}^{-1}\mu_{a|b} 이어야 하므로 Σab\Sigma_{a|b} 를 곱하면

![https://velog.velcdn.com/images%2Fleeyongjoo%2Fpost%2Fc547d57b-c4c8-41ff-ac77-f3c5139988e1%2Fimage.png%5D(https%3A%2F%2Fimages.velog.io%2Fimages%2Fleeyongjoo%2Fpost%2Fc547d57b-c4c8-41ff-ac77-f3c5139988e1%2Fimage.png)

주변 가우시안 분포 (Marginal Gaussian Distributions)

다음과 같은 주변분포를 계산하고자 한다.

![https://velog.velcdn.com/images%2Fleeyongjoo%2Fpost%2F702c7972-849d-4b4c-8667-2bea5eb25db8%2Fimage.png%5D(https%3A%2F%2Fimages.velog.io%2Fimages%2Fleeyongjoo%2Fpost%2F702c7972-849d-4b4c-8667-2bea5eb25db8%2Fimage.png)

아래와 같이 f(xb,xa)f(\bold x_b, \bold x_a) 를 완전제곱식으로 만든다.

![https://velog.velcdn.com/images%2Fleeyongjoo%2Fpost%2F1d9850f3-1439-444e-aa73-15e9163a9ba2%2Fimage.png%5D(https%3A%2F%2Fimages.velog.io%2Fimages%2Fleeyongjoo%2Fpost%2F1d9850f3-1439-444e-aa73-15e9163a9ba2%2Fimage.png)

![https://velog.velcdn.com/images%2Fleeyongjoo%2Fpost%2F906bbdf0-a4de-46de-8e96-5c26656f9c9f%2Fimage.png%5D(https%3A%2F%2Fimages.velog.io%2Fimages%2Fleeyongjoo%2Fpost%2F906bbdf0-a4de-46de-8e96-5c26656f9c9f%2Fimage.png)

![https://velog.velcdn.com/images%2Fleeyongjoo%2Fpost%2F4dfe0174-f36a-4e4e-8659-595b48d16af4%2Fimage.png%5D(https%3A%2F%2Fimages.velog.io%2Fimages%2Fleeyongjoo%2Fpost%2F4dfe0174-f36a-4e4e-8659-595b48d16af4%2Fimage.png)

👉 이 값은 공분산 Λbb\Lambda_{bb} 에만 종속되고 xa\bold x_a에 독립적이므로 αβexp{τ+g(xa)+const}\alpha\beta \text{exp}\{\tau+g(\bold x_a)+\text{const}\}의 지수부에만 집중하면 된다.

마지막으로 τ+g(xa)+const\tau+g(\bold x_a)+\text{const} 를 살펴보자.

![https://velog.velcdn.com/images%2Fleeyongjoo%2Fpost%2F254e2cfc-5efb-47d7-87fd-f08e2d9cd93c%2Fimage.png%5D(https%3A%2F%2Fimages.velog.io%2Fimages%2Fleeyongjoo%2Fpost%2F254e2cfc-5efb-47d7-87fd-f08e2d9cd93c%2Fimage.png)

따라서 공분산은

![https://velog.velcdn.com/images%2Fleeyongjoo%2Fpost%2F07f1ec49-ca08-4f85-af60-bf69a8297e2b%2Fimage.png%5D(https%3A%2F%2Fimages.velog.io%2Fimages%2Fleeyongjoo%2Fpost%2F07f1ec49-ca08-4f85-af60-bf69a8297e2b%2Fimage.png)

평균벡터는

![https://velog.velcdn.com/images%2Fleeyongjoo%2Fpost%2F315c4544-c1fa-4ff8-9ac4-b16e8bfaaab9%2Fimage.png%5D(https%3A%2F%2Fimages.velog.io%2Fimages%2Fleeyongjoo%2Fpost%2F315c4544-c1fa-4ff8-9ac4-b16e8bfaaab9%2Fimage.png)

공분산의 형태가 복잡하게 보이지만 Schur complement(슐러 보수)를 사용하면

![https://velog.velcdn.com/images%2Fleeyongjoo%2Fpost%2F7c3996fd-37d6-48f8-a23c-d9634558ec57%2Fimage.png%5D(https%3A%2F%2Fimages.velog.io%2Fimages%2Fleeyongjoo%2Fpost%2F7c3996fd-37d6-48f8-a23c-d9634558ec57%2Fimage.png)

👉 정리하면

  • E[xa]=μa\mathbb E[\bold x_a]=\bold\mu_a
  • cov[xa]=Σaa\text{cov}[\bold x_a]=\Sigma_{aa}

가우시안 분포를 위한 베이즈 정리 (Bayes' Theorem for Gaussian Variables)

p(x)p(\bold x)p(yx)p(\bold y|\bold x) 가 주어져 있고 p(yx)p(\bold y|\bold x) 의 평균은 x\bold x의 선형함수이고 공분산은 x\bold x와 독립적이라고 하자.

이제 p(y)p(\bold y)p(xy)p(\bold x|\bold y)를 구할 것이다.

(이 결과는 다음 시간에 배울 선형회귀(베이시안)의 주요 내용을 유도하는 데 유용하게 쓰일 것이다.)

p(x)p(\bold x)p(yx)p(\bold y|\bold x)가 다음과 같이 주어진다고 하자.

![https://velog.velcdn.com/images%2Fleeyongjoo%2Fpost%2F570ef642-af69-4a31-ba2c-f396751a49a7%2Fimage.png%5D(https%3A%2F%2Fimages.velog.io%2Fimages%2Fleeyongjoo%2Fpost%2F570ef642-af69-4a31-ba2c-f396751a49a7%2Fimage.png)

먼저 z=[xy]\bold z=\begin{bmatrix}\bold x\\\bold y\end{bmatrix}를 위한 결합확률분포를 구하자.

이 결합확률분포를 구하고 나면 p(y)p(\bold y)p(xy)p(\bold x|\bold y)는 앞에서 얻은 결과에 의해 쉽게 유도할 수 있다.

먼저 로그값을 생각해보자.

![https://velog.velcdn.com/images%2Fleeyongjoo%2Fpost%2F288c0261-b80e-41e8-9e13-e38875a2f4ed%2Fimage.png%5D(https%3A%2F%2Fimages.velog.io%2Fimages%2Fleeyongjoo%2Fpost%2F288c0261-b80e-41e8-9e13-e38875a2f4ed%2Fimage.png)

z\bold z 의 이차항은 다음과 같다.

![https://velog.velcdn.com/images%2Fleeyongjoo%2Fpost%2F50b80ab7-1a7e-4fde-8a56-c356a0aac131%2Fimage.png%5D(https%3A%2F%2Fimages.velog.io%2Fimages%2Fleeyongjoo%2Fpost%2F50b80ab7-1a7e-4fde-8a56-c356a0aac131%2Fimage.png)

![https://velog.velcdn.com/images%2Fleeyongjoo%2Fpost%2F24153286-98da-4182-837f-5a700b54289c%2Fimage.png%5D(https%3A%2F%2Fimages.velog.io%2Fimages%2Fleeyongjoo%2Fpost%2F24153286-98da-4182-837f-5a700b54289c%2Fimage.png)

따라서 공분산은 다음과 같다.

![https://velog.velcdn.com/images%2Fleeyongjoo%2Fpost%2Fc795c9e5-8622-419e-8bb7-4d1c727b969c%2Fimage.png%5D(https%3A%2F%2Fimages.velog.io%2Fimages%2Fleeyongjoo%2Fpost%2Fc795c9e5-8622-419e-8bb7-4d1c727b969c%2Fimage.png)

평균벡터를 찾기 위해서 z\bold z의 1차항을 정리한다.

![https://velog.velcdn.com/images%2Fleeyongjoo%2Fpost%2Faed6d47f-90b6-403f-b7f7-e25357f86b87%2Fimage.png%5D(https%3A%2F%2Fimages.velog.io%2Fimages%2Fleeyongjoo%2Fpost%2Faed6d47f-90b6-403f-b7f7-e25357f86b87%2Fimage.png)

따라서 평균벡터는

![https://velog.velcdn.com/images%2Fleeyongjoo%2Fpost%2F9a5ef67e-406c-409f-abbb-cb9e49c1cdb5%2Fimage.png%5D(https%3A%2F%2Fimages.velog.io%2Fimages%2Fleeyongjoo%2Fpost%2F9a5ef67e-406c-409f-abbb-cb9e49c1cdb5%2Fimage.png)

![https://velog.velcdn.com/images%2Fleeyongjoo%2Fpost%2F2657b154-a1ca-45a8-a284-cc3ba2d41255%2Fimage.png%5D(https%3A%2F%2Fimages.velog.io%2Fimages%2Fleeyongjoo%2Fpost%2F2657b154-a1ca-45a8-a284-cc3ba2d41255%2Fimage.png)

y\bold y를 위한 주변확률분포의 평균과 공분산은 앞의 "주변 가우시안 분포" 결과를 적용하면 쉽게 구할 수 있다.

![https://velog.velcdn.com/images%2Fleeyongjoo%2Fpost%2Fe29ce002-c80b-408e-ba54-4eac59c979c4%2Fimage.png%5D(https%3A%2F%2Fimages.velog.io%2Fimages%2Fleeyongjoo%2Fpost%2Fe29ce002-c80b-408e-ba54-4eac59c979c4%2Fimage.png)

마찬가지로 조건부 확률 p(xy)p(\bold x|\bold y)의 평균과 공분산은 "조건부 가우시안 분포" 결과를 적용해 유도할 수 있다.

![https://velog.velcdn.com/images%2Fleeyongjoo%2Fpost%2F3f51906c-2751-4c1a-99cc-43b1fb10c53c%2Fimage.png%5D(https%3A%2F%2Fimages.velog.io%2Fimages%2Fleeyongjoo%2Fpost%2F3f51906c-2751-4c1a-99cc-43b1fb10c53c%2Fimage.png)

주어진 x에 대한 주변 가우스 분포와 폼에서 주어진 x에 대한 조건부 가우스 분포

가우시안 분포의 최대우도 (Maximum Likelihood for the Gaussian)

가우시안 분포에 의해 생성된 데이터 X=(x1,,xn)T\bold X = (\bold x_1, \dots, \bold x_n)^T가 주어졌을 때,

우도를 최대화하는 파라미터 값들(평균, 공분산)을 찾는 것이 목표라고 하자.

로그우도 함수는 다음과 같다.

![https://velog.velcdn.com/images%2Fleeyongjoo%2Fpost%2F59f35bc4-fd8d-46cd-a005-a7b2fdddbdfb%2Fimage.png%5D(https%3A%2F%2Fimages.velog.io%2Fimages%2Fleeyongjoo%2Fpost%2F59f35bc4-fd8d-46cd-a005-a7b2fdddbdfb%2Fimage.png)

먼저 우도를 최대화하는 평균벡터 μML\bold\mu_{ML}을 찾아보자.

y=(xμ)\bold y=\bold{(x-\mu)}라고 하면 다음의 식이 유도된다.

![https://velog.velcdn.com/images%2Fleeyongjoo%2Fpost%2Fef0be721-f40b-4672-b062-b3e099969ca3%2Fimage.png%5D(https%3A%2F%2Fimages.velog.io%2Fimages%2Fleeyongjoo%2Fpost%2Fef0be721-f40b-4672-b062-b3e099969ca3%2Fimage.png)

![https://velog.velcdn.com/images%2Fleeyongjoo%2Fpost%2F32b2d9ad-a58b-44d4-bcbb-cccbdaf3d0bd%2Fimage.png%5D(https%3A%2F%2Fimages.velog.io%2Fimages%2Fleeyongjoo%2Fpost%2F32b2d9ad-a58b-44d4-bcbb-cccbdaf3d0bd%2Fimage.png)

다음으로 우도를 최대화하는 공분산행렬 ΣML\Sigma_{ML}은 다음과 같다.

![https://velog.velcdn.com/images%2Fleeyongjoo%2Fpost%2F22bc796c-a0c3-4789-8fdb-f9841c10a47b%2Fimage.png%5D(https%3A%2F%2Fimages.velog.io%2Fimages%2Fleeyongjoo%2Fpost%2F22bc796c-a0c3-4789-8fdb-f9841c10a47b%2Fimage.png)

📌 위의 식 유도를 위해 아래의 기본적인 선형대수 결과를 사용

  • A1=1/A|A^{-1}|=1/|A|
  • xTAx=tr(xTAx)=tr(xxTA)\bold x^TA\bold x=\text{tr}(\bold x^TA\bold x)=\text{tr}(\bold x \bold x^TA)
  • tr(A)+tr(B)=tr(A+B)\text{tr}(A)+\text{tr}(B)=\text{tr}(A+B)
  • Atr(BA)=BT\frac{\partial}{\partial A}\text{tr}(BA)=B^T
  • AlnA=(A1)T\frac{\partial}{\partial A}\ln|A|=(A^{-1})^T

가우시안 분포를 위한 베이시안 추론 (Bayesian Inference for the Gaussian)

MLE 방법은 파라미터들(μ\bold \mu, Σ\Sigma)의 하나의 값만을 구하게 해준다.

베이시안 방법을 사용하면 파라미터의 확률분포 자체를 구할수 있게 된다.

단변량 가우시안 확률변수 xxμ\mu를 베이시안 추론을 통해 구해보자(분산 σ2\sigma^2는 주어졌다고 가정)

목표는 μ\mu의 사후확률 p(μX)p(\mu|\bold X)을 우도함수 p(Xμ)p(\bold X|\mu)와 사전확률 p(μ)p(\mu)을 통해 구하는 것이다.

  • 우도함수

![https://velog.velcdn.com/images%2Fleeyongjoo%2Fpost%2F8b65d33d-2b42-4c59-aed7-5e895b99fe07%2Fimage.png%5D(https%3A%2F%2Fimages.velog.io%2Fimages%2Fleeyongjoo%2Fpost%2F8b65d33d-2b42-4c59-aed7-5e895b99fe07%2Fimage.png)

  • 사전확률

![https://velog.velcdn.com/images%2Fleeyongjoo%2Fpost%2F7213f065-0930-417b-bbc7-c1a1353e89a3%2Fimage.png%5D(https%3A%2F%2Fimages.velog.io%2Fimages%2Fleeyongjoo%2Fpost%2F7213f065-0930-417b-bbc7-c1a1353e89a3%2Fimage.png)

  • 사후확률

![https://velog.velcdn.com/images%2Fleeyongjoo%2Fpost%2F691ac987-6857-4cb3-94a9-b3ab2ac2090b%2Fimage.png%5D(https%3A%2F%2Fimages.velog.io%2Fimages%2Fleeyongjoo%2Fpost%2F691ac987-6857-4cb3-94a9-b3ab2ac2090b%2Fimage.png)

![https://velog.velcdn.com/images%2Fleeyongjoo%2Fpost%2F6f396c1f-d4c1-4624-924d-131d6ddd3246%2Fimage.png%5D(https%3A%2F%2Fimages.velog.io%2Fimages%2Fleeyongjoo%2Fpost%2F6f396c1f-d4c1-4624-924d-131d6ddd3246%2Fimage.png)

![https://velog.velcdn.com/images%2Fleeyongjoo%2Fpost%2Fb1a7d13e-801d-4d13-8d67-31e29eb947df%2Fimage.png%5D(https%3A%2F%2Fimages.velog.io%2Fimages%2Fleeyongjoo%2Fpost%2Fb1a7d13e-801d-4d13-8d67-31e29eb947df%2Fimage.png)

profile
하나씩 정리하는 개발공부로그입니다.

0개의 댓글