Generative model - 2

naem1023·2021년 8월 14일

DL Basic

목록 보기

16/16

Latent Variable Models

D.Kingma가 만든 모델이라고 한다. Adam, varitaional auto-encoder도 만든 대단한 분이라고 한다...

Autoencoder는 generative model인가?
variational auto-encoder는 generatiev model이니까 auto-encoder도 generative model인가? 그렇지 않다.

즉, variational auto-encoder를 generative model로 만들어주는 이유가 있고 이것을 아는 것이 중요하다!

Variational inference(VI)

The goal of VI is to optimize the variational distribution that best matches the posterior distribution.

posterior distribution: $p_{\theta}(z|x)$
- observation이 주어졌을 때, 관심있어하는 random variable의 확률분포
- z: latent vector
- 반대로 뒤집은걸 보통 likelihood라고 한다. $p(x|z)$
Varitaional distribution: $q_{\phi}(z|x)$
- posterior distribution은 구하기 불가능하거나 어려운 경우가 많다.
- posterior distribution에 근사하는 확률분포를 의미한다.
KL divergence: 근사 방법
- 이를 사용해 true posterior와 variational distribution의 차이를 최소화하겠다.

Encoder: Variational distribution을 학습하는 곳

How to find objective?

gradient descent에서 true y를 알아야 loss function의 값을 계산할 수 있듯이, Variational inference도 posterior distribution을 알아야 variational distribution을 근사할 수 있을 것이다.

문제는 variational distribution을 구하는 이유가 posterior distribution을 구하기 어렵기 때문이라는 것이다. 모순이 발생한다.

이를 수식으로 설명하면 위 수식이 된다고 한다. 학부 수준의 통계학을 들었다면 이해 가능한 수식이라고 한다. (...)

수식에서 Objective를 줄이는 것이 곧 posterior와 varitional의 차이를 줄이는 것이다. 하지만 실제 posterior를 모르기 때문에, 앞 항인 ELBO(Evidence Lower bound)를 늘려줘서 반대급부로 objective가 줄어드는 것을 유도한다고 한다.

이러한 방법 자체를 sandwitch method라고 부르기도 한다고 하더라.

KL divergence를 모르기 때문에 ELBO를 키우는 방법을 활용해 variational inference는 학습을 진행한다.

ELBO

ELBO는 위처럼 다시 풀어쓸 수 있고, 이는 계산 가능하다.

Reconstruction Term: Auto-encoder의 reconstruction loss term
Prior Fitting Term: Latent Prior Term?

정리

Variational Inference의 궁극적인 목표는 입력 X에 대해서, X를 잘 표현하는 latent space(잠재변수 공간?)인 Z를 찾고 싶은 것이다.
하지만 posterior distribution인 $p_{\theta}(z|x)$ 를 모른다. 그래서 posterior distribution을 찾기 위해 variational distribution 혹은 encoder로 posterior distribution을 근사하고자 한다.

posteriror distribution을 모르는 상태에서 KL divergenec를 통해 추정치와 실제값의 거리를 구할 수는 없다! 따라서 Variational inference라는 기법을 사용해 ELBO를 Maximize하면 KL divergenec를 줄여서 추정치와 실제값의 거리를 줄여주는 효과를 유도한다.

ELBO는 Reconstruction term과 Prior fitting term으로 나뉜다.

Reconstruction term

X라는 입력을 encoder를 통해 latent space로 보낸다.
이를 다시 decoder로 보냈을 때 발생하는 reconstruction loss를 줄이는 것이 reconstruction term

Prior fitting term

X라는 입력을 latent space로 올려놨다고 해보자.
올라간 데이터들의 분포가 latent space의 prior distribution과 얼마나 차이가 있는지를 나타내는 term이다.

따라서, generative model이고 explicit model아닌 implicit model이다.

Variational Auto-Encoder(VAE)

입력 X가 주어지고, 이를 latent space로 보내서 무언가를 찾고 이를 통해 reconstruction term으로 만든다.

Generative model이 되기 위해서는 latent space의 prior distribution인 z를 샘플링하고 이를 Decoder에 통과시켜 나오는 output을 generation result라고 보는 것이다.

하지만 auto encoder는 이렇나 과정이 없다. 그냥 input이 latent space로 갔다가 output으로 나온다. 그래서 엄밀한 의미에서 auto-encoder는 generative model이 아니다.

VA의 특징은 아래와 같다.

Intractable model이다.
- likelihood를 계산하는 것이 어렵다.
- implicit model이다.
Prior fitting term은 계산하기 매우 어렵다.
- 미분했을 때 무언가 값을 얻기 쉽도록 isotropic Gaussian을 사용한다.

Adversarial Auto-encoder(AAE)

VAE의 단점은 prior fitting term에서 gaussian이 아닌 다른 것을 활용하기가 힘들다. 하지만 많은 경우에, prior distribution으로 gaussian을 활용하고 싶지 않을 때가 많다.

이를 위한 해결법으로 AAE가 있다.
GAN을 사용해서 latent distribution의 분포를 맞춰준다고 한다. 즉, VAE의 prior fitting term을 GAN으로 바꾼 것이다.

latent distribution에 샘플링만 가능한 어떤 분포만 있어도, prior fitting에서 사용할 수 있다.
e.g., uniform distribution, 혹은 복잡한 distribution도 가능.

VAE보다 성능이 더 좋을때도 많다고 한다. 물론 항상 좋진 않다.

wasserstein autoencoder라는 논문이 2018년에 나왔는데, 사실 AAE는 latent space 사이의 wasserstein distribution을 줄여주는 것과 동일한 효과임을 수식으로 증명했다고 한다. 따라서 AAE도 wasserstein autoencoder의 한 종류라고 봐도 된다고 한다.