[DGM] Latent Variable Models

Minhan Cho·2024년 10월 10일

Latent Variable Models

얼굴을 예시로 할 때, 눈동자 등등이 hidden structure (latent representation $z$ ) 이 될 수 있겠다
아는 것은 $x$ 밖에 없고, $z$ 는 infer하는 것: $z$ 자체는 보이지 않지만 찾을 수 있는 방법을 알아내자는 것이 latent variable의 목적, 단 automatically
Deep Neural Latent Model은 latent variable model 을 NN으로 만든 것
- shallow latent model: mixture of Gaussians
Mixture Models
- 또다른 latent variable model의 장점
- $x$ 를 구하는 것은 복잡하지만 $x|z$ 는 쉬움: $z$ from $1$ to $k$ 의 summation

Challenges & Alternatives

drawbacks
- autoregressive model에 비해 training이 힘듦
- 위쪽 절반이 안 보이고, 아래 절반만 보인다고 한다면, $x$ 를 보이는 부분, $z$ 를 가려진 부분이라고 할 수 있음
  이 때 $argmax_{\theta}P_{\theta}(x)=argmax_{\theta}\sum_zP_{\theta}(x, z)$ 인데, 모든 z의 경우의 수를 고려하기 어려우므로 계산이 힘듦 (더군다나 continuous variable이라면 summation이 아니라 integration이 되므로)
Attempts
- $E_{p(x)}[f(x)]$ 의 계산
  - continuous: $\int p(x)f(x) dx$ where $p(x)$ 은 probability density
    monte carlo(sampling, 모든 경우가 아니라 일부만 취하기 함) approximation: $\frac{1}{N}\sum_{i=1}^{N}{f(x_i)}, x_i \sim p(x)$ , $f(x_i)$ can be calculated from samples $x_1, ..., x_N$
    $x_1, ..., x_N$ 을 어떻게 sampling 하냐?: $p(x)$ 를 이용해서
  - discrete: $\sum p(x)f(x)$ where $p(x)$ 은 probability distribution
- Naiive Monte Carlo
  - drawback: uniform sampling 때문에 의미있는 결과가 나오기 힘듦, 따라서 써먹을 수 없음
- Importance Sampling ( $q(x)$ ): uniform sampling인 monte carlo 보다 나음
  - sample $z$ 를 $q(z)$ 에서 sampling 하는 것
  - $q(z)$ 는 $\mu, \sigma$ 등을 이용한 Gaussian Distribution을 사용하는 등 마음대로 가능: 어쨌거나 uniform distribution보다는 낫다
  - 그래도 $q(z)$ 가 $p(z)$ 와 distribution이 크게 다를 수 있다는 한계가 있음
- Estimating log likelihood
  - 위의 monte carlo에 log 붙인 것
  - (이런..)

Variational Inference

목적: posterior $p(z|x)$ 를 구하는 것, 그런데 못 구함
- 따라서 $p(z|x)=\frac{p(x|z)p(z)}{p(x)}$ 인데, p(x)를 못 구하니까
- $p(z|x)$ 를 근사한 $q(z)$ 를 구하자는 것
  minimizing $KL(q(z)|p(z|x))$
  $KL(q(z)|p(z|x)) = \int q(z)log\frac{q(z)}{p(z|x)}dz=E_{q(z)}[log\frac{q(z)}{p(z|x)}]$ 다만 $p(z|x)$ 를 모르므로
  $=\int q(z)log\frac{q(z)}{p(x,z)}p(x)dz=\int q(z)log\frac{q(z)}{p(x,z)}dz+\int q(z)logp(x)dz$ 에서 $logp(x)$ 를 밖으로 뺄 수 있으므로 $\int q(z)logp(x)dz$ 에서 $\int q(z) dz$ 는 1이 되고, $logp(x)$ 가 됨
- $logp(x)=KL(q(z)|p(z|x))+\int q(z)logp(x,z)dz - \int q(z)log q(z)dz = KL + E_{q(z)}[logp(x,z)]-E_{q(z)}[logq(z)]$
- 최종적으로 $logp(x) = KL + Evidence\;Lower\;Bound$ 인데, KL은 minimize 못하니까 ELBO를 minimize하게됨
- $L(q)=E_{q(z)}[logp(x,z)]-E_{q(z)}[logq(z)] = E_{q(z)}[logp(x|z)]-KL(q(z)|p(z))$ , 여기서 $L(q)$ 은 ELBO를 의미하는 것이고, $L(q)$ 를 maximize해야 함:
  - 첫 항은 커야 하고, 뒤의 항은 entropy이므로 (복잡도가 클 때 큼: uniform이면 큼) 앞 항은 모아주고 뒤 항은 퍼뜨리는것
  - 첫 항은 likelihood를 maximize하는 것, 뒤의 항 KL은 낮아져야 (MAP의 관점( $logp(x|\theta) \times logp(\theta)$ , prior를 뒤에 곱해줌으로써 overfit되지 않게 퍼뜨역할)과 비슷)

VAE

$x$ 에서 $z$ 로 가는 encoder의 parameter $\phi$ , $p(z|x) \approx q(z)$ 라고 한다면, 모든 $q(z)$ 는 $\phi$ 에 bound됨, $q_{\phi}(z)$ 이며, q 대신 $\phi$ 로 치환 가능
generative model에서 decoder는 $\theta$ 에 대해 표현 가능, 그 다음 $q$ 를 x에 또한 bound 가능: $q(z|x)$

Jenson's Inequality

if f(x)가 convex, $f[E(x)] \leq E[f(x)]$ , concave면 반대로
ELBO를 구해야 하므로 $\theta$ 와 $\phi$ 에 대한 del을 구해야 하는데 $\theta$ dependent 한 항은 하나밖에 없으므로 간단
그렇다면 $\phi$ 는?: $q_{\theta}(z|x)$ 가 들어가는데 이건 알 수 없어서 구하기가 까다로움
- 해결책1: reparameterization trick
  - $z=g(\Epsilon)$ where $z \sim q_{\phi}(z|x)$ , $q(\Epsilon) \sim p(\Epsilon)$
  - $

Minhan Cho

multidisciplinary

이전 포스트

[AIM5056_41 ML with Graphs] Lec2 Node Embedding

다음 포스트

[DGM] Latent Variable Models

Latent Variable Models

Challenges & Alternatives

Variational Inference

VAE

[AIM5056_41 ML with Graphs] Lec2 Node Embedding

Ploutos: Towards Interpretable Stock Movement Prediction with Financial Large Language Model (CoRR 2024)

0개의 댓글