잠재 변수 모델(Latent Variable Models)과 변분추론(Variational Inference)

‍한지영·2022년 3월 17일

lvm 딥러닝기본 잠재변수모델

1. 잠재 변수 모델(Latent Variable Models)

잠재 변수 모델(Latent Variable Models) vs 자기 회귀모델(Autoregressive Models)

Autoregressive Model들의 모든 random variable은 관찰될 수 있다. Tractable한 density를 가진다.
반면, Latent Variable Models의 경우, 어떤 random variables는 숨겨져 있다. 즉 hidden한 상태로 두고, 실제로 여기에 접근하기 위해 별다른 노력을 하지 않는다. Intractable한 density를 가진다.(z를 정확히 파악하지 않는 상태에서 학습)

잠재 변수 모델은 왜 필요한가?

Embedding? 모델이 input으로 들어온 것 간의 상관관계를 조금 더 잘 알 수 있다던가 등 낮은 차원의 representation이 필요하기 때문에 embedding을 했었다.

이처럼,

데이터에서 간단하고 낮은 차원의 representation이 종종 더 필요하기 때문에
- LVM은 latent representation(hidden)을 자동으로 식별할 수 있는 모델
AR은 sampling이 느리다. (전후 time의 결과에 prediction이 의존적 -> sequential 한 연산 필요 -> sampling 느림)
- LVM은 통계적인 패턴을 활용하여 빠른 샘플링이 가능
일부 잠재 변수 값을 독립적으로 conditional하게 넣어, observation space을 바꾸고 생성되는 값을 변경할 수 있다.
- latent space z에서 x'를 생성한다고 했을 때, 일부 latent variable을 바꿔주면서 observation space를 바꾸고 x''를 생성할 수도 있음.

등의 이유로 잠재 변수 모델이 활용된다.

+) 추가 정보_LVM

AR model처럼, latent variable Model도 시간의 흐름을 이해하여 데이터 생성도 가능
일반적으로 LVM은 unsupervised 모델

잠재변수모델의 조건

p(x)의 효율적인 컴퓨팅
p(z), p(x|z)를 O(1)으로 빠르게 얻는 것

-> Bayes' Rule
p(x) = p(x|z)p(z)/p(z|x)
p(x) = likelihood x prior / posterior
-> posterior 분포를 구하면 p(x)를 구할 수 있음
-> posterior 분포를 구하기 어렵기 때문에, Variational Inference!(변분 추론)

2. 변분추론(Variational Inference)

목표: posterior distribution의 획득(p(z|x))
변분추론이란? 사후확률 분포를 구하는게 어렵기 때문에, p모델(생성 모델) 외에 이를 근사하는 q모델(q(z))을 만들어 variational distribution로 posterior(p(z|x))를 근사하자는 것.
이는 곧, 2개의 분포, 즉 q(z)와 p(z|x) 사이의 거리를 줄여 최적화하는 문제
- KL Divergence 사용

KL Divergence

두 확률분포의 다른 정도를 나타내는 척도

Cross entrophy에서 entrophy 값을 빼서 Relative entrophy라고도 함.

KL Divergence의 성질
1. 교환법칙이 성립하지 않는다.

0이 되는 시점 : q 분포와 p 분포가 동일할 때
3 KL divergence는 0과 같거나 크다.

즉, q(z)로 true posterior p(z|x)를 근사하는 문제는, 2개의 분포의 거리를 줄여 최적화하는 문제와 같다.

Reference
패스트캠퍼스 강의(한번에끝내는딥러닝/인공지능초격차패키지Online)

‍한지영

NLP 전공 잡식성 문헌정보 석사생

이전 포스트

Transformer 구현하고 이해하기(2)

다음 포스트