Autoregressive Model들의 모든 random variable은 관찰될 수 있다. Tractable한 density를 가진다.
반면, Latent Variable Models의 경우, 어떤 random variables는 숨겨져 있다. 즉 hidden한 상태로 두고, 실제로 여기에 접근하기 위해 별다른 노력을 하지 않는다. Intractable한 density를 가진다.(z를 정확히 파악하지 않는 상태에서 학습)
Embedding? 모델이 input으로 들어온 것 간의 상관관계를 조금 더 잘 알 수 있다던가 등 낮은 차원의 representation이 필요하기 때문에 embedding을 했었다.
이처럼,
데이터에서 간단하고 낮은 차원의 representation이 종종 더 필요하기 때문에
- LVM은 latent representation(hidden)을 자동으로 식별할 수 있는 모델
AR은 sampling이 느리다. (전후 time의 결과에 prediction이 의존적 -> sequential 한 연산 필요 -> sampling 느림)
- LVM은 통계적인 패턴을 활용하여 빠른 샘플링이 가능
일부 잠재 변수 값을 독립적으로 conditional하게 넣어, observation space을 바꾸고 생성되는 값을 변경할 수 있다.
- latent space z에서 x'를 생성한다고 했을 때, 일부 latent variable을 바꿔주면서 observation space를 바꾸고 x''를 생성할 수도 있음.
등의 이유로 잠재 변수 모델이 활용된다.
+) 추가 정보_LVM
-> Bayes' Rule
p(x) = p(x|z)p(z)/p(z|x)
p(x) = likelihood x prior / posterior
-> posterior 분포를 구하면 p(x)를 구할 수 있음
-> posterior 분포를 구하기 어렵기 때문에, Variational Inference!(변분 추론)
KL Divergence
- 두 확률분포의 다른 정도를 나타내는 척도
- Cross entrophy에서 entrophy 값을 빼서 Relative entrophy라고도 함.
- KL Divergence의 성질
1. 교환법칙이 성립하지 않는다.
- 0이 되는 시점 : q 분포와 p 분포가 동일할 때
3 KL divergence는 0과 같거나 크다.
Reference
패스트캠퍼스 강의(한번에끝내는딥러닝/인공지능초격차패키지Online)