VQ-VAE, VQ-VAE2 간단 정리

SoyE·2023년 9월 17일
0

VQ-VAE

latent space z가 continuous한 분포보다 discrete한 분포가 더 유용하다고 주장하는 이유?

-> latent space z가 continuous한 분포에서는 모든 데이터는 정규 분포의 형태를 따른다고 가정하여 musigma 두 가지의 파라미터 만을 학습하여 posterior 분포(P(z|x))를 나타냄
-> latent space z가 discrete한 분포에서는 k개의 categorical한 분포로 posterior 분포를 나타냄, 따라서 음성, discrete한 이미지, 음성과 같은 데이터를 더 잘 표현할 수 있음 또한 데이터가 충분히 많다고 가정하면 posterior 분포(P(z|x))를 더 구체적으로 잘 나타낼 수 있음

VQ-VAE 2

원본 이미지를 인코딩하여 얻은 bottom latent code는 세부적인 부분을 모델링
이 bottom latent code를 한번 더 인코딩한 Top latent code는 global한 특징을 모델링

Pixel CNN에서 단점은 global한 부분을 보면서 img를 generation하는 것이 아니라 local한 부분을 참고해 img를 generation을 한다는 점이다. 하지만 VQ-VAE-2에서는 global한 정보를 encoding한 top-level latent code를 condition으로 img를 generation하기 때문에 좀 더 좋은 품질의 이미지를 생성

profile
응애

0개의 댓글