We want to learn a probability distribution p(x) such that
p(x)를 어떻게 만드냐?
conditional independe와 chain rule을 적당히 섞어 fully dependent model과 fully independent model사이의 어떤 값을 만들 것이다.
i+1번째 pixel을 i번째 pixel에만 dependent한다고 가정.
chain rule로 얻어진 conditional distribution이 짤리게 된다.
몇개의 파라미터가 필요할까?
chain rule만 가지고 쪼개면, 파라미터의 숫자는 달라진게 없는데 쪼갠다음에 Markov assumption을 적용하면 conditional independence를 통해 parameter를 2n-1에서 2n-1로 줄일 수 있다.
we got exponential reduction
이러한 과정들을 Auto-regressive 모델이라 부른다.
We need an ordering of all random variables.
이전의 n개만 참고한다는 모델이 ar-n 모델이라고 부른다.
i번째 pixel을 첫반째 부터 i-1번째 pixel을 dependent하게 한다.
첫번째 pixel의 확률분포를 어느것에 dependent하지 않게 만들고,
두번째 pixel에 대한 확률을 첫번째 pixel에만 dependent하게 만든다.
이 의미는 첫번째 pixel값을 입력으로 받는 neural network를 만들어서,
single scalar가 나온다음에 sigmoid를 통과하여 수를 만들고
5번째 수를 만들때에는 1번째와 4번째 pixel에 대한 값을 받아서,
neural network를 통해 나온값을 sigmoid를 통과해서 나온 수로 만든다.
i번째 pixel은 i-1개의 입력에 dependent하게 된다.
neural network입장에서는 입력차원이 계속 달라진다.
그래서 weight가 계속 커지게 된다.
첫번째 pixel을 만드는데에는 아무 것도 필요없고,
세번째 pixel에 대한 neural network를 만들때에는 2개의 입력을 받는 weight가 필요.
NADE는 explicit model이다. 단순이 generation을 할 수 있는게 아니라, 어떤 입력에 대한 확률을 계산할수 있다.
어떻게?
continuous ouput일 경우 mixture of Gaussian을 통해 사용될 수 있다.
결국은 어떤 이미지에 있는 pixel들을 만들어 내고 싶은 것.
RNN을 통해 Genetarion을 하겠다가 차이가 있다.
한가지 더 차이점이 있다면, ordering을 어떻게 하느냐에 따라서 두가지 알고리즘으로 된다.
문제는 뭐냐면, 내가 posterior가 뭔지도 모르는데, 뭔지도 모르는 posterior distribution을 근사할 수 있는 variational distribution을 찾는다는 것이 어불성설이다.
마치 loss function이있는데 target이 뭔지모른다. 근데 loss function을 줄이려는 것과 같다.
이를 가능하게하는 것이 ELBO이다.
궁극적으로 위 수식에서 얘기하고 싶은 것은, 우리가 VI에서 목적이었던, 두 distribution사이의 KL divergence를 줄이는 것이 목적인데 이것이 불가능하다. 그래서 우리는 ELBO라는 것을 계산함으로써 얘를 키움으로써 우리가 원하는 objective를 얻고자 하는 것.
결과적으로 내가 뭔지도 모르고, 계산할 수도 없는 것을 내가 어떤 임의의 Posterior distribution과 Variational distribution사이의 거리를 줄이는 어떤 목적을 ELBO를 maximize함으로써 얻어낼 수 있다.
ELBO를 나누어 보면, deconstruction Term과 Prior Fitting Term으로 나뉜다.
이것이 encoder를 통해 x라는 입력을 latent space로 보냈다가 다시 encoder로 돌아오는 reconstruction loss를 줄이는 것이 deconstruction term이고, 이미지가 잔뜩 있는데 이 점들이 이루는 분포가 내가 가정하는 이 latent space에서의 prior distribution와 비슷하게 만들어주는 것을 동시에 만족하는 것과 같다는 것이 Variational Auto-encoder이다.
Key limitation:
I. Goodfellow et al., "Generative Adversarial Networks", NIPS, 2014
link : https://sensibilityit.tistory.com/508