Generative model - CS231n

나다경·2023년 1월 13일

STUDY

목록 보기

5/5

생성모델: 학습 데이터가 주어졌을 때, 학습 데이터의 분포를 따르는 유사한 데이터를 생성하는 모델
위의 예시에서 왼쪽 학습 데이터 안에 각 샘플마다 픽셀의 분포를 알 수 있기에, 분포를 제대로 알아낸다면 오른쪽 그림처럼 유사한 데이터를 생성할 수 있음
학습 데이터의 분포와의 차이가 적을수록 실제 데이터와 비슷한 데이터를 생성할 수 있음

Explicit density: 학습 데이터의 분포를 기반으로 생성
- Tractable density: 학습 데이터의 분포를 직접적으로 구하는 방법(PixelRNN/CNN)
- Approximate density: 분포를 단순히 추정하는 방법(VAE, DDPM)
Implicit density: 그러한 분포를 몰라도 생성(GAN)

라벨링되지 않은 데이터로부터 저차원의 특징을 학습한 비지도학습임
오토 인코더는 입력( $x$ )을 기반으로 특징( $z$ )을 추출하고, 추출된 특징으로부터 다시 원본 데이터를 출력하는 네트워크임
원래의 인코더는 linear+nonlinearity를 통해서 설계되었고, 그 후에 Deep,fc 모델을 통해서, 그 후에는 ReLU, CNN을 통해서 설계됨
$z$ 는 $x$ 로부터 뽑힌 가장 중요한 정보들만 담고 있어야 하기 때문에 $z$ 는 항상 $x$ 보다 dimensionality가 축소됨
AE를 학습시키는 방법은 conv를 이용해서 $x$ 를 통해 $x$ 를 복원하며, 손실된 적은 양의 정보( $z$ ) 를 통해서 원본을 복구하기 위해 의미있는 feature만 남음

$p(z)$ 는 가우시안으로 정했기에 얻어낼 수 있으며, $p(x|z)$ 는 디코더 네트워크이기 때문에 연산이 가능함. 다만, $\int$ 를 처리할 수 없음

Solution: Variational inference

인코더 네트워크 $q(z|x)$ 는 $x$ 를 입력으로 받아서 $z|x$ 의 mean과 covariance를 구하고, 디코더 네트워크 $p(x|z)$ 는 $z$ 를 입력으로 받아서 $x|z$ 의 mean과 covariance를 구함
이상적인 $z$ 의 확률 분포를 모르기 때문에, $q$ 모델로 임의의 가우시안 분포에서 $z$ 를 샘플링해서 $q(z|x)$ 를 $p(z|x)$ 와 근사한 가우시안을 구하게 함. 그리고 $z$ 를 알게 되었다면 $x$ 는 $p(x|z)$ 를 수행하는 디코더 네트워크를 통해 샘플링 할 수 있게 됨

Preliminary

log likelihood를 $q_{\phi}(z|x)$ 로부터 sampling한 latent vector $z$ 에 대한 expectation식으로 바꿔줄 수 있음(=확률 $p$ 에 log를 취하고 $q$ 에 대한 적분 값을 곱해줌. $q$ 의 적분 값은 1이기에 상관 x)
Baye's Rule 적용
분모와 분자에 $q_{\phi}(z|x)$ 을 곱함
log 수식 정리
3개의 term으로 정리

첫 번째 term: Decoder Network Term
- reconstruction: original input being reconstructed
- $q_{\phi}(z|x)$ 로부터 sampling한 $z$ 를 가지고 $p_{\theta}(x_i|z)$ 가 $x_i$ 를 생성한 log likelihood
두 번째 term: KL term
- prior $z$ 와 posterior $q_{\phi}(z|x)$ 사이의 KL-divergence
- 근사된 posterior의 분포가 얼마나 normal distribution과 가까운지에 대한 척도(prior를 normal distribution으로 가정)
세 번째 term: KL term
- $p_{\theta}(z|x_i)$ 는 intractable하기 때문에 계산하기 어려움
- 하지만 KL의 성질에 의해 세 번째 항은 무조건 0보다 크거나 같음
첫 번째 term과 두 번째 term을 하나로 묶어주면 원래의 objective function에 대한 tractable한 lower bound(ELBO)를 정할 수 있음
MLE를 풀기 위해서 objective function을 미분해서 gradient ascent를 해야하는데 lower bound가 정의된다면 lower bound를 최대화하는 문제로 바꿔서 gradient를 구할 수 있음