Disentanglement

생성모델쟁이·2020년 11월 10일

Generative Model betaVAE dcign disentanglement gan infogan 논문리뷰

작성자: 고려대학교 산업경영공학과 이예지

이번에는 disentanglement에 대한 내용을 다루고자 합니다.

deeplearning.ai의 Build Basic Generative Adversarial Networks (GANs) 강의에서 짧게 disentanglement에 대해 알려주었는데, 많은 자료를 보여주진 않더라구요.

이번에는 해당 강의를 토대로, disentanglement와 관련된 몇 가지 페이퍼를 짧게 요약해보자 합니다.

이 글이 disentaglement의 완벽한 이해를 드리기는 힘들지만, 어떤 것을 하고자 하는지에 대 큰 그림을 얻어가셨으면 좋겠습니다. 오늘 다루는 페이퍼 이외에, 관련 페이퍼를 추가로 적어놓았으니, 관심있으시면 꼭 읽어보시길 바랍니다. :)

Let's Recap

text [Figure 1] coursera - Build Basic Generative Adversarial Networks (GANs), 'Challenges with Controllable Generation'

데이터의 분포를 학습하기 위해 우리는 GAN을 사용했습니다. 어떤 노이즈 벡터를 생성하고 GAN의 입력으로 넣었을 때, 우리가 가진 학습 데이터와 비슷하지만 학습 데이터에는 존재하지 않았던 랜덤한 이미지를 만들어낼 수 있습니다.

그러나 우리가 원하는 특징을 가진 랜덤한 이미지를 만드는 것은 쉽지 않습니다. Figure 1을 살펴봅시다. 갈색머리를 가지고 있는 사람의 이미지를 파란머리를 가진 사진으로 변경한 것입니다. 지금까지 다룬 Vanilla GAN은 이렇게 하나의 피쳐만을 변경하는 것이 불가능합니다. 왜 그럴까요? 다른 예를 살펴보겠습니다.

text [Figure 2] coursera - Build Basic Generative Adversarial Networks (GANs), 'Challenges with Controllable Generation'

Figure 2를 봅시다. 제가 랜덤 벡터( $z$ )로 생성한 이미지가 왼쪽의 수염이 없는 여성이라고 해봅시다. 저는 여기서 수염을 추가하고 싶고, $z_1$ 축을 조절하여 수염을 추가할 수 있는 랜덤 벡터( $z'$ )를 찾았다고 가정해보겠습니다. 이 여성의 그림에 수염을 추가할 수 있을까요? 물론 가능합니다. 그러나, 오랜쪽 아래의 수염을 가진 남성의 사진이 나오게 됩니다. 즉 수염을 추가한 것 뿐만 아니라 다른 피쳐들이 동시에 변한 것입니다.

text [Figure 3] coursera - Build Basic Generative Adversarial Networks (GANs), 'Challenges with Controllable Generation'

이러한 결과가 나오는 것은 $z_1$ 축이 수염에 관련된 특징뿐만 아니라 다른 어떤 특징과도 연관이 되어있기 때문입니다. 이 예시로 볼 때는 머리 길이, 눈매, 그리고 눈썹 정도일 것 같습니다. 다시 말하면, 하나의 축이 하나의 특징을 의미하는 것이 아닙니다. 이를 entanglement (뒤얽힘, 꼬여있음)혹은 축이 entangle 되어있다. 라고 표현합니다. 축이 꼬여있는(entangle) 이유 중 한 가지는 일반적으로 $z$ 의 차수가 충분하지 않을 때 발생하지만, 이외에도 여러 가지 이유가 있습니다.

내가 원하는 피쳐들 외에 나머지는 고정한채로 이미지를 생성하고 싶다면 축을 disentagle되어있게 하면 되겠죠? disentanglement에 대한 해석을 그대로 인용하자면 다음과 같습니다.

text [Figure 4] Takato Horii, Review "Info GAN"

Transforming from an uninterpretable space with entangled features to eigen spaces where features are independent.

자, 이제부터 disentanglement 관련 페이퍼를 다음 순서로 짧게 리뷰해보겠습니다.

[1] Kulrarni, Tejas D., et. al. "Deep Convolutional Inverse Graphics Network" NIPS'15. 711 citations.
[2] Chen, Xi, et al. "InfoGAN: Interpretable Representation Learning by Information Maximizing Generative Adversarial Nets" NIPS'16. 2219 citations.
[3] Higgins, Irina, et al. "beta-VAE: Learning basic visual concepts with a constrained variational framework." ICLR'17. 1199 citations.

다음의 페이퍼는 이번 글에서는 다루지 않지만 읽어보면 큰 도움이 될 거라고 생각합니다. 몇 가지는 이곳에 짧게 정리되어 있습니다. 지금은 미루고 있지만 ☹️, 저도 나중에 꼭 페이퍼를 읽어보려구요 🙂!

Alemi, Alexander A., et al. "Deep variational information bottleneck." ICLR'17, 411. citations.
Burgress, Christopher P., et al. "Understanding disentangling in beta-VAE." NIPS'17, 266 citations.
Chen, Ricky TQ, et al. "Isolating sources of disentanglement in variational autoencoders.", NIPS'18, 317 citations.
Stoechr, Niglas, et al. "Disentagling interpretable generative parameters of random and real-world graphs." NIPS'19. 3 citations
Hwang, HyeongJoo, et al. "Variational Interaction Information Maximization for Cross-domain Disentanglement." NIPS'20.

[1] Deep Convolutional Inverse Graphics Network (DC-IGN)

text [Figure 4] DC-IGN 요약

특징

out-of-plane rotations과 lighting variations과 같은 변형에 관하여 disentanglement를 시도함.
모델은 convoltion과 deconvolution의 몇 개의 레이어들로 구성되어 있음.
Stochastic Gradient Variational Bayes를 옵티마이저로 사용함.
입력 값이 주어지면, 같은 object지만 pose와 lighting에 따라 새로운 이미지를 만들어냄.

Objective

text [Figure 5]

컴퓨터 화상처리(Computer graphics)를 하기 위해서는 개발자들이 프로그래밍 언어를 사용해서 명령을 하겠죠? 그 명령(graphics code; $c$ )은 매우 디테일 할 것입니다. 예를 들어 공의 위치는 어디이고, 밝기는 몇이고, 무슨 색깔을 가졌는가? 이렇게요. 이처럼 우리가 원하는 이미지 혹은 그래픽을 생성하기 위해서는 disentangled feature가 필요합니다.

해당 모델(DC-IGN)은 입력 값이 주어졌을 때, 같은 object지만 pose와 lighting에 따라 새로운 이미지를 만들어내는 것을 목표로 합니다.

Architecture

text [Figure 6]

VAE(D. P. Kingma and M. Welling, 2013)를 변형한 형태의 모델 구조를 가고 있습니다. 따라서 크게 encoder와 decoder로 이루어졌으며, encoder는 {convolution layers+max-pooling}, decoder는 {convolution laysers+unpooling(upsampling using nearest neighbors)}로 구성됩니다.

Training

Input: data $x$

The posterior approximation: $Q(z_i|x)$ , where $Q$ ~ $\mathcal{N}(\mu_{z_i}, \Sigma_{z_i})$

Graphics code: $Z$

encoder의 output ( $encoder(x)$ ): $y_e$

text [Figure 7]

$Q(z_i|x)$ 를 만들어내기 위해 데이터 $x$ 가 encoder를 통과합니다. $Q(z_i|x)$ 의 모수는 다음과 같이 만들어집니다.

$\mu_{z_i}=W_e*y_e$ ,

$\Sigma_{z_i}=diag(\exp(W_e*y_e))$

code $Z$ 가 different view를 가진 이미지를 생성하기 위해 decoder를 통과하고,
$-\log(P(x|z_i))+KL(Q(z_i|x)||P(z_i))$ 를 object function으로 사용하여 학습하면 됩니다. 이 때, code $Z$ 는 Figure 7 처럼 disentaglement와 entaglement 파트가 섞여있는 벡터입니다.

text [Figure 8]

여기까지는 다른 모델과 크게 다를 것이 없습니다. 그렇다면 어떻게 disentanglement를 할 수 있을까요?

DC-IGN은 mini-batch 를 이용하는 것입니다.

현재 우리가 여러 특징(feature)을 가진 학습데이터를 가지고 있다고 가정합시다. feature의 종류는 (방위각, 고도 각, 광원의 방위각, and intrinsic properties (shape, texture, etc)) 입니다. 앞의 3개의 feature를 각각 $z_1, z_2, z_3$ 라고 인코딩했다고 하겠습니다.

미리 mini-batch가 오직 한 개의 variable만 변하도록 데이터를 구성합니다. 예를 들어 elevation angle만 변할 수 있도록 구성하는 것입니다. 다음과 같은 procedure를 통해 모델은 학습됩니다.

text [Figure 9]

{방위각, 고도 각, 광원의 방위각, 고유 속성} 중 하나에 해당하는 잠재 변수 $z_{train}$ 을 무작위로 선택합니다.
$z_{train}$ 에 해당하는 피쳐만 변하는 mini-batch 중에서 하나를 선택합니다.
mini-batch를 모델의 input으로 사용하여, 각각의 벡터 값을 알아냅니다.
배치 전체에서 벡터들의 평균을 계산합니다.
Decoder로 들어가기 전에, 1번에서 결정한 $z_{train}$ 차원이 아닌 다른 차원의 값들( $z_i\neq z_{train}$ )은 4번에서 구한 평균값으로 대체합니다. 이것을 "clamped output"이라고 하겠습니다.
reconstruction error값을 계산하고, SGVB에 따라 decoder에 back-propagation 해줍니다.
$z_i\neq z_{train}$ 의 gradient값을 평균값과의 차이로 대체합니다. $z_{train}$ 의 gradient는 그대로 통과됩니다.
수정된 gradient 값으로 encoder를 학습시킵니다.

intrinsic representation의 경우 $z_1, z_2, z_3$ 와 달리 매우 고차원이므로, 더 많은 학습이 요구됩니다. 따라서 논문의 저자들은 1:1:1:10의 비율로 모델을 학습했다고 합니다.

즉 한 번에 하나의 transfomation만 사용하여 학습함으로써, disentanglement를 시도하였습니다. 또한 하나의 변환을 보장하기 위해 선택된 차원을 제외하고는 평균과의 차이 값으로 하였습니다

Results

text [Figure 10] *Kulrarni, Tejas D., et. al. 2015.*

text [Figure 11] *Kulrarni, Tejas D., et. al. 2015.*

---

[2] InfoGAN: Interpretable Representation Learning by Information Maximizing Generative Adversarial Nets

text [Figure 12] InfoGAN 요약