Generative Models

naem1023·2021년 8월 13일

DL boostcamp generative-models

DL Basic

목록 보기

15/16

https://deepgenerativemodels.github.io/
스탠포드 대학의 수업이라고하는데 참고해서 수업을 진행하셨다.

Generative model

단순히 이미지와 문자를 만드는 것이 아니다.

강아지 이미지들을 받았다고 해보자.

Generative model에 probability distribution $p(x)$ 를 학습할 것을 기대할 수 있다.

Generation: $x_{new} \sim p(x)$ 를 샘플링 했을 때, $x_{new}$ 는 개처럼 보여야한다.
Density estimation: $p(x)$ 를 사용해서 임의의 입력 $x$ 에 대해서 개인지, 혹은 개가 아닌지, 고양이인지 등의 판단이 가능하다. (anomaly detection, 이상행동 감지)
- 엄밀한 의미에서 Generative model은 Descriminator model을 포함하고 있다.
- 확률값을 얻을 수 있는 모델을 explicit model이라고 한다.
Unsupervised representation learning(feature learning): feature를 unsupervised 방식으로 학습하는 것
- 교수님은 의아하다고 하지만 스탠포드 대학 강의에서는 이 또한 generative model이 지향하는 것이라고 했다고 한다.

Basic Discrete Distributions

시작하기 전에 알아둬야할 간단한 수학적 지식이다. 앞서 임성빈 교수님 수업에서도 말씀해주셨던 내용이지만 복습하는 의미로 적는다.

Bernoulli distribution

Bernoulli에는 1개의 paramter만 필요하다.

D = {Heads, Tail}
P(X=Heads) = p, then P(X=Tails) = 1 - 0
Write: X ~ Ber(p)

Categorical distribution

Categorical에는 m-1개의 parameter가 필요하다. m-1개의 요소들을 안다면, 나머지 1개의 요소는 자동적으로 결정되기 때문이다.

D = {1, ..., m}
P(Y=i) = $p_i$ , such that $\sum_{i=1}^m p_i$ = 1
Write: Y ~ Cat(p1, ..., pm)

RGB

$(r, g, b) \sim p(R, G, B)$
number of cases = 256 x 256 x 256
number of parameters = 256 x 256 x 256 - 1
- 1개의 rgb 픽셀을 표현하기 위한 parameter의 수는 매우 많다! 당연한 이야기지만..

Binary image

n pixel의 binary image를 가정해보자.
$2^n$ state가 필요하다.
Sampling from $p(x_1, ..., x_n)$ generate an image.
- $p(x_1, ..., x_n)$ 를 샘플링하기 위해서는 $2^n - 1$ 의 parameters가 필요하다.

즉, parameter의 수가 너무 많다. 줄여볼 수 없을까?

Structure through independence

Binary image에서 $X_1, ..., X_n$ 이 independent하다고 가정해보자.
사실 말이 안된다. 모든 픽셀이 independent하다면 표현할 수 있는 이미지는 화이트 노이즈일 뿐일 것이다. 하지만 그래도 가정해보자.

$p(x_1, ..., x_n) = p(x_1)p(x_2)...p(x_n)$

이 때, possible state의 수는 동일하게 $2^n$ 이다.

하지만 $p(x_1, ..., x_n)$ 를 위한 parameter의 수는 n개이다. 왜냐하면 각각의 픽셀에 대해서 필요한 parameter의 수는 1개이다. 또한 모두 independent하기 때문에, 모두 더하면 n이다.

Chain rule

그 어떤 가정도 필요없는 정리이다. 즉, 기본적인 출발선에서 시작하기 때문에 fully dependent model이라고 생각하자.

모든 parameter의 수는 $2^n -1 $이다. exponential reduction을 했다!

Bayes' rule

Conditional independence

x and y are conditional independent given z, p of x given y and z는 p of x given z와 같다. 라고 영어로 말하시더라.

z가 주어지고 x와 y가 indepedent하다면, random한 x를 볼 때 y는 상관없다는 것이다.

즉, chain rule이나 혹은 다른 수식에서 independent한 관계인 변수들이 있다면 조건부에서 날려주는 역할을 하는 정리이다.
이 정리를 사용해서 fully depedent model과 fully independent model 사이의 좋은 모델을 만들 것이다.

Markov assumption

chain rule에 Markov assumption을 적용해보자. RNN에 나왔던 가정인거 같은데, 현재 상태를 바로 이전의 상태만을 활용해서 정의하는 것이다.
즉, chain rule에서 이전의 모든 정보를 활용하는 항들이, n시점에서는 n-1만을 참조하는 항들로 바뀐다.

모든 parameter의 수는 $2n-1$ 이다.

fully independent하게 계산했던 parameter의 수인 n과 비교하면 크지만, dependent하게 계산했던 chain rule인 $2^n-1$ 에 비하면 exponential reduction하다.

즉, 이러한 형태로 중간의 sweet spot을 찾는 것이 auto-regressive model.

Auto-regressive model

28x28의 binary image를 사용한다고 가정.
$p(x) = p(x_1, ..., x_785)$ 를 $x\in\{0,1\}^{784}$ 에서 학습하는 것.
$p(x)$ 를 어떻게 parametrize할 것인가?
- chain rule을 사용해 joint distribution을 나눈다.
- 이것을 autoregressive model이라고 한다.
- markov assumption처럼 바로 이전의 정보만을 활용하는 것도 autoregressive model이다.
모든 random variables에 대해 순서를 부여해야한다.
- 순서에 따라 성능이 달라지기도 한다.