Learning A Generative Model
Setting
- Pdata: domain에 대한 underlying distribution. unknown 상태.
- D: Pdata로 부터 sampling한 dataset.
- IID: dataset의 모든 sample은 independent and identically distributed.
Goal of Learning
Learning의 목적은 주어진 dataset을 가지고 Pdata를 잘 approximation하는 model Pθ를 찾는 것이다.
- Pdata와 동일한 Pθ를 찾는 것은 현실적으로 불가능하다. 왜냐하면, 주어진 dataset은 underlying disturibution의 일부(subset)이고, sample이 갖는 데이터의 dimension은(parameters)는 대부분 고차원이다. 따라서 dataset은 항상 sparse coverage를 갖게된다.
What is Best?
어떤 Pθ가 잘 approximation한 model인지 알기 위해서는 model을 평가할 기준이 필요하다. generative model 관점에서는 Pdata distribution과 얼마나 유사한 distribution을 갖는지를 평가 기준으로 삼을 수 있다. (density estimation) 즉, 두 distribution의 distance가 얼마나 작은지를 가지고 model을 평가한다.
- Minminze d(Pdata,Pθ)
KL Divergence
두 distribution에 대한 distance 척도로 KL divergence를 이용할 수 있다.
- D(p∣∣q)=x∑p(x)logq(x)p(x)≥0
KL divergence는 다음과 같은 특징을 갖는다.
- p와 q가 동일한 경우에만 0이 됨
- asymestric. D(p∣∣q)=D(q∣∣p)
Maximum Likelihood
KL divergence를 이용하여 Pdata와 Pθ의 distance를 평가하면 다음과 같은 식을 얻을 수 있다.
- D(Pdata∣∣Pθ)=Ex∼Pdata[log(Pθ(x)Pdata(x))]=Ex∼Pdata[logPdata(x)]−Ex∼Pdata[logPθ(x)]
위 식 맨 마지막 수식의 first term은 θ에 depend 하지 않기 때문에, θ 학습과 무관하다. 따라서 무시가 가능하고, first term을 제외하고 보면 likelihood와 동일한 수식임을 알 수 있다. 즉, KL divergence를 minimizing 하는 것은, likelihood를 maximizing 하는 것과 동일하다.(Maximum likelihood)
- PθargminD(Pdata∣∣Pθ)=Pθargmin−Ex∼Pdata[logPθ(x)]=PθargmaxEx∼Pdata[logPθ(x)]
Maximum likelihood의 가장 큰 단점은, true distribution Pdata와 얼마나 가까워 졌는지를 측정 할 방법이 없다는 점이다. (likelihood를 최대화하면, true distribution과 가까워 진다는 것만 알 수 있고, 정확히 얼마나 가까워 졌는지는 측정 할 수 없음)
Approximation
위 식을 optimization 하기 위해서는 Pdata를 알아야 하지만, 일반적으로 Pdata는 알려져 있지 않다. 따라서 likelihood optimization을 위해 empirical likelihood를 사용한다.
- ED[logPθ(x)]=∣D∣1x∈D∑logPθ(x)
- maximum likelihood learning = Pθmax∣D∣1x∈D∑logPθ(x)
Monte Carlo Estimation
위 approximation의 기본 아이디어는 monte carlo estimation에 근거한다. monte carlo estimation에 의하면 true expectaion의 estimation은 distribution으로 부터 sampling한 데이터들의 average가 된다.
- Ex∼P[g(x)]≃T1t=1∑Tg(xt)=defg^(x1,⋯,xT)
이때 x1,⋯,xT가 random variable이기 때문에 g^(x1,⋯,xT) 역시 random variable로 볼 수 있다.
Monte carlo estimation은 다음과 같은 특성을 가진다.
- Unbiased: EP[g^]=EP[g(x)]
- Convergence: 큰 수의 법칙에 의해, g^→EP[g(x)] for T→∞
- Variance: VP[g^]=VP[T1t=1∑Tg(xt)]=TVP[g(x)]
Extending the MLE Principle to Autoregressive Models
MLE를 autoregressive에 적용하면 다음과 같은 식을 얻을 수 있다.
- logL(θ,D)=j=1∑mi=1∑nlogpneural(xij∣x<ij,θi)
위 식에 대한 closed form solution은 구할 수 없으므로, 위 식을 loss로 하여 gradient descent를 적용해 autoregressive model을 학습 할 수 있다.
Empiricla Risk and Overfitting
MLE는 쉽게 overfitting 된다. 따라서 hypothesis space를 제한하여 overfitting을 방지한다. (regularization) 이때, 과한 regularization은 모델의 representation 능력이 떨어지는 bias가 발생하고, 약한 regularization은 generalization이 떨어지는 variance가 발생한다. 둘은 trade-off 관계이며, 적절한 balance를 이루는 것이 중요하다.
Reference
cs236 Lecture 4