- 
Lt−1=t>1ΣDKL(q(xt−1∣xt,x0) ∣∣ pθ(xt−1∣xt)) 
- 
pθ(xt−1∣xt)=N(xt−1;μθ(xt,t),Σθ(xt,t))  for  1<t≤T 에서 μθ,Σθ를 어떻게 디자인할까? 
- 
 Σθ(xt,t) 
- Σθ(xt,t)=σt2I 로, sigma는 timestep에 따른 fixed constant로 설정하였음 (X train)
- σt2는 β~t:=1−αˉt1−αˉt−1βt 로 놓아도 되지만 (q(xt−1∣xt,x0)의 sigma) 실험적으로는 그냥 βt로 놓는 거랑 별 차이 없었음
- 따라서 Σθ(xt,t)=βtI로 설정
 
- 
 μθ(xt,t) 
- Lt−1을 μ를 이용해서 다시 쓰면,
 Lt−1=Eq[2σt21∣∣μ~t(xt,x0)−μθ(xt,t)∣∣2]+C
- 여기서 μ~는 forward process posterior mean이고, 우리의 μθ 모델이 이걸 예측하도록 하게 만들면 된다
 
- 
 introducing ϵ 
-  xt(x0,ϵ)=αˉtx0+1−αˉtϵ   for   ϵ∼N(0,I)
-  using one-step diffusion
-  이걸로 Lt−1 식을 reparameterizing하면 좀 더 단순화시킬 수 있다
- μ~t 계산 과정에 넣어보면 증명됨
 
 Lt−1=Ex0,ϵ[2σt21∣∣∣∣∣∣∣∣∣∣μ~t(xt(x0,ϵ),αˉt1xt(x0,ϵ)−1−αˉtϵ)−μθ(xt(x0,ϵ),t)∣∣∣∣∣∣∣∣∣∣2]=Ex0,ϵ[2σt21∣∣∣∣∣∣∣∣∣∣αt1(xt(x0,ϵ)−1−αˉtβtϵ)−μθ(xt(x0,ϵ),t)∣∣∣∣∣∣∣∣∣∣2] 
-  이제 μθ는 αt1(xt−1−αˉtβϵ)   given   t 를 예측해야 함.μθ(xt,t)=αt1(xt−1−αˉtβtϵθ(xt,t)) 
- 여기서 ϵθ는 xt의 noise를 예측하는 모델
 
- μ를 ϵ으로 바꿔서 Lt−1을 한번 더 단순화시키면,Lt−1=Ex0,ϵ[2σt2αt(1−αˉt)βt2∣∣∣∣∣∣ϵ−ϵθ(αˉtx0+1−αˉtϵ,t)∣∣∣∣∣∣2] 
 
- 
 이제 Lt−1은 denoising score matching과 같은 꼴이 된다 
- Lt−1는 Langevin-like reverse process의 variational bound와 같아짐