

](https://velog.velcdn.com/images/choidaedae/post/e8f4756f-20cd-4530-8389-6725a1402429/image.png)

이 대신, SDXL에서는 버리는 이미지 없이 이미지를 upsampling해서 학습에 사용하지만, UNet model에 original image resolution에 대한 condition을 주는 방법을 택한다.
더 자세히는, 모델에 을 conditioning한다. 각 component는 fourier feature encoding을 통해 임베딩되고, 이 encoding들은 하나의 single vector로 concat된 뒤 timestep embedding에 더해진다.
Inference 때는 사용자가 이 size conditioning을 통해 원하는 apparent resolution을 지정할 수 있다.

해당 conditioning에 대해 실험을 해 보았는데, 512-512 이미지를 학습하는 모델을 학습하면서 1) embedding을 항상 512-512로 줌. 2) embedding을 주지 않음. 3) size conditioning을 넣어줌. 등의 3가지 다른 세팅으로 모델을 학습한 뒤 결과를 측정하였을 때 적절한 size conditioning을 넣어주는 것이 FID, IS 측면에서 가장 좋았다.






