
CVPR2023
DemoFusion
Any size diffusion task
paper
High-resolution image generation with Generative Artificial Intelligence (GenAI) has immense potential but, due to the enormous capital investment required for training, it is increasingly centralised to a few large corporations, and hidden behind paywalls. This paper aims to democratise high-resolution GenAI by advancing the frontier of high-resolution generation while remaining accessible to a broad audience. We demonstrate that existing Latent Diffusion Models (LDMs) possess untapped potential for higherresolution image generation. Our novel DemoFusion framework seamlessly extends open-source GenAI models, employing Progressive Upscaling, Skip Residual, and Dilated Sampling mechanisms to achieve higher-resolution image generation. The progressive nature of DemoFusion requires more passes, but the intermediate results can serve as “previews”, facilitating rapid prompt iteration.
특정 scale이 아닌 여러 scale로 생성할 수 있게끔. 고화질로 뽑겠다.
GenAI를 돌리는 건 자원이 많이 요구됨. data, hardware, energy 등등 레파토리 비슷함.
그래서 응응. 우리가 DM의 고화질 이미지를 더더 많은 해상도로 push 해줄게! 라는 아이디어. 신기한건 training-free, 몇 줄의 코드로 접근했다는 거다! 여러 번 돌리는 거라 시간이 좀 더 걸리지만 해상도는 좋다 라고 주장.
https://kimjy99.github.io/%EB%85%BC%EB%AC%B8%EB%A6%AC%EB%B7%B0/multidiffusion/
를 Multidiffusion을 참고해야할듯, crop sampling이 뭔지? 메소드만 이해해보기.
progress Upscalig때문에 런타임이 오래 걸리겠지만 메모리 소비는 적고, 점진적인 생성을 통해 프리뷰를 제공하기 때문에 만족스러울 때까지 기다릴 수 있다? 라는 장점




diffusion에서 보통 바로 forward pass 안 하고, t단계를 걸쳐서 서서히 진행하는 것이 일반적임. 근데 t가 클 수록 정보 손실의 우려가 있고 작을수록 Upsampling으로 인한 noise가 강해짐
이를 막기 위해 Skip Residual 을 적용함. 보니까 t단계의 원본이미지와 t단계의 샘플링된 이미지를 넣어서 SR을 하더라

c1값은 scaled cosine decay factor인데 알파값을 통해서 denoising 단계에서 얼만큼 이전 phase의 결과값을 이용할 건지를 조절하는 factor라고 생각하면 된다.





