디퓨전 모델(Diffusion Models)은 GAN, VAE를 뛰어넘는 안정성과 샘플 품질로 이미지 생성 분야의 중심으로 떠올랐습니다.
그러나 한 가지 명확한 한계가 있었습니다.
“대규모 고해상도 이미지를, 강한 조건 없이도 잘 만들 수 있는가?”
기존 연구들은
에 의존하는 경우가 많았습니다.
이 논문은 ImageNet 같은 대규모·고해상도 환경에서도, 순수 디퓨전 모델만으로 최고 품질을 달성할 수 있는가라는 질문에서 출발합니다.
CDM의 핵심은 단순하지만 강력합니다.
“고해상도 이미지를 한 번에 생성하려 하지 말고, 저해상도에서 시작해 단계적으로 키운다.”
이를 위해 여러 개의 디퓨전 모델을 파이프라인 형태로 연결합니다.

이 구조 덕분에
단계적 생성에는 치명적인 문제가 하나 있습니다.
학습 시 (Training phase):
실제 생성 시 (Test phase):
이 차이 때문에 Train–Test Mismatch가 발생하고,
앞 단계의 작은 실수가 뒤 단계에서 크게 증폭됩니다.
논문이 제안한 핵심 기술은 Conditioning Augmentation입니다.
초해상도 모델을 학습할 때
입력되는 저해상도 이미지에
즉,
“망가진 입력에도 잘 작동하도록 일부러 단련시키는 것”
그 결과,
Figure 1은 CDM의 전체 파이프라인을 직관적으로 보여줍니다.
32×32 Base Model
64×64 Super-resolution
256×256 Super-resolution
모든 단계는 동일한 클래스 조건을 공유하며,
각 업스케일러는 Conditioning Augmentation으로 학습됩니다.
이 논문은 단순한 구조 제안에 그치지 않습니다.
Cascaded Diffusion은 과거의 아이디어가 아닙니다.
즉,
“최고 화질이 필요한 곳에서는 여전히 Cascaded Diffusion이 정답”
이라는 것이 업계의 합의에 가깝습니다.
Cascaded Diffusion Models는 ‘단계적 생성’과 ‘Conditioning Augmentation’을 결합해 디퓨전 모델로 고해상도 이미지 생성의 한계를 돌파한 지금도 유효한 핵심 아키텍처다.