Forward 단계에서 입력 이미지를 번에 걸쳐 점점 더 강한 가우시안 노이즈로 덮어 "완전한 잡음" 까지 보낸 뒤
Reverse (denosing) 단계에서 같은 횟수(또는 압축된 횟수)만큼 U-Net 계열 신경망이 노이즈를 한 스텝씩 제거하며 원하는 분포로 되돌린다.이 과정을 "확률적 열역학을 거꾸로 돌려 그림을 복원한다"라고 이해하면 쉽다.
텍스트 임베딩(예: CLIP, 작은 LLM)을 조건(conditioning)으로 넣어 주면, 네트워크는 "다음 스텝에서 어떤 노이즈를 없앨지"를 문장 의미에 맞게 조정한다.
Stable Diffusion, DALL-E, Midjourney 등이 이 방식을 그대로 확장한 사례이다.

출처