Diffusion model

Youngho LEE·2025년 7월 13일

Forward 단계에서 입력 이미지를 TT번에 걸쳐 점점 더 강한 가우시안 노이즈로 덮어 "완전한 잡음" xTx_T까지 보낸 뒤
Reverse (denosing) 단계에서 같은 횟수(또는 압축된 횟수)만큼 U-Net 계열 신경망이 노이즈를 한 스텝씩 제거하며 원하는 분포로 되돌린다.이 과정을 "확률적 열역학을 거꾸로 돌려 그림을 복원한다"라고 이해하면 쉽다.

텍스트 임베딩(예: CLIP, 작은 LLM)을 조건(conditioning)으로 넣어 주면, 네트워크는 "다음 스텝에서 어떤 노이즈를 없앨지"를 문장 의미에 맞게 조정한다.
Stable Diffusion, DALL-E, Midjourney 등이 이 방식을 그대로 확장한 사례이다.

장점

  • 고품질•세밀한 질감 : 픽셀 공간(또는 잠재 공간)에서 세분화된 역전파 학습 → FID•PSNR 등 수치 우수
  • 학습 안정성 : GAN처럼 두 네트워크를 경쟁시키지 않아 node collapse 위험 낮음, 수렴 더 안정
  • 다양성 확보 : 매 스텝이 확률적이며 조건 없이도 다양한 샘플 분포 탐색 가능
  • 조건부 제어 용이 : 텍스트•스케치•클래스 라벨 등 어떤 조건도 추가 입력 채널만 늘리면 적용
  • 확장성&하드웨어 친화 : Latent Diffusion, 하이브리드 HART 등으로 메모리•연산량 대폭 축소, 로컬 GPU•스마트폰도 가능
  • 범용성 : 이미지 외에 오디오•분자의료영상까지 같은 확률 흐름 공식 재활용

출처

profile
개발자

0개의 댓글