Diffusion model

Youngho LEE·2025년 7월 13일

Diffusion Model Gaussian Noise Generative Modeling

Forward 단계에서 입력 이미지를 $T$ 번에 걸쳐 점점 더 강한 가우시안 노이즈로 덮어 "완전한 잡음" $x_T$ 까지 보낸 뒤
Reverse (denosing) 단계에서 같은 횟수(또는 압축된 횟수)만큼 U-Net 계열 신경망이 노이즈를 한 스텝씩 제거하며 원하는 분포로 되돌린다.이 과정을 "확률적 열역학을 거꾸로 돌려 그림을 복원한다"라고 이해하면 쉽다.

텍스트 임베딩(예: CLIP, 작은 LLM)을 조건(conditioning)으로 넣어 주면, 네트워크는 "다음 스텝에서 어떤 노이즈를 없앨지"를 문장 의미에 맞게 조정한다.
Stable Diffusion, DALL-E, Midjourney 등이 이 방식을 그대로 확장한 사례이다.

장점

고품질•세밀한 질감 : 픽셀 공간(또는 잠재 공간)에서 세분화된 역전파 학습 → FID•PSNR 등 수치 우수
학습 안정성 : GAN처럼 두 네트워크를 경쟁시키지 않아 node collapse 위험 낮음, 수렴 더 안정
다양성 확보 : 매 스텝이 확률적이며 조건 없이도 다양한 샘플 분포 탐색 가능
조건부 제어 용이 : 텍스트•스케치•클래스 라벨 등 어떤 조건도 추가 입력 채널만 늘리면 적용
확장성&하드웨어 친화 : Latent Diffusion, 하이브리드 HART 등으로 메모리•연산량 대폭 축소, 로컬 GPU•스마트폰도 가능
범용성 : 이미지 외에 오디오•분자의료영상까지 같은 확률 흐름 공식 재활용

출처

Youngho LEE

개발자

이전 포스트

GAN (Generative Adversarial Network)

다음 포스트

Diffusion model

장점

GAN (Generative Adversarial Network)

텍스트 데이터 전처리

0개의 댓글