
심층 생성 모델은 이미지, 텍스트, 오디오와 같은 고차원 데이터를 학습하여, 원본 데이터와 유사한 새로운 샘플을 만들어내는 신경망이다.

VAE는 확률적 잠재 공간을 통해 데이터를 생성하는 모델로, 직접 계산하기 어려운 로그 가능도 대신 ELBO을 최대화함으로써 학습한다.

복잡한 데이터를 기존의 일반적인 VAE보다 더 높은 성능으로 모델링하기 위해 도입된 계층형 변분 오토인코더(HVAE) 는 기존 VAE 구조에 여러 단계의 잠재 변수 계층을 추가하여 고차원 데이터의 다층적 구조를 효과적으로 포착한다. 이러한

Denoising Diffusion Probabilistic Models(DDPM)은 데이터를 점진적으로 노이즈화하는 고정된 정방향 과정과 이를 역으로 복원하는 학습 가능한 역방향 과정으로 구성된 변분적 생성 모델이다.

EBM(Energy-Based Model)은 에너지 함수를 통해 확률분포를 정의하며, 데이터가 존재하는 영역의 에너지를 낮추는 방식으로 분포를 모델링한다.

이 글에서는 EBM에서 출발해 score 함수가 생성 모델링의 핵심으로 자리잡게 되는 관점의 전환을 설명했다.

이번 글에서는 score matching의 계산적 한계를 출발점으로 삼아, DSM(Denoising Score Matching) 이 어떻게 보다 안정적이고 확장 가능한 학습 프레임워크로 이어지는지를 체계적으로 정리했다.

단일 노이즈의 DSM에서 더 나아가 다중 노이즈 레벨을 사용하는 NCSN은 여러 노이즈 수준에 조건부로 학습된 하나의 score 모델을 통해 annealing된 Langevin dynamics 를 사용하여 샘플을 생성한다.

확산 모델은 이산적인 노이즈 추가 및 제거 과정으로 보이지만, 연속 시간 관점으로 확장하면 하나의 미분방정식 혹은 확률미분방정식(SDE) 을 푸는 문제로 재해석된다.

이 글에서는 이러한 다중 노이즈 스케일의 아이디어를 한 단계 끌어올려 이산적인 노이즈 레벨을 넘어서 연속적인 노이즈 수준의 연속체를 다루는 프레임워크, 즉 Score SDE의 이론적 기반을 본격적으로 소개할 예정이다.