
이미지의 의미와 스타일을 모두 포착하는 강력한 표현을 학습할 수 있음이 입증됨CLIP 이미지 임베딩을 생성하는 프라이어(prior), 이미지 임베딩을 조건으로 이미지를 생성하는 디코더(decoder)캡션과의 유사성과 포토리얼리즘(photorealism)의 손실을 최소화하면서 이미지 다양성이 향상됨을 보여줍니다. image representation을 조건으로 사용하는 디코더는 아래 특징을 가진 변형 이미지를 생성할 수 있습니다.디코더로 확산 모델(diffusion model)을 사용하고, 오토회귀 모델(autoregressive model)과 확산 모델을 모두 실험했으며, 확산 모델이 계산적으로 더 효율적이며 더 높은 품질의 샘플을 생성함을 발견CLIP 임베딩은
동시에, 확산 모델도 발전
최상의 결과를 얻기 위해 확산 모델은, 아래의 특징을 지닌 가이던스(guidance) 기법을 활용
텍스트 조건부 이미지 생성 문제를 해결하기 위해 이 두 가지 접근 방식을 결합diffusion 디코더를 훈련 인버터(inverter)는 비결정적이며, 주어진 이미지 임베딩에 해당하는 여러 이미지를 생성할 수 있습니다.대략적인 역변환 도구인 디코더의 존재는 -> 텍스트-이미지 변환을 넘어서 여러 기능을 제공



CLIP 이미지 임베딩 디코더와 텍스트 캡션에서 가능한 CLIP 이미지 임베딩을 생성하는 프라이어 모델을 결합 잠재 공간에서 diffusion 프라이어를 훈련하는 방법을 개발했으며, 오토회귀 프라이어와 유사한 성능을 내면서도 계산 효율성이 더 높음을 증명CLIP 임베딩에 기반한 이미지 생성을 조건화하면두 개의 개별 객체(큐브)(objects)에 두 개의 개별 속성(색상)(attributes)을 결합해야 하는 프롬프트에서 GLIDE보다 더 고전하는 것을 확인할 수 있습니다. 
CLIP 임베딩 자체가 속성을 객체에 명시적으로 결합하지 않기 때문이라고 가정하며, 디코더로부터의 재구성이 속성과 객체를 자주 혼합한다는 것을 그림 15에서 보여줍니다. 
unCLIP이 일관된 텍스트를 생성하는 데 어려움을 겪는다는 점으로, 이는 그림 16에 나타나 있습니다. 
학습 이미지에서 각 토큰을 독립적으로 봐야만 이를 렌더링하는 법을 학습할 수 있습니다.