Example of DALLE-2
말을 타고 있는 우주인 - 실사화
![](https://velog.velcdn.com/images/sjinu/post/9a3483d4-3975-438a-a856-5d9b339f1e92/image.png)
말을 타고 있는 우주인 - 앤디워홀 스타일
![](https://velog.velcdn.com/images/sjinu/post/add6dbf2-5734-4790-b53c-9c8ab6284319/image.png)
불꽃튀는 화학 약품을 섞는 미친 과학자스러운 테디베어 - 디지털화
![](https://velog.velcdn.com/images/sjinu/post/f03e345f-8c1e-4e4a-986d-59e93b7a2bfa/image.png)
다른 차원으로 가는 포탈인 국 한그릇 - 디지털화
![](https://velog.velcdn.com/images/sjinu/post/0898a2ec-c1a4-41b3-a14a-bfcaccdc8b72/image.png)
우주 내 열대 리조트에서 쉬고있는 우주선 - 베이퍼웨이브 스타일
![](https://velog.velcdn.com/images/sjinu/post/02ef3eaa-7b7c-491d-a8ce-8d64ad072094/image.png)
DALLE-2 논문
- Representation이 얼마나 중요한가?
![](https://velog.velcdn.com/images/sjinu/post/84f474b2-b6d8-4a4d-b58c-8ba46e2a2a3e/image.png)
- 핵심은 [Text-Image] 의 joint representation을 학습하는 것.
![](https://velog.velcdn.com/images/sjinu/post/0688275c-5149-4089-9558-6d05341546c8/image.png)
DALL-E 1에서도..
출처
Image의 정보를 잘 압축해야 할 latent vector
![](https://velog.velcdn.com/images/sjinu/post/94ce86f0-cdef-4b96-9de9-c5e56023e269/image.png)
Latent(representation) space의 중요성
![](https://velog.velcdn.com/images/sjinu/post/a8113407-0f90-4dd2-9952-8540a53e50ae/image.png)
dVAE는 이미지를 32x32 token으로 인코딩하고, 트랜스포머는 이 이미지 토큰을 텍스트 토큰과 결합해 joint representation을 학습한다.
![](https://velog.velcdn.com/images/sjinu/post/6630c6bd-70ad-4763-a07b-c7090611268e/image.png)