DALL-E 2 관련 아티클 제작을 위한 간단 리서치
흥미로운 자료
생성 AI가 영상 편집 기술과 접목될 때 가져올 변화를 나타낸 영상이다.
마우스 드래그 한 번이면 영상 속 가로등이 지워지고, 프롬프트를 통해 원하는 영상과 자막을 생성한다. 클릭 한 번으로 영상 속 개체를 지울 수 있는 건 정말 신기하다....
DALL-E 2란?
OpenAI가 2022년 4월에 공개한 모델이다.
Text-to-Image, 그러니까 텍스트를 통해 이미지를 만들어내는 Generative AI이다.
간단한 텍스트만으로 이미지를 제작할 수 있다니, 이제 예술 작품을 만들기 위해 예술을 알 필요가 없는 시대가 오지 않을까? '인공지능의 창작성'이라는 화두가 가장 잘 어울리는 모델 중 하나이다.
DALL-E 2가 생성한 이미지 몇 개를 OpenAI 홈페이지에서 가져왔다.
>>> Teddy bears mixing sparkling chemicals as mad scientists

>>> A bowl of soup that is a portal to another dimension as digital art

나도 한 번 생성해 봤다.

왠지 모르게 무섭고 심오한 이미지가 생성되었다. 세 번째 이미지가 제일 마음에 드는데? 😄
이전 버전에서 개선된 점
- 2021년 1월에 출시된 DALL-E의 첫 번째 버전은 OpenAI 자사 언어 모델 GPT-3에 사용된 기술을 확장해서 사용했다. 문장 안에서 단어를 구성하듯이, 이미지 안에서 다음 픽셀을 예측하는 방식으로 이미지를 생성한 것
- 그에 반해 , 2022년 4월에 출시된 DALL-E 2는 Diffusion Model을 사용했다. 학습 과정에서 더해진 픽셀 노이즈를 제거하여 이미지를 정리하도록 학습한 것
- 윤리적 규제를 위해, 나름의 통제 장치를 도입했다. 유명인 이미지는 생성을 못하도록 막았다.
- 이전 버전에서는 CEO와 소방관은 모두 백인 남자, 교사와 간호사는 모두 백인 여자였으나, 현재 버전에서는 다양성을 반영했다고 한다.
- 유료 구독 서비스를 도입해 사용자가 제작한 이미지를 상업적으로 활용 가능하게끔 하는 권한을 부여했다. DALL-E 2로 만든 이미지 판매 및 리프린팅(Reprinting)이 가능해진 것.
- DALL-E 1보다 해상도가 4배 높고, 더 사실적이고 정확한 이미지 생성이 가능하다.

DALL-E 2의 내부는 '블랙박스'와도 같다
- 사용자가 짧은 명령어, 즉 프롬프트(Prompt)를 입력하고 몇 초 기다리면, 입력한 프롬프트 텍스트에 알맞은 이미지가 몇 개 생성된다.
- 사용자는 의도를 더 잘 반영하는 방향으로 프롬프트 텍스트를 수정한다.
- 이 과정을 프롬프트 엔지니어링이라고 한다.
- 이 때 사용자는 이미지 생성기의 내부에서 어떤 일이 일어나는지 모른다.
모델 구성
두 개의 신경망으로 구성된다.
- 하나는 이미지와 해당 이미지를 설명하는 텍스트(캡션)을 연력하도록 학습되고,
- 다른 하나는 아무런 사전 지식없이 이미지를 생성하도록 학습된다.
- 두 번째 신경망이 이미지를 생성하면, 첫 번째 신경망이 해당 이미지가 프롬프트와 일치하는지 확인해서 승인하는 방식
학습 과정
- Diffusion model을 사용하여, 학습 과정에서 더해진 픽셀 노이즈를 제거해 이미지를 정리하도록 학습한다.
- 이미지를 가져와서 원래 이미지가 지워지고 임의로 배치된 픽셀만 남겨질 때까지 픽셀을 조금씩 바꾸는 단계를 수없이 반복한다.
- Stable Diffusion에 사용된 Diffusion model 개발에 기여한 비외른 오머는 "이 작업을 천 번 정도 반복하면 결국에는 텔레비전에서 안테나 케이블을 뽑아버렸을 때 나오는 노이즈 같은 이미지가 만들어진다."라고 설명했다.
- 그 후, 신경망은 이 과정을 되돌려서 주어진 이미지의 픽셀이 정리된 모습을 예측하도록 학습한다.
- 그렇게 정리된 픽셀을 다시 입력하면 Diffusion model은 픽셀을 더 정리해서 이미지를 생성한다.
- 최종적으로 노이즈로 가득했던 텔레비전 화면을 고해상도 이미지로 돌려놓을 수 있게 된다.
- 한 마디로 "노이즈를 만든 후 되돌아가며 원본을 예측하는 방식"
동작 원리
- 텍스트와 시각적 Semantics 연결
- CLIP 모델 이용 -> 수많은 이미지와 관련 캡션을 이용하여 해당 이미지와 캡션의 연관성을 학습한다.
- 시각적 Semantics로부터 이미지 생성
- GLIDE 모델 이용 -> 이미지 인코딩 프로세스를 되돌아가며 학습한다. 여기서 Diffusion 모델을 사용한다.
- 텍스트의 의미 -> 해당 시각적 Semantics 매핑
- Prior 모델 이용 -> 이미지 캡션의 텍스트 인코딩을 해당 이미지의 이미지 인코딩으로 매핑한다.
- 모든 것을 통합
- CLIP 텍스트 인코더가 이미지 설명을 표현 공간에 매핑
- DIffusion Prior가 CLIP 텍스트 인코딩을 관련 CLIP 이미지 인코딩으로 매핑
- 수정된 GLIDE 생성 모델이 역확산을 이용해 표현 공간을 이미지 공간으로 매핑하고, 입력된 캡션 내에서 Semantics를 전달하는 이미지들을 생성