Text-to-Image 생성 모델 DALL-E 2

유현·2023년 2월 15일

DALL-E 2 관련 아티클 제작을 위한 간단 리서치

흥미로운 자료

생성 AI가 영상 편집 기술과 접목될 때 가져올 변화를 나타낸 영상이다.
마우스 드래그 한 번이면 영상 속 가로등이 지워지고, 프롬프트를 통해 원하는 영상과 자막을 생성한다. ~~클릭 한 번으로 영상 속 개체를 지울 수 있는 건 정말 신기하다....~~

DALL-E 2란?

OpenAI가 2022년 4월에 공개한 모델이다.
Text-to-Image, 그러니까 텍스트를 통해 이미지를 만들어내는 Generative AI이다.

간단한 텍스트만으로 이미지를 제작할 수 있다니, 이제 예술 작품을 만들기 위해 예술을 알 필요가 없는 시대가 오지 않을까? '인공지능의 창작성'이라는 화두가 가장 잘 어울리는 모델 중 하나이다.

DALL-E 2가 생성한 이미지 몇 개를 OpenAI 홈페이지에서 가져왔다.

>>> Teddy bears mixing sparkling chemicals as mad scientists

>>> A bowl of soup that is a portal to another dimension as digital art

나도 한 번 생성해 봤다.

왠지 모르게 무섭고 심오한 이미지가 생성되었다. 세 번째 이미지가 제일 마음에 드는데? 😄

이전 버전에서 개선된 점

2021년 1월에 출시된 DALL-E의 첫 번째 버전은 OpenAI 자사 언어 모델 GPT-3에 사용된 기술을 확장해서 사용했다. 문장 안에서 단어를 구성하듯이, 이미지 안에서 다음 픽셀을 예측하는 방식으로 이미지를 생성한 것
그에 반해 , 2022년 4월에 출시된 DALL-E 2는 Diffusion Model을 사용했다. 학습 과정에서 더해진 픽셀 노이즈를 제거하여 이미지를 정리하도록 학습한 것
윤리적 규제를 위해, 나름의 통제 장치를 도입했다. 유명인 이미지는 생성을 못하도록 막았다.
이전 버전에서는 CEO와 소방관은 모두 백인 남자, 교사와 간호사는 모두 백인 여자였으나, 현재 버전에서는 다양성을 반영했다고 한다.
유료 구독 서비스를 도입해 사용자가 제작한 이미지를 상업적으로 활용 가능하게끔 하는 권한을 부여했다. DALL-E 2로 만든 이미지 판매 및 리프린팅(Reprinting)이 가능해진 것.
DALL-E 1보다 해상도가 4배 높고, 더 사실적이고 정확한 이미지 생성이 가능하다.

DALL-E 2의 내부는 '블랙박스'와도 같다

사용자가 짧은 명령어, 즉 프롬프트(Prompt)를 입력하고 몇 초 기다리면, 입력한 프롬프트 텍스트에 알맞은 이미지가 몇 개 생성된다.
사용자는 의도를 더 잘 반영하는 방향으로 프롬프트 텍스트를 수정한다.
이 과정을 프롬프트 엔지니어링이라고 한다.
이 때 사용자는 이미지 생성기의 내부에서 어떤 일이 일어나는지 모른다.

모델 구성

두 개의 신경망으로 구성된다.

하나는 이미지와 해당 이미지를 설명하는 텍스트(캡션)을 연력하도록 학습되고,
다른 하나는 아무런 사전 지식없이 이미지를 생성하도록 학습된다.
두 번째 신경망이 이미지를 생성하면, 첫 번째 신경망이 해당 이미지가 프롬프트와 일치하는지 확인해서 승인하는 방식

학습 과정

Diffusion model을 사용하여, 학습 과정에서 더해진 픽셀 노이즈를 제거해 이미지를 정리하도록 학습한다.
이미지를 가져와서 원래 이미지가 지워지고 임의로 배치된 픽셀만 남겨질 때까지 픽셀을 조금씩 바꾸는 단계를 수없이 반복한다.
Stable Diffusion에 사용된 Diffusion model 개발에 기여한 비외른 오머는 "이 작업을 천 번 정도 반복하면 결국에는 텔레비전에서 안테나 케이블을 뽑아버렸을 때 나오는 노이즈 같은 이미지가 만들어진다."라고 설명했다.
그 후, 신경망은 이 과정을 되돌려서 주어진 이미지의 픽셀이 정리된 모습을 예측하도록 학습한다.
그렇게 정리된 픽셀을 다시 입력하면 Diffusion model은 픽셀을 더 정리해서 이미지를 생성한다.
최종적으로 노이즈로 가득했던 텔레비전 화면을 고해상도 이미지로 돌려놓을 수 있게 된다.
한 마디로 "노이즈를 만든 후 되돌아가며 원본을 예측하는 방식"

동작 원리

텍스트와 시각적 Semantics 연결

CLIP 모델 이용 -> 수많은 이미지와 관련 캡션을 이용하여 해당 이미지와 캡션의 연관성을 학습한다.

시각적 Semantics로부터 이미지 생성

GLIDE 모델 이용 -> 이미지 인코딩 프로세스를 되돌아가며 학습한다. 여기서 Diffusion 모델을 사용한다.

텍스트의 의미 -> 해당 시각적 Semantics 매핑

Prior 모델 이용 -> 이미지 캡션의 텍스트 인코딩을 해당 이미지의 이미지 인코딩으로 매핑한다.

모든 것을 통합

CLIP 텍스트 인코더가 이미지 설명을 표현 공간에 매핑

DIffusion Prior가 CLIP 텍스트 인코딩을 관련 CLIP 이미지 인코딩으로 매핑

수정된 GLIDE 생성 모델이 역확산을 이용해 표현 공간을 이미지 공간으로 매핑하고, 입력된 캡션 내에서 Semantics를 전달하는 이미지들을 생성

유현

중요한 것은 꺾이지 않는 런타임

이전 포스트

초거대 AI 시장에 불을 지피다, GPT-3

다음 포스트