Text-to-Image 생성 모델 DALL-E 2

유현·2023년 2월 15일
0

DALL-E 2 관련 아티클 제작을 위한 간단 리서치

흥미로운 자료

생성 AI가 영상 편집 기술과 접목될 때 가져올 변화를 나타낸 영상이다.
마우스 드래그 한 번이면 영상 속 가로등이 지워지고, 프롬프트를 통해 원하는 영상과 자막을 생성한다. 클릭 한 번으로 영상 속 개체를 지울 수 있는 건 정말 신기하다....

DALL-E 2란?

OpenAI가 2022년 4월에 공개한 모델이다.
Text-to-Image, 그러니까 텍스트를 통해 이미지를 만들어내는 Generative AI이다.

간단한 텍스트만으로 이미지를 제작할 수 있다니, 이제 예술 작품을 만들기 위해 예술을 알 필요가 없는 시대가 오지 않을까? '인공지능의 창작성'이라는 화두가 가장 잘 어울리는 모델 중 하나이다.

DALL-E 2가 생성한 이미지 몇 개를 OpenAI 홈페이지에서 가져왔다.

>>> Teddy bears mixing sparkling chemicals as mad scientists

>>> A bowl of soup that is a portal to another dimension as digital art

나도 한 번 생성해 봤다.

왠지 모르게 무섭고 심오한 이미지가 생성되었다. 세 번째 이미지가 제일 마음에 드는데? 😄

이전 버전에서 개선된 점

  • 2021년 1월에 출시된 DALL-E의 첫 번째 버전은 OpenAI 자사 언어 모델 GPT-3에 사용된 기술을 확장해서 사용했다. 문장 안에서 단어를 구성하듯이, 이미지 안에서 다음 픽셀을 예측하는 방식으로 이미지를 생성한 것
  • 그에 반해 , 2022년 4월에 출시된 DALL-E 2는 Diffusion Model을 사용했다. 학습 과정에서 더해진 픽셀 노이즈를 제거하여 이미지를 정리하도록 학습한 것
  • 윤리적 규제를 위해, 나름의 통제 장치를 도입했다. 유명인 이미지는 생성을 못하도록 막았다.
  • 이전 버전에서는 CEO와 소방관은 모두 백인 남자, 교사와 간호사는 모두 백인 여자였으나, 현재 버전에서는 다양성을 반영했다고 한다.
  • 유료 구독 서비스를 도입해 사용자가 제작한 이미지를 상업적으로 활용 가능하게끔 하는 권한을 부여했다. DALL-E 2로 만든 이미지 판매 및 리프린팅(Reprinting)이 가능해진 것.
  • DALL-E 1보다 해상도가 4배 높고, 더 사실적이고 정확한 이미지 생성이 가능하다.

DALL-E 2의 내부는 '블랙박스'와도 같다

  • 사용자가 짧은 명령어, 즉 프롬프트(Prompt)를 입력하고 몇 초 기다리면, 입력한 프롬프트 텍스트에 알맞은 이미지가 몇 개 생성된다.
  • 사용자는 의도를 더 잘 반영하는 방향으로 프롬프트 텍스트를 수정한다.
  • 이 과정을 프롬프트 엔지니어링이라고 한다.
  • 이 때 사용자는 이미지 생성기의 내부에서 어떤 일이 일어나는지 모른다.

모델 구성

두 개의 신경망으로 구성된다.

  • 하나는 이미지와 해당 이미지를 설명하는 텍스트(캡션)을 연력하도록 학습되고,
  • 다른 하나는 아무런 사전 지식없이 이미지를 생성하도록 학습된다.
  • 두 번째 신경망이 이미지를 생성하면, 첫 번째 신경망이 해당 이미지가 프롬프트와 일치하는지 확인해서 승인하는 방식

학습 과정

  • Diffusion model을 사용하여, 학습 과정에서 더해진 픽셀 노이즈를 제거해 이미지를 정리하도록 학습한다.
  • 이미지를 가져와서 원래 이미지가 지워지고 임의로 배치된 픽셀만 남겨질 때까지 픽셀을 조금씩 바꾸는 단계를 수없이 반복한다.
  • Stable Diffusion에 사용된 Diffusion model 개발에 기여한 비외른 오머는 "이 작업을 천 번 정도 반복하면 결국에는 텔레비전에서 안테나 케이블을 뽑아버렸을 때 나오는 노이즈 같은 이미지가 만들어진다."라고 설명했다.
  • 그 후, 신경망은 이 과정을 되돌려서 주어진 이미지의 픽셀이 정리된 모습을 예측하도록 학습한다.
  • 그렇게 정리된 픽셀을 다시 입력하면 Diffusion model은 픽셀을 더 정리해서 이미지를 생성한다.
  • 최종적으로 노이즈로 가득했던 텔레비전 화면을 고해상도 이미지로 돌려놓을 수 있게 된다.
  • 한 마디로 "노이즈를 만든 후 되돌아가며 원본을 예측하는 방식"

동작 원리

  1. 텍스트와 시각적 Semantics 연결
  • CLIP 모델 이용 -> 수많은 이미지와 관련 캡션을 이용하여 해당 이미지와 캡션의 연관성을 학습한다.
  1. 시각적 Semantics로부터 이미지 생성
  • GLIDE 모델 이용 -> 이미지 인코딩 프로세스를 되돌아가며 학습한다. 여기서 Diffusion 모델을 사용한다.
  1. 텍스트의 의미 -> 해당 시각적 Semantics 매핑
  • Prior 모델 이용 -> 이미지 캡션의 텍스트 인코딩을 해당 이미지의 이미지 인코딩으로 매핑한다.
  1. 모든 것을 통합
  • CLIP 텍스트 인코더가 이미지 설명을 표현 공간에 매핑
  • DIffusion Prior가 CLIP 텍스트 인코딩을 관련 CLIP 이미지 인코딩으로 매핑
  • 수정된 GLIDE 생성 모델이 역확산을 이용해 표현 공간을 이미지 공간으로 매핑하고, 입력된 캡션 내에서 Semantics를 전달하는 이미지들을 생성
profile
중요한 것은 꺾이지 않는 런타임

0개의 댓글