[21.2] DALL-E : Zero-Shot Text-to-Image Generation
요약(Abstract)
- 텍스트-이미지 생성은 전통적으로
고정된 데이터셋에서 훈련하기 위한 더 나은 모델링 가정을 찾는 데 초점이 맞춰져 왔습니다.
- 이러한 가정은 복잡한 아키텍처, 보조 손실, 혹은 훈련 중 제공되는 객체 부분 레이블이나 세그멘테이션 마스크와 같은 부가 정보를 포함할 수 있습니다.
- 우리는 텍스트와 이미지 토큰을 단일 데이터 스트림으로 자동회귀적으로 모델링하는 트랜스포머에 기반한 간단한 접근 방식을 설명
- 충분히 많은 데이터와 규모가 주어지면, 우리의 접근 방식은 제로샷 방식으로 평가했을 때 이전의 도메인 특화 모델들과 경쟁할 만한 성능을 보입니다.
1. 서론(Introduction)
- 텍스트-이미지 생성은 전통적으로 MS-COCO나 CUB-200(Welinder et al., 2010)과 같은 비교적 작은 데이터셋에서 평가되었습니다.
- 데이터셋 크기와 모델 크기가 현재 접근 방식의 한계 요인이 될 수 있을까요?
- 본 연구에서는
250억 개의 파라미터를 가진 자동회귀 트랜스포머를 인터넷에서 수집한 2억 5천만 개의 이미지-텍스트 쌍에 대해 훈련하면,
- 자연어로 제어 가능한 유연하고 고품질의 이미지 생성 모델을 생성할 수 있음을 보여줍니다.
- 결과적으로, 이 시스템은 MS-COCO 데이터셋에서 레이블을 사용하지 않고 제로샷 방식으로 높은 품질의 이미지 생성을 달성
- 또한, 복잡한 작업(예: 이미지 간 변환)을 기본적인 수준에서 수행할 수 있음을 발견했습니다.
- 이는 이전에는 맞춤형 접근 방식이 필요했으나(Isola et al., 2017), 이제는 하나의 대규모 생성 모델의 기능으로 나타납니다.