WU, Chenfei, et al. Qwen-image technical report. arXiv preprint arXiv:2508.02324, 2025.
본 연구에서는 복잡한 텍스트 렌더링과 정밀한 이미지 편집에서 상당한 진보를 이룬 Qwen 시리즈의 이미지 생성 foundation model인 Qwen-Image를 제시합니다.
text-to-image 생성(T2I)과 이미지 편집(TI2I)을 모두 포함하는 이미지 생성 모델은 현대 인공지능의 기본 구성 요소로 등장했습니다. 기계가 텍스트 프롬프트에서 시각적으로 매력적이고 의미적으로 일관된 콘텐츠를 합성하거나 수정할 수 있게 합니다. 지난 몇 년 동안 이 분야에서 놀라운 진전이 있었습니다. 특히 fine-grained semantic detail을 캡처하면서 고해상도 이미지 생성을 가능하게 하는 diffusion-based architecture의 출현과 함께 말입니다.
이러한 진전에도 불구하고 두 가지 중요한 문제가 지속됩니다:
첫째, text-to-image 생성에서 복잡하고 다면적인 프롬프트와 모델 출력의 정렬은 여전히 중요한 장벽입니다. 우리의 평가에 따르면 GPT Image 1이나 Seedream 3.0과 같은 state-of-the-art 상용 모델들도 multi-line 텍스트 렌더링, non-alphabetic language 렌더링(예: 중국어), 지역화된 텍스트 삽입, 또는 텍스트와 시각적 요소의 매끄러운 통합을 요구하는 태스크에 직면했을 때 어려움을 겪습니다.
둘째, 이미지 편집에서 편집된 출력과 원본 이미지 간의 정확한 정렬을 달성하는 것은 이중 도전을 제기합니다: (i) visual consistency - 대상 영역만 수정되어야 하고 다른 모든 시각적 세부사항은 보존되어야 함(예: 얼굴 세부사항을 변경하지 않고 머리 색깔 변경) (ii) semantic coherence - 구조적 변화 중에도 전역 semantic을 보존해야 함(예: 정체성과 장면 일관성을 유지하면서 사람의 자세 수정)
본 연구에서는 포괄적인 data engineering, progressive learning 전략, 강화된 multi-task training paradigm, 그리고 확장 가능한 infrastructure 최적화를 통해 이러한 도전을 극복하도록 설계된 Qwen 시리즈의 새로운 이미지 생성 모델인 Qwen-Image를 소개합니다.
Qwen-Image의 주요 기여사항은 다음과 같이 요약됩니다:
뛰어난 텍스트 렌더링: Qwen-Image는 multiline layout, paragraph-level semantic, fine-grained detail을 포함한 복잡한 텍스트 렌더링에 탁월합니다. alphabetic language(예: 영어)와 logographic language(예: 중국어) 모두를 높은 충실도로 지원합니다.
일관된 이미지 편집: 강화된 multi-task training paradigm을 통해 Qwen-Image는 편집 작업 중 semantic meaning과 visual realism을 모두 보존하는 데 뛰어난 성능을 달성합니다.
강력한 cross-benchmark 성능: 여러 benchmark에서 평가한 결과, Qwen-Image는 다양한 생성 및 편집 태스크에서 기존 모델들을 지속적으로 능가하여 이미지 생성을 위한 강력한 foundation model을 확립합니다.
이 섹션에서는 훈련 데이터와 훈련 세부사항에 대한 포괄적인 개요와 함께 Qwen-Image 모델의 아키텍처 설계를 제시합니다.
Figure 6에서 보듯이, Qwen-Image 아키텍처는 고충실도 text-to-image 생성을 가능하게 하기 위해 조화롭게 작동하는 세 가지 핵심 구성 요소로 구성됩니다:
Qwen-Image는 텍스트 입력을 위한 feature extraction module로 Qwen2.5-VL 모델을 사용합니다. 세 가지 주요 이유는 다음과 같습니다:
강력한 VAE representation은 강력한 이미지 foundation model을 구축하는 데 중요합니다. 현재 이미지 foundation model들은 일반적으로 대규모 이미지 dataset에서 2D convolution으로 이미지 VAE를 훈련하여 고품질 이미지 representation을 얻습니다.
우리의 작업은 이미지와 비디오 모두와 호환되는 더 일반적인 visual representation을 개발하는 것을 목표로 합니다. 기존의 joint image-video VAE들은 일반적으로 이미지 reconstruction 능력이 저하되는 성능 trade-off를 겪습니다. 이를 해결하기 위해 single-encoder, dual-decoder 아키텍처를 활용합니다.
reconstruction fidelity, 특히 작은 텍스트와 fine-grained detail을 향상시키기 위해 텍스트가 풍부한 이미지의 in-house corpus에서 decoder를 훈련합니다. dataset은 alphabetic(예: 영어)와 logographic(예: 중국어) 언어를 모두 다루는 실제 문서(PDF, PowerPoint 슬라이드, 포스터)와 합성 paragraph로 구성됩니다.
Qwen-Image는 텍스트와 이미지를 jointly 모델링하기 위해 Multimodal Diffusion Transformer(MMDiT)를 채택합니다. 이 접근법은 FLUX 시리즈와 Seedream 시리즈 같은 다양한 작업에서 효과적임이 입증되었습니다.
각 block 내에서 새로운 positional encoding 방법인 Multimodal Scalable RoPE(MSRoPE)를 도입합니다. Figure 8에서 보듯이, 다양한 text-image joint positional encoding 전략을 비교합니다.
MSRoPE의 특징:
이미지 생성 모델의 훈련을 지원하기 위해 수십억 개의 이미지-텍스트 쌍을 체계적으로 수집하고 주석을 작성했습니다. raw dataset의 규모에만 집중하는 것보다 데이터 품질과 균형 잡힌 데이터 분포를 우선시하여 실제 시나리오를 밀접하게 반영하는 잘 균형 잡히고 대표적인 dataset을 구축하는 것을 목표로 했습니다.
Figure 9에서 보듯이, dataset은 네 가지 주요 도메인으로 구성됩니다:
Nature (약 55%): Objects, Landscape, Cityscape, Plants, Animals, Indoor, Food 카테고리 등 다양한 하위 카테고리를 포함합니다.
Design (약 27%): Poster, User Interface, Presentation Slide와 같은 구조화된 시각적 콘텐츠와 회화, 조각, 공예품, 디지털 아트 등 다양한 형태의 예술을 포함합니다.
People (약 13%): Portrait, Sports, Human Activities 등의 하위 카테고리를 포함합니다.
Synthetic Data (약 5%): 통제된 텍스트 렌더링 기술을 통해 합성된 데이터입니다.
이미지 생성 모델의 반복적 개발 과정에서 고품질 훈련 데이터를 큐레이션하기 위해 Figure 10에 나타난 바와 같이 7단계의 순차적 단계로 구성된 multi-stage 필터링 파이프라인을 제안했습니다.
Stage 1: Initial Pre-training Data Curation
Stage 2: Image Quality Enhancement
Stage 3: Image-Text Alignment Improvement
Stage 4: Text Rendering Enhancement
Stage 5: High-Resolution Refinement
Stage 6: Category Balance and Portrait Augmentation
Stage 7: Balanced Multi-Scale Training
데이터 주석 파이프라인에서 포괄적인 이미지 설명뿐만 아니라 필수 이미지 속성과 품질 특성을 캡처하는 구조화된 메타데이터를 생성하기 위해 능력있는 이미지 captioner(예: Qwen2.5-VL)를 활용합니다.
captioning과 메타데이터 추출을 독립적인 태스크로 처리하는 대신, captioner가 동시에 시각적 콘텐츠를 설명하고 JSON과 같은 구조화된 형식으로 세부 정보를 생성하는 주석 프레임워크를 설계했습니다.
실제 이미지에서 텍스트 콘텐츠의 long-tail distribution, 특히 중국어와 같은 non-Latin 언어에서 수많은 문자가 극도로 낮은 빈도를 나타내는 문제를 해결하기 위해 multi-stage text-aware 이미지 합성 파이프라인을 제안합니다.
세 가지 보완적 전략:
Pure Rendering in Simple Backgrounds: 가장 직접적이고 효과적인 방법으로 문자 인식 및 생성을 훈련합니다.
Compositional Rendering in Contextual Scenes: 합성 텍스트를 현실적인 시각적 맥락에 삽입하여 일상 환경에서의 모습을 모방합니다.
Complex Rendering in Structured Templates: 복잡하고 구조화된 프롬프트를 따르는 모델의 능력을 향상시키기 위해 사전 정의된 템플릿의 프로그래밍적 편집에 기반한 합성 전략을 제안합니다.
Qwen-Image를 pre-train하기 위해 flow matching 훈련 목표를 채택하여 ordinary differential equation(ODE)을 통한 안정적인 학습 dynamics를 촉진하면서 maximum likelihood 목표와의 동등성을 보존합니다.
훈련 과정:
손실 함수:
대규모 GPU cluster로 확장할 때 높은 throughput과 훈련 안정성을 모두 보장하기 위해 데이터 전처리와 모델 훈련을 분리하는 Ray에서 영감을 받은 Producer-Consumer 프레임워크를 채택합니다.
Producer 측면:
Consumer 측면:
Qwen-Image 모델의 큰 parameter 크기를 고려하여 FSDP만으로는 각 GPU에 모델을 맞추기에 불충분합니다. 따라서 훈련을 위해 Megatron-LM을 활용하고 다음 최적화를 적용합니다:
Hybrid Parallelism Strategy: data parallelism과 tensor parallelism을 결합한 hybrid parallelism 전략을 채택했습니다.
Distributed Optimizer and Activation Checkpointing: GPU 메모리 압력을 완화하기 위해 distributed optimizer와 activation checkpointing을 실험했습니다.
데이터 품질, 이미지 해상도, 모델 성능을 점진적으로 향상시키는 것을 목표로 하는 multi-stage pre-training 전략을 채택합니다:
Qwen-Image를 위한 post-training 프레임워크는 supervised fine-tuning(SFT)과 reinforcement learning(RL)의 두 단계로 구성됩니다.
SFT 단계에서는 semantic 카테고리의 계층적으로 구성된 dataset을 구축하고 세심한 인간 주석을 사용하여 모델의 특정 단점을 해결합니다.
두 가지 서로 다른 RL 전략을 사용합니다:
(A) Direct Preference Optimization (DPO)
(B) Group Relative Policy Optimization (GRPO)
text-to-image(T2I) 생성 외에도, text와 image 입력을 모두 포함하는 multimodal 이미지 생성 태스크를 탐구하기 위해 base model을 확장합니다.
포함된 태스크:
Qwen-Image의 일반적인 이미지 생성 능력을 종합적으로 평가하고 state-of-the-art closed-source API와 객관적으로 비교하기 위해 Elo rating system을 기반으로 구축된 오픈 벤치마킹 플랫폼인 AI Arena를 개발했습니다.
AI Arena 특징:
경쟁자:
결과: Qwen-Image는 유일한 오픈소스 이미지 생성 모델로서 AI Arena에서 3위를 차지했습니다.
여러 state-of-the-art 이미지 tokenizer를 정량적으로 평가하여 reconstruction 품질을 평가하기 위해 Peak Signal-to-Noise Ratio(PSNR)와 Structural Similarity Index Measure(SSIM)를 보고합니다.
Table 2 결과: Qwen-Image-VAE는 평가된 모든 메트릭에서 state-of-the-art reconstruction 성능을 달성합니다.
두 가지 관점에서 Qwen-Image의 T2I 태스크 성능을 평가합니다: 일반적인 생성 능력과 텍스트 렌더링 능력.
주요 벤치마크 결과:
text와 image를 conditioning 입력으로 매끄럽게 통합하는 Qwen-Image의 multi-task 버전을 이미지 편집(TI2I) 태스크를 위해 추가로 훈련했습니다.
주요 벤치마크 결과:
Figure 17은 state-of-the-art 이미지 VAE들로 텍스트가 풍부한 이미지를 reconstruction한 정성적 결과를 보여줍니다. 우리 결과에서 "double-aspect"라는 구문이 명확하게 읽을 수 있게 남아있는 반면, 다른 모델들의 reconstruction에서는 인식할 수 없습니다.
Qwen-Image의 text-to-image 생성 능력을 종합적으로 평가하기 위해 네 가지 측면에서 정성적 평가를 수행합니다:
Qwen-Image의 이미지 편집(TI2I) 능력을 종합적으로 평가하기 위해 다섯 가지 주요 측면에 초점을 맞춘 정성적 평가를 수행합니다:
본 논문에서는 복잡한 텍스트 렌더링과 정밀한 이미지 편집에서 주요한 진전을 달성한 Qwen 시리즈의 이미지 생성 foundation model인 Qwen-Image를 소개했습니다. 포괄적인 데이터 파이프라인을 구축하고 progressive curriculum learning 전략을 채택함으로써 Qwen-Image는 생성된 이미지 내에서 복잡한 텍스트를 렌더링하는 능력을 크게 향상시켰습니다.
개선된 multi-task training paradigm과 dual-encoding 메커니즘을 통해 이미지 편집의 일관성과 품질을 현저히 향상시켜 semantic coherence와 visual fidelity를 모두 효과적으로 개선했습니다. 공개 benchmark에서의 광범위한 실험은 다양한 이미지 생성 및 편집 태스크에서 Qwen-Image의 state-of-the-art 성능을 일관되게 보여줍니다.
더 깊은 의미와 중요성:
이미지 "생성" 모델로서의 Qwen-Image: 단순히 photorealism이나 미적 품질을 최적화하는 것이 아니라 텍스트와 이미지 간의 정확한 정렬, 특히 텍스트 렌더링의 어려운 태스크를 강조합니다.
이미지 "생성" 모델로서의 Qwen-Image: generative framework가 고전적인 이해 태스크를 효과적으로 수행할 수 있음을 보여줍니다.
"이미지" 생성 모델로서의 Qwen-Image: 2D 이미지 합성을 넘어선 강력한 일반화를 보여줍니다.
"시각적 생성" 모델로서의 Qwen-Image: 통합된 이해와 생성의 비전을 발전시킵니다.
Qwen-Image는 단순히 state-of-the-art 이미지 생성 모델 이상입니다. multimodal foundation model을 개념화하고 구축하는 방식의 패러다임 전환을 나타냅니다. 기술적 benchmark를 넘어선 기여를 통해 generative model이 perception, 인터페이스 설계, 인지 모델링에서 맡는 역할을 재고하도록 커뮤니티에 도전장을 내밉니다.