본 논문은 conditional diffusion models를 기반으로 image-to-image 변환을 위한 통합 framework를 개발하고, 이 framework을 image-to-image변환(colorization, inpainting, uncropping, JPEG restoration)에 대해 평가한다.
본 논문에서 제안하는 간단한 image-to-image 모델은 hyper-parameter tuning, architecture customization 또는 auxiliary loss, 정교한 새 기술 없이 강력한 GAN및 regression baseline을 능가한다.
Denoising diffusion objective에서 L2 vs. L1 loss가 샘플 다양성에 미치는 영향을 발견하고, 연구를 통해 neural architecture에서 self-attention의 중요성을 입증한다.
평가 프로토콜은 ImageNet, 사람의 평가 및 샘플 품질 score(FIE, Inception Score, pretrained ResNet50의 분류 정확도, 원본 이미지에 대한 Perceptual distance)를 포함한다.
이 표준화된 평가 프로토콜이 image-to-image translation 연구를 지전시킬 것으로 기대된다.
Generalist, Multi-task diffusion model이 task-specific specialist counterparts보다 성능이 우수하다는 것을 보여준다.
(많은 task를 cover하는 일반적인 모델이 specific모델보다 성능이 우수하다는 뜻인듯)
1. Introduction
시각과 이미지 처리의 많은 문제들은 공식화 될 수 있다.
- Image-to-image 변환(이미지 복원, piel 수준의 이미지 이해)에 대한 자연스러운 접근법은 이미지의 고차원 공간에서 multi-modal distribution을 캡처할 수 있는 deep generative models를 사용하여 입력이 주어진 output 이미지의 조건부 분포를 학습하는 것이다.
GAN은 광범위하게 적용 가능하고 효율적이지만, 학습하기 어렵고 가끔 output에서 mode를 drop한다
최근 diffusion, score-based 모델이 급증했다.
- 이는 speech synthesis, ImageNet generation 문제에서 GAN기준선을 능가했고, SR에서 뛰어난 성능을 보였지만 일반적인 framework를 제공하는 GAN과 견줄 수 있는지는 명확하지 않다
따라서, 본 논문에서는 Palette의 일반적인 적용에 대한 가능성을 조사한다.
- Image-to-image diffusion model을 구현하여, 이미지에 대한 까다로운 작업 별 아키텍처에 대해 사용자 지정, hyper-parameter의 변경, 손실이없는 팔레트가 네 가지 작업(색칠, 인페인팅, uncropping, JEPG 복원)에 대해 high-fidelity outputs을 제공한다는 것을 보여준다.
본 논문에서는 denoising loss function과 neural net architecture를 포함한 Palette의 핵심 구성요소를 연구했다.
- L1, L2 loss가 유사한 sample-quality score를 산출했지만, L2는 샘플에서 더 높은 수준의 다양성으로 이어지는 반면 L1은 더 보수적인 출력을 산출했다.
- Fully convolutional model을 위해 Pallet의 U-Net architecture의 self-attention layer를 제거하면 성능이 저하된다.
- ImageNet을 기반으로 한 inpainting, uncropping, JPEG 복원을 위한 표준화된 평가 프로토콜을 제안한다.
3. Palette
- 확산 모델 vs 조건부 확산 모델
- 확산 모델:반복적인 denoising process를 통해 표준 가우시안 분포의 샘플을 경험 기반 분포의 샘플로 변환한다.
- 조건부 확산 모델:denoising 과정을 입력 신호에 따라 조건부로 생성한다.
Image-to-image diffusion model은 조건부 확산 모델이다.
𝑝(𝒚 | 𝒙)에서 x는 grayscale image, y는 color image를 뜻한다. 이 모델은 SR모델에 적용되었다. 본 논문에서는 image-to-image diffusion model을 광범위한 task에 적용하는 연구를 진행했다.
- Loss function
training output image y 를 감안하여, noise version인 y~를 생성하고 y~의 노이즈를 줄이기 위해 x와𝛾(noise level indicator)를 감안하여 𝑓𝜃를 학습한다.
- Architecture
- 파레트는 256*256 class-conditional U-Net구조를 기반모델로 사용한다.
- Palette와 U-Net의 차이점
1. Absence of class-conditioning
2. Additional conditioning of the source image via concatenation
- Inference
Palette performs inference via the learned reverse
4. Evaluation protocol
- 이전의 Image-to-image 변환 모델의 평가 방법
- colorization : FID, human evaluation
- inpainting, uncropping : qualitative 평가에 의존
- JPEG restoration : PSNR, SSIM
많은 작업에서 평가를 위한 표준화된 데이터 세트가 부족했다. 예를 들어, 방법별 분할이 있는 다른 테스트 세트가 평가에 사용된다.
ImageNet에서 인페인팅, uncropping, JPEG restoration을 위한 통합 평가 protocol을 제안한다. PSNR, SSIM과 같은 pixel수준의 메트릭은 SR과 같은 어려운(hallucination이 필요한) 작업에 대한 샘플 품질의 신뢰할 수 있는 척도가 아니기 때문에 피한다.
본 논문에서 제안하는 4가지 image-to-image 변환에 대한 automated quantitative measures
1. Inception Score (IS)
- Fréchet Inception Distance (FID)
- Classification Accuracy (CA)
- Perceptual Distance (PD); Euclidean distance in Inception-v1 feature space.
human evaluation
fool rate:'어떤 이미지가 카메라로 촬영한 것인지 맞출 수 있는가?'라는 질문을 받았을 때, natural image보다 model output을 출력하는 인간의 비율
5. Experiments
- Colorization : grayscale의 이미지를 color로
- Inpainting : user-specified masked region을 채우자
- Uncropping : enlarge the image
- JPEG restoration : JPEG compression artifacts를 수정하자
5.2 Inpainting
- 직사각형 mask로 증강된 Free-form generated mask로 inpainting model 학습
- Palette의 일반화를 유지하기 위해, binary mask를 모델에 전달하지 않는다.
- 대신, 가우시안 노이즈로 마스크 영역을 채운다.
5.5 Self-attention in diffusion model architectures
- self-attention layer는 diffusion model을 위한 U-Net 구조에서 중요한 구성요소다.
- self-attention을 통해 layer는 global dependency를 제공하며, 보이지 않는 이미지의 해상도에 대한 일반화를 방지한다.
- 테스트 시 새로운 해상도로 일반화하는 것은 image-to-image 작업에 편리하며, 이전의 연구는 주로 fully convolution 구조에 의존했다.
- 본 논문에서는 self-attention layer가 인페인팅에 미치는 영향을 분석했다.
4 configurations
- Global Self-Attention
:3232, 1616, 8*8 해상도에서 global self-attention layer를 사용한 기본 구성
- Local Self-Attention
:feature map은 4개의 겹치지 않는 query block으로 분할된다.
- More ResNet Blocks without Self-Attention
:더 깊은 convolution통해 receptive field 사이즈를 늘릴 수 있다.
- Dilated Convolution without Self-Attention
:dilation rates가 증가하여 receptive filed가 기하급수적으로 증가한다.
Self-Attention의 중요성(완전한 convolution보다 나은 성능), local이 global보다 성능 떨어진다.
5.7 Multi-tasking learning
JPEG복원에서는 specific보다 뛰어나지만, colorization/inpainting에서는 뒤떨어진다.
- 많은 refinement steps를 필요로한다
- GAN based model에 비해 느리다
- implicit biases